近日,中国科学院沈阳自动化研究所在车间智能调度方面取得新进展,基于深度强化学习方法,实现了动态订单下可重构车间对动态生产调度和车间重构的实时优化和智能决策。相关研究成果发表在International Journal of Production Research上。
由于车间调度问题多属于NP难问题,传统元启发式算法只能在多项式时间内求得近优解。对大规模问题,元启发式算法的求解时间难以满足动态生产环境下实时决策的需求。另外,小批量定制化的生产模式,要求车间满足动态可重构。如何对可重构车间的生产调度和车间重构进行实时优化和动态协同是研究难点。
科研人员基于深度强化学习方法,将生产调度和车间重构的决策过程建模为马尔科夫决策过程,建立了调度和重构系统的深度强化学习模型,设计了奖励函数、状态空间和行为空间等。训练后,决策智能体在求解质量和求解时间上取得了比2种元启发式算法(迭代贪婪算法和遗传算法)更优的结果。智能体对单个工件的决策时间仅为1.47 ms,可用于动态生产环境下可重构车间的实时优化和智能决策。
研究工作得到国家自然科学基金和辽宁省自然科学基金项目的支持。