用于机组组合问题的强化学习算法
摘要:在这篇文章中,我们完成了将机组组合问题建模为马尔可夫决策过程且借此为发电调度寻找对应的低成本策略的工作,从而完成求解日前的机组组合问题。本文展示了已有的两种强化学习算法,并且设计了第三种方法。本文将该结果与之前其他文献中使用模拟退火算法的结果进行对比,结果显示能够有效地将运行成本缩减 27%,且运行时间为 2.5 分钟(相比之下,现有最先进的算法为 2.5 小时)。
目录
A.1简介 51
A.2机组组合问题建模 52
A.2.1目标函数 52
A.2.2约束条件 52
A.2.3成本函数 53
A.3马尔可夫决策过程 53
A.3.1状态空间 54
A.3.2动作空间 54
A.3.3奖励 54
A.3.4转移核 54
A.4强化学习 54
A.5强化学习算法解决方案 55
A.5.1算法 1近似策略迭代分类法 (Approximate Policy Ieration) 55
A.5.2算法 2树形搜索 (Tree Search) 57
A.5.3算法 3回扫法 (Back Sweep) 59
A.6实验 60
A.6.1算法 1 60
A.6.2算法 2 60
A.6.3算法 3 61
A.6.4结果对比 61
A.7总结 61
参考文献 63