目录
1 选题的背景和意义
1.1 选题的背景
1.2 国内外研究现状
1.2.1国内研究现状
1.2.2国外研究现状
2 研究的基本内容
2.1 基本框架
2、分析概述朴素贝叶斯算法,强化学习算法的定义、原理及特点;
2.2 研究的重点和难点
2.3 拟解决的关键问题
3 研究的方法及措施
4 预期成果
5 研究工作进度计划
参考文献
1 选题的背景和意义
1.1 选题的背景
人工智能是现代社会研究的最火的项目之一。2016年是人工智能给大众印象最深刻得一年。这一年,Deep Mind研发的计算机围棋程序阿尔法狗打败了世界顶尖的围棋选手李世乭,以4比1的成绩轻松的拿下比赛。不同于1997年深蓝击败卡斯帕罗夫的是,阿尔法狗大程度采用了强化学习的理念,在与环境交互过程中学习策略已达到最佳方案。强化学习早在1989年就被应用于跳棋游戏中,加拿大阿尔伯坦大学的团队,做了一个跳棋的人工智能Chinook,它在真正意义上破解了跳棋,不管是面对什么样的对手,它都不会输。
强化学习是机器学习的一个领域,其灵感来源于心理学中的行为主义理论,即强调计算机对不同的环境和状态进行尝试,正确就给予奖励,错误就给予惩罚,通过各种尝试,得到最大利益的行为或方案。强化学习具有普适性,所以它在运筹学、博弈论、遗传算法等领域得到广泛的应用。
1.2 国内外研究现状
1.2.1国内研究现状
郭勋诚(2019)详细地介绍了贝叶斯算法和朴素贝叶斯算法的原理、流程及运用,并列举了相关例证[1。金鑫(2013)通过强化学习对文档所带的情感自我学习提取的主观性摘要作为训练数据集从而对其他文档级情感进行分类[2]。李祥等(2011)把已知的系统性能的数据作为训练集,引入朴素贝叶斯分类器,从而对系统的各项性能进行预测[3]。何伟等(2007)把已知的气象数据作为训练集,通过强化学习提出了预测降雨量的朴素贝叶斯算法解决了气象工作者选择因子困难的问题[4]。段勇等(2009)研究了以朴素贝叶斯分类器预测智能体动作和状态的多智能体强化学习算法,实现足球机器人在比赛中应用出完美的策略[5]。梅晓晴(2018)运用朴素贝叶斯分类器提前预测考生行为,帮助监考人员监考并能及时作出策略方案,提高考试管理效率[6]。梅国薇(2017)将强化学习算法运用于网络流量分类领域,通过比较不同算法,不同模型下的分类情况进而得到自己所需的分类方式[7]。
1.2.2国外研究现状
Nees Jan van Eck等(2008)结合使用强化学习与函数逼近方法状态空间较大的顺序决策问题----奥赛罗游戏[8]。Berat Mert Albaba等(2019)采用强化学习来预测时间延长的交互动力学并结合与博弈论之间的关系来预测具有多种人类交互作用的网络物理系统的结果[9]。Adedapo Odekunle 等(2019)将强化学习(RL),差分博弈论和输出调节等技术相结合研究连续时间多玩家线性系统的非零和游戏输出调节问题[10]。S. KamalChaharsooghi等(2008)通过强化学习排序机制来协调各个环节的订购策略,以最大程度地降低库存成本[11]。WaiChingSun等(2018)采用深度强化学习来生成接口的机械本构模型提出了一种新的元建模框架[12]. XinWang等(2019)提出了一种基于深度强化学习的智能农业物联网系统[13]。SantiagoGrijalva等(2019)对强化学习在开发自主建筑能源管理系统中的应用的文献进行了全面的回顾[14]。