一、毕业设计(论文)的主要内容及要求
1、开题报告和文献阅读
(1)文献阅读:查阅文献应不少于15篇,其中外文文献不少于2篇,近5年内的文献数一般不少于文献总数的1/3,并应有近2年内的文献。
(2)文献综述:3000字以上,包括国内外现状、研究方向、进展情况、存在问题、参考依据等。
(3)开题报告:2000字以上,包括选题的意义、可行性分析、研究的内容、研究方法、拟解决的关键问题、预期结果、研究进度计划等。
(4)外文翻译:3000字以上(翻译成中文后的汉字字数)。
2、课题要解决的主要问题和具体要求
要解决的主要问题:目前对以朴素贝叶斯算法为代表的传统文本分类算法,普遍存在特征权重一致,考虑指标单一等问题,为了解决这个问题,本文提出一种基于改进TF-IDF的朴素贝叶斯算法,对不同词性的词语分配不同的权重,从而提高算法的准确性。
具体要求:
(1) 对目前朴素贝叶斯算法和文本分类作一个简要论述
(2) 对数据进行预处理
(3) 学习用Python编程
(4) 学习朴素贝叶斯文本分类算法原理
(5) 用Python实现基于改进TF-IDF的朴素Bayes文本分类器
3、论文:10000字以上(部分特殊专业根据实际情况,经教务与资产管理处确认,可适当调整有关字数方面的要求),包括绪论、正文、结论、参考文献等。
二、主要参考文献
[1] 李荣陆.文本分类及相关技术研究[D].上海:复旦大学,2005.
[2] 张航. 基于朴素贝叶斯的中文文本分类及Python实现[D].山东师范大学,2018.
[3] 程克非, 张聪. 基于特征加权的朴素贝叶斯分类器[J]. 计算机仿真, 2006(10):100-102+158..
[4] 杨帆, 张彩丽. 基于粗集的朴素贝叶斯分类算法及其应用[J]. 计算机工程与应用2007(29):193-195.
[5] Shing-Hwa Lu, Ding-An Chiang, Huan-Chao Keh, et al.Chinese text classification by the Naïve Bayes Classifier and the associative classifier with multiple confidence threshold Value[J].Knowledge-Based SystemsVolume 23, Issue 6, 2010, Pages598-604.
指导教师签名:
年 月 日
|