一、毕业设计(论文)的主要内容及要求
1、开题报告和文献阅读
(1)文献阅读:查阅文献应不少于15篇,其中外文文献不少于2篇,近5年内的文献数一般不少于文献总数的1/3,并应有近2年内的文献。
(2)文献综述:3000字以上,包括国内外现状、研究方向、进展情况、存在问题、参考依据等。
(3)开题报告:2000字以上,包括选题的意义、可行性分析、研究的内容、研究方法、拟解决的关键问题、预期结果、研究进度计划等。
(4)外文翻译:3000字以上(翻译成中文后的汉字字数)。
2、课题要解决的主要问题和具体要求
要解决的主要问题:本文的主要问题为文本的预处理和文本的分类算法。具体要求即是在对文本内容分词时标注词性,并利用朴素Bayes方法对每一个基于词性的特征进行分类。
具体要求:
(1) 对目前文本分类和朴素Bayes分类作一个简要论述
(2) 对数据集文本进行预处理
(3) 学习用matlab或Python(或其它语言)编程
(4) 学习朴素贝叶斯算法和文本分类模型基本原理
(5) 用matlab或Python实现基于词性的朴素贝叶斯文本分类器
3、论文:10000字以上(部分特殊专业根据实际情况,经教务与资产管理处确认,可适当调整有关字数方面的要求),包括绪论、正文、结论、参考文献等。
二、主要参考文献
[1]胡燕,吴虎子,钟珞.中文文本分类中基于词性的特征提取方法研究[J].武汉理工大学学报,2007(04):132-135..
[2]贺鸣,孙建军,成颖.基于朴素贝叶斯的文本分类研究综述[J].情报科学,2016,34(07):147-154..
[3]陆小艺,程泽凯,林士敏.用Matlab语言建构贝叶斯分类器[J].微机发展,2004(09):33-35+39.
[4]路永和,王鸿滨.文本分类中受词性影响的特征权重计算方法[J].现代图书情报技术,2015(04):18-25.
[5]Masayuki Uchida,Nakahiro Yoshida. Adaptive Bayes type estimators of ergodic diffusion processes from discrete observations[J]. Statistical Inference for Stochastic Processes,2014,17(2).
指导教师签名:
年 月 日
|