一、毕业设计(论文)的主要内容及要求
1、开题报告和文献阅读
(1)文献阅读:查阅文献应不少于15篇,其中外文文献不少于2篇,近5年内的文献数应不少于文献总数的1/3,并应有近2年内的文献。
(2)文献综述:3000字以上,包括国内外现状、研究方向、进展情况、存在问题、参考依据等。
(3)开题报告:2000字以上,包括选题的意义、可行性分析、研究的内容、研究方法、拟解决的关键问题、预期结果、研究进度计划等。
(4)外文翻译:3000字以上(翻译成中文后的汉字字数)。
2、课题要解决的主要问题和具体要求
要解决的主要问题:
Wiki百科包含大量知识条目,内容丰富齐全。本课题专注于Wiki百科的网页解析,尤其是一种数学部分。Wiki百科还包含大量的数学公式,这些公式基本上使用latex的语法。要解析数学公式,就要解析latex语法。Tex文件毕竟是源文件不容易获得,而Wiki百科的网页是自由访问的。因此能全面解析Wiki百科的网页是很有意义的。
具体要求:
(1) 简单描述Wiki百科网页内容的组织形式,尤其是其中的数学公式
(2) 学习Python编程,学习正则表达式,掌握一些文本处理库或网页处理库(标准库有HTMLParser, sml, 第三方库有pyparsing, Beautiful soap, nltk等)
(3) 了解latex语法,主要是编辑数学公式的语法
(4) 设计针对Wiki百科网页(尤其是自重的数学公式)的解析程序
3、论文:10000字以上(部分特殊专业根据实际情况,经教务办确认,可适当调整有关字数方面的要求),包括绪论、正文、结论、参考文献等。
二、主要参考文献
[1] D. M. Beazley. Python 参考手册[M]. 北京: 人民邮电出版社, 2011.
[2] S. Bird, E. Klein and E. Loper. Python 自然语言处理[M]. 南京:东南大学出版社,2010.
[3] M. Fitzgerald. 学习正则表达式[M]. 北京: 人民邮电出版社, 2013.
[4] P. McGuire. Pyparsing Wiki Home[OL]. 2013. http://pyparsing.wikispace.com.
[5] J. McNeil. Python Text Processing Beginner’s Guide---The easiest way to learn how to manipulate test with Python[M]. Birmingham: Packt Publishing Ltd, 2010.
[6] E. Rich. 自动机理论与应用[M]. 北京: 清华大学出版社, 2011.
[7] J. Wales, L. Sanger. Wikipedia [OL]. 2015. https://en.wikipedia.org/wiki/ Wikipedia,
|