基于Python的Wiki百科网页分析
【摘要】维基百科作为世界的百科全书,在信息的传递与获取方面提供了良好的基础平台,世界各地所有的人都可以在上面交流思想。Wiki百科还包含大量的数学公式,这些公式基本上使用latex的语法。要解析数学公式,就要解析latex语法。而本文用python的解析工具pyparsing对Wiki百科网页进行解析。主要任务是设计网页上的数学公式的上下文无关文法,利用pyparsing建立针对这个文法的解析器。我们设计的解析程序可从网页中提取出数学公式及其结构。
【关键词】上下文无关文法,pyparsing语法,Wiki百科网页分析,latex语法
Python-based web analytics Wiki Encyclopedia
【Abstract】Wikipedia as the encyclopedia of the world, provides a good fundamental platform for transmission and accession of information, where all the people around the world can exchange their ideas. Wiki encyclopedia also contains a large number of mathematical formulas that are basically written in latex syntax. To parse mathematical formula, it is necessary to parse latex syntax. In this paper, pyparsing the parsing tool of python is used to parse the wiki webpage. The main task is to design the context-free grammar of mathematical expression in wiki, then build the parser against the grammar with pyparsing. The parsing program designed by the author can extract the mathematical formulas and the structure from wiki.
【Key Words】context-free grammar,pyparsing syntax,Wiki web parsing,latex syntax
目 录
1 绪 论
1.1研究背景
1.2 研究现状
1.2.1 python发展现状
1.2.2 Wiki百科的特点
1.3 研究内容
1.3.1研究内容
1.3.2研究的重点和难点
1.3.3拟解决的关键问题
1.3.4成果
2理论基础
2.1 Python基本语法
2.1.1代码块与缩进
2.1.2多行语句
2.1.3循环语句
2.1.4循环控制语句
2.1.5数据类型和运算
2.1.6函数
2.1.7其他
2.2 Tex的基本语法
3程序设计
3.1形式文法的基本原理
结 论
参考文献
附 录
致 谢