1 选题的背景和意义
1.1 选题的背景
随着信息化时代的不断进步和发展,人们获取信息的手段也在不断的发生着变化,从原始的手工查找到现在的计算机搜索引擎。计算机技术的发展极大的促进了信息检索技术的进步,搜索引擎作为信息检索的主要手段,其发展受到越来越多研究机构和个人的重视。搜索引擎作为检索工具,其发展给我们的生活带来了前所未有的方便和快捷。当人类利用谷歌、百度等搜索引擎进行信息的查询和检索时,它们是如何知道我们最想要的结果是什么,有多少结果是我们需要的。
汉语言的博大精深使它不能像英语那样容易让人理解。当利用计算机处理汉语言时,输入计算机的仅仅是一连串的字符序列,除了标点符号就没有其他的分割标志,而英语却有一个明显的分割标志—空格,这使汉语分词遇到了一些在英语中没有的问题,这些问题都集中体现在中文分词技术中,其中以歧义词的切分和未登录词的识别为代表。
1.2 国内外研究现状及发展趋势
文档分类是组织大规模文档数据的基础和核心, 利用计算机进行自动文档分类是自然语言处理和人工智能领域中一项具有重要应用价值的课题。而中文分词是中文信息处理的重要基础,主要方法有基于词典和基于统计2类,实际应用时往往将2种方法结合使用。目前主流的分词方法有层次隐马尔科夫模型分词、句法树分词、N-最大概率法分词、基于字位标注的分词等。现有的分类方法主要是基于统计理论和机器学习方 法的, 比较著名的文档分类方法有 Bayes、 KNN、 LLSF、 Nnet、 Boosting及 SVM等。张华平,刘群(2002)提出了Ⅳ最短路径的一元语法(Unigram)统计粗分模型,取得了较好的效果,但存在粗分结果数量过多和粗分结果不准确等问题。吴春颖,王士同(2007)在此基础上提出基于二元语法(Bigram)的有向无环图的最短路径粗分模型,效果有所改善,但主要着眼于提高分词的召回率,对精度的优化未做介绍,对歧义切分和未登录词未做处理。贝叶斯分类器是基于贝叶斯学习方法的分类器, 其原理虽然较简单, 但是其在实际应用中很成功。贝叶斯模型中的朴素贝叶斯算法有一个很重要的假设, 就是属性间的条件独立, 而现实中属性之间这种独立性很难存在。
2 研究的基本内容
2.1 基本框架
1引言
2中文分词与特征提取
3信息增益与特征选择
4贝叶斯分类器的构建
5实验方案及结果分析
6结论