目录
基于分词朴素贝叶斯分类器的构造和应用的文献综述
1 前言
2 国内外相关研究概况
2.1 中科院计算所汉语词法分析系统 ICTCLAS
2.2 海量科技的分词产品
2.3 基于字符串匹配的分词算法
2.4 基于统计语言模型的自动分词算法
2.5 基于理解的分词算法
2.6 基于字的切分法
3 待解决问题和解决问题的重难点
4 结论
4.1 个别解决方案
4.2 整体解决方案
4.2.1 有穷多层次列举法
4.2.2 语料统计
4.2.3 局部统计
4.2.4 结合词性标注
参考文献
基于分词朴素贝叶斯分类器的构造和应用的文献综述
1 前言
随着信息化时代的不断进步和发展,人们获取信息的手段也在不断的发生着变化,从原始的手工查找到现在的计算机搜索引擎。计算机技术的发展极大的促进了信息检索技术的进步,搜索引擎作为信息检索的主要手段,其发展受到越来越多研究机构和个人的重视。搜索引擎作为检索工具,其发展给我们的生活带来了前所未有的方便和快捷。当人类利用谷歌、百度等搜索引擎进行信息的查询和检索时,它们是如何知道我们最想要的结果是什么,有多少结果是我们需要的。
汉语言的博大精深使它不能像英语那样容易让人理解。当利用计算机处理汉语言时,输入计算机的仅仅是一连串的字符序列,除了标点符号就没有其他的分割标志,而英语却有一个明显的分割标志—空格,这使汉语分词遇到了一些在英语中没有的问题,这些问题都集中体现在中文分词技术中,其中以歧义词的切分和未登录词的识别为代表。
本文在此基础上,提出基于贝叶斯网络构建分词模型,引入词类的概念,在模型的框架下一并完成交叉、组合歧义消解等任务,在保证精度和召回率的情况下,有效提高分词效率。
2 国内外相关研究概况
目前研究分词的团体和学者很多,但大多都集中于研究通用的分词算法,以提高分词准确率为目的。学术界关于分词的评测也是以通用的分词精确度为准绳。而鉴于分词在切分标准和切分算法本身上存在的这些困难,希望能够针对一项具体的上层应用来研究相关的分词技术,这样便于有一个比较确定的分词规范和目标,然后可以有针对性的在分词算法方面有所突破。
众所周知,英文是以词为单位的,词和词之间靠空格隔开,所以当我们看到一句英语句子时,最基本的是能把这句话中的每个词都能找出来,而中文是以字为单位,字与字之间没有切分标记,这就需要通过某种方法把这句话中的每个词找出来,这样才能最准确的理解说话者的含义。
目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM 研究院、微软中国研究院等都有自己的研究队伍,专业研究的公司有海量科技一家。其中,目前公认最为成功的中文分词技术是海量科技公司的中文分词组件产品,该公司的分词组件基本上能满足一些中文信息处理领域的应用。以下是一些比较成功的中文分词系统(组件):
2.1 中科院计算所汉语词法分析系统 ICTCLAS
该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97%以上,未登录词识别召回率均高于 90%,其中中国人名的识别召回率接近 98%,处理速度为 31.5Kbyte/s。
2.2 海量科技的分词产品
海量科技公司致力于分词功能组件,据海量科技有限公司官方网站上公布的数据,在 CPU—AMD 2500+、内存—512M DDR 环境下中文智能分词功能基础组件的切分准确率为 99.5%,切分速度为 33.5 万字/s。主要应用领域为:
信息检索:如全文检索、主题检索。
汉字处理:如智能拼音输入、手写识别输入、中文 OCR 识别、自动校对、简繁转换。
语音处理:如语音合成、语音识别。
内容识别与分析:如信息摘录、自动文摘、自动标引、文本自动分类、自动过滤、数据挖掘。
自然语言理解:如机器翻译、自然语言接口。
中文分词技术目前在国内已得到相当的发展,研究团队也在不断的增加,各种分词算法的思想多种多样,但从总体可以将这些分词算法归为两大类:机械性分词和理解性分词。