目录
基于改进TF-IDF的朴素Bayes文本分类器
的实现和应用
1 选题的背景和意义
2 国内外研究现状及发展趋势
1.2.1 国外的研究现状
1.2.2 国内的研究现状
2 研究的基本内容
2.1 基本框架
2.2 研究的重点和难点
4、如何用python语言实现。
2.3 拟解决的关键问题
3 研究的方法及措施
4 预期成果
2、资料收集准备阶段
3、论文写作及答辩阶段
3月下旬-5月下旬 论文修改、定稿、小组答辩;
参考文献
基于改进TF-IDF的朴素Bayes文本分类器
的实现和应用
1 选题的背景和意义
随着internet的快速发展以及智能手机的大规模普及,每个人都可以加入到网络这个大家庭。每个用户都在强有力的技术支持下被信息收集交换传播速度飞速的互联网带入到信息网络时代。网络时代的特点是信息来源五花八门、信息容量无比巨大、查询速度以及传播速度和更新速度都达到了空前的规模。尽管这使用户获取信息变得更加便利以及可以看到来自世界各地各色各样的新闻娱乐科技等消息。但是随之而来也带来一些负面效应:如面对铺天盖地各种来源渠道的信息,用户想从中精准的获得真正对自己有价值的信息变得越发困难。这就对信息检索技术的要求变得越来越高,且越来越迫切,所以过去对信息的手动分类已经不能满足当前用户所需,基于此,自动文本分类技术应运而生。文本分类技术就是把可以体现文本内容的属性特征根据一定的规则将其划分到用户预先定义的不同类别中,使每个类别对应不同的主题,进而帮助用户更快捷、更高效地检索自己真正需要的信息。
朴素贝叶斯分类器是贝叶斯分类器中最常用的方法,是一种基于概率统计的方法。朴素贝叶斯分类方法是基于条件“独立性假设”,因此它适合于处理属性个数较多的分类任务,而文本分类正是这种多属性的分类任务,因此朴素贝叶斯成为文本分类的一种常用分类方法。它是目前公认的一种简单有效的概率分类方法,其性能可以与决策树、神经网络等算法媲美,在某些领域中表现出很好的性能,成为文本分类算法的重点研究对象之一。
朴素贝叶斯算法在进行特征计算以及分类的过程中,默认所有特征的权重是一致的,所以在使用朴素贝叶斯算法时,多与其他的特征加权算法共同使用,进行特征加权计算,因此提出基于TF-IDF改进的朴素贝叶斯算法,希望可以提高文本分类的精度。
2 国内外研究现状及发展趋势
1.2.1 国外的研究现状
文本分类最早是国外20世纪50年代提出开始研究。直到80年代之间都是文本分类理论研究阶段:H.P.Luhn第一次提出词频统计思想[1],并将文本内容中的词和对应文本建立索引机制进行匹配,开启了词频进行分类处理的先河[2]。随Maron和Kuhn发表的《On Relevance,ProbabilisticIndexing and Information Retrial》首次提出文本自动分类,开始了文本自动分类作为独立研究课题良好的开端[3]。
上世纪70年代,Salton在关于信息检索方面的论文中提出了向量空间模型(VSM)。此阶段的研究在信息检索领域应用较多[4]。
20世纪80年代到90年代期间,文本分类主导方法利用各领域权威专家建立的规则进行手工分类,虽然准确率高,但是较为耗时耗力,并且不同领域之间指定的规则不能平行的被移植,因此人们对于效果更好效率更高的技术需求变得更加迫切[5]。
在20世纪90年代开始之后,随着信息爆炸式的不断增加,计算机网络以及机器学习等技术的不断成熟,顺应时代发展与需求,与机器学习方法结合的文本分类技术快速的崛起。出现了基于贝叶斯算法的关键词提取,以及以文本中同义词词典作为基础的贝叶斯网络模型[6]。
在这段期间,国外在文本分类技术以及相关领域进行了较为深入的研究,取得了不少令人注目的研究成果,并产生了一些可用的分类系统。例如,自动分类新闻稿件的文本分类器[7][Lewis 1994];自动分类Web页的文本分类器[8][Craven 1998]。