(一)、课题研究的目的:
随着信息技术革命的不断深入发展,信息产业应运而生且逐渐发展壮大,人类进入信息化社会,当今世界人们的生活已然和信息化密不可分,随之而来大量的数据,例如图片、文本、音频等各种形式的数据源源不断产生,人们已经进入“大数据时代”,网络上的数据也呈现出“爆炸式”增长态势。特别是作为信息主要载体的文本数据,一方面数量迅速增长,另一方面其表现形式和结构也变得复杂多样,为文本理解带来了巨大的挑战。文本数据作为最常见的数据形式之一,出现在人们工作、学习、生活等方方面面,涉及到的领域也多种多样,由于文本作为人们日常交流的载体之一,可以快速、简洁直观的体现出表达者的意思,而且文本数据较于其他形式的信息占用的网络和存储资源较少,其他形式的信息往往也都可以通过文字进行标注。但在这些海量文本数据之中,往往是大量重复且无意义的数据,如何从庞杂的文本数据中快速获取想要的精简且有价值的信息,成为当今时代不可回避的问题之一。
每个用户都可以产生和传播数据,而其中文本的占比又最大,这导致了文本语料规模的迅速增长。因此“大数据”是面临的第一个挑战;其次,在大数据的背后隐藏了大量重复且无意义的数据,这些数据良莠不齐,价值密度低,因此“大噪声”是面临的第二个挑战;最后,数据存在于各种各样的平台中,其类型包括了结构化数据、半结构化数据和非结构化数据等。因此,结构复杂是面临的第三个挑战。目前在文本特征提取的研究领域,基于深度学习技术的提取方法为研究重点,该类特征提取方法在图像领域应用较为广泛,但关于文本特征提取尤其是对中文文本的特征提取方面的研究成果较少,传统的手工提取方法得到的特征维度一般较大,降低模型训练效率的同时增加了资源消耗量。
在机器学习中,特征提取是将原始数据转换成机器学习能够处理的形式。目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项,特征项必须具备一定的特性。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词, 就是文本特征提取。
(二)、课题研究的意义:
网络文本信息有别于传统文本信息,具有多样性、复杂性、冗余性、不规范性等特点。因此,对文本高纬度的复杂特征空间进行特征降维成为文本分类的主要关键点。随着网络知识组织、人工智能等学科的发展,文本特征提取将向着数字化、智能化、语义化的方向深入发展,在社会知识管理方面发挥更大的作用。
|
文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征提取来降维。
一、主要内容
(一)、文本预处理
(二)、特征提取算法、聚类算法选择
(三)、基于Matlab实现文本特征提取
(四)、系统的详细实现设计及实现
(五)、系统性能测试与结果分析
(六)、总结与展望
随着人工智能深度学习技术的发展,在未来几年中,将可能从以下几个方面取得突破:
(1) 文本特征提取及文本挖掘在专业领域,比如:金融领域、军事领域等的应用研究。
(2) 新的文本特征表示模型,比如考虑使用层次结构的向量对文本进行建模,关键词向量能快速定位用户的兴趣领域,而扩展词向量能准确反映用户在该领域上的兴趣偏好。结合领域知识,采用概念词、同义词或本体来代替具体的关键词成为特征词,体现语义层面的需求和分析。
(3) 改进分词算法。比如针对特征提取的需要,应用深度学习算法框架,建构高性能的分词系统。
(4) 改进特征评价函数。比如考虑将表达文本结构的特征提取与表达文本语义的特征提取进行交叉解码,即对特征词的权重从表达文本结构与文本语义两个层面进行评价。
二、研究过程中的主要问题和解决办法:
1、文本处理预处理:选用词袋模型,词袋模型将一段文本作为一个个分离的词进行处理,通过不同类文本中可能出现词的差异对文本进行分类。使用one-hot编码来处理离散型特征。
2、 特征提取:选用IF-IDF算法,实现提取文章中关键词的目的。
3、聚类算法的选取:选用DBSCAN算法。由于并不清楚聚类的簇数量,并且海量文本迭代的效率较低。
4、系统实现:基于Matlab GUI实现,系统初步设计完成后,对系统进行性能测试及可行性分析。
|
[1]曾明睿,袁梦奇,邵曦,鲍秉坤,徐常胜.文本特征提取的研究进展[J].南京信息工程大学学报(自然科学版),2019.
[2]张千,王庆玮,张悦,纪校锋,张宇翔,祝赫,赵昌志.基于深度学习的文本特征提取研究综述[J].计算机技术与发展,2019.
[3]刘鼎立. 基于深度学习文本特征提取的聚类算法研究[C].桂林电子科技大学,2022.
[4]王新艳.一种深度学习的文本特征提取方法研究[J].微型电脑应用,2021.
[5]郝占刚,王正欧.基于模式聚类和遗传算法的文本特征提取方法[J].计算机应用,2005.
[6]徐冠华,赵景秀,杨红亚,刘爽.文本特征提取方法研究综述[J].软件导刊,2018.
[7]鹿鹏,庄敏,龙刚,林宋伟.文本特征提取研究现状分析与展望[J].科技创新与品牌,2017.
[8]曹鲁慧,邓玉香,陈通,李钊.一种基于深度学习的中文文本特征提取与分类方法[J].山东科学,2019.
[9]湛燕,陈昊,袁方,王丽娟.文本挖掘研究进展[J].河北大学学报(自然科学版),2003.
[10] 熊云波. 文本信息处理的若干关键技术研究.复旦大学.2006.9
[11]黄春梅,王松磊.基于词袋模型和TF-IDF的短文本分类研究[J].软件工程,2020.
[12]吴宗卓.文本分类中TF-IDF算法的改进研究[J].计算技术与自动化,2022.
[13]李静,郝耀军,杨瑜.一种改进DBSCAN特征聚类的学习者类画像方法[J].计算机与数字工程,2022.
[14]鹿鹏,庄敏,龙刚,林宋伟.文本特征提取研究现状分析与展望[J].科技创新与品牌,2017.
|