毕业论文(设计)任务书
姓 名
|
|
系 别
|
|
专 业
|
|
学 号
|
|
指导教师
|
|
职 称
|
|
毕业论文(设计)题目
|
基于Matlab的文本特征提取系统的设计与实现
|
毕业论文(设计)的立题依据
|
文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征提取来降维。
|
主要研究内容
|
本次课题采用Matlab开发环境,为了分析一段文本,首先要得到这段文本的表示向量,这个向量就可以作为文本的特征输入决策器中进行判决。
一、文本预处理:构建NLP特征,构建一个简单的文本预处理程序,该程序的重点是删除特殊字符、额外的空格、数字、停止词和把文本语料库的大写变成小写。
二、聚类算法选择:聚类算法就是决策器。聚类算法主要分成两大类,一类是基于距离的迭代算法,比如k-means,还有一类是基于密度的流式聚类算法,比如DBSCAN。通常由于并不清楚聚类的簇数量,并且由于海量文本迭代的效率比较低,真实应用场景中,选择DBSCAN。
分别使用tf-idf或word2vec作为文本的特征,采用DBSCAN进行聚类分析
三、代码实现
1、文本预处理
2、特征提取
3、聚类算法
4、实现效果
四、系统实现:最后基于Matlab GUI实现一个文本特征提取系统,使用基于距离或相似度的度量的过程,根据从文档中提取的特征确定文本文档与任何其他文档的相似程度,通过利用基于这些特征的相似性,在搜索引擎、文档集群和信息检索等领域中发挥作用。
|
完成毕业论文(设计)的条件、方法及措施,包括实验设计、调研计划、资料收集、参考文献等
|
1、条件:电脑(安装Windows 10操作系统、Matlab开发环境、网上视频学习资料和开发类知识学习书籍等条件下完成;
2、方法及措施:
(1)查阅文献:通过查阅有关论文,书籍,论坛收集大量的资料,并与此次研究的问题相结合进行全面的分析与研究使得做出更加可靠的系统。
(2)对研究项目进行全面分析:在进行理论的搜集与分析之后,根据现有的研究项目整体系统进行分析与设计,实现理论与实践的相结合,使设计更合理。
(3)调查:对现有文本特征方法的调查与了解,收集相关资料进行分析,比较,归纳,总结整理出更有效的方法。
3、实验设计:
本次课题文本特征提取系统设计步骤:文本预处理→特征提取→使用相似特征对文档聚类→系统实现。
4、调研计划:
调研其他文本特征提取方法,分析优缺点
5、资料收集和参考文献,详细的资料文献可以参考开题报告的参考文献内容
|
进度安排
|
收集整理相关资料 2022.10.20~2022.11.20
撰写开题报告 2022.11.21~2022.11.30
系统设计 2022.12.1~2022.12.31
系统开发 2023.1.1~2023.3.5
系统完善及论文初稿的撰写 2023.03.06 ~ 2023.04.10
系统测试及论文终稿 2023.04.11 ~ 2023.04.20
毕业设计及毕业论文的提交 2023.04.21 ~ 2023.05.04
指导教师签名:
年 月 日
|
注:任务书由指导教师填写;任务书必须在毕业论文(设计)开始两周内下达给学生。