毕业设计任务书
数据科学与大数据技术本科专业(19级)
题目: 基于卷积神经网络的文本分类的设计与实现
学生姓名: 班级: 学号:
题目类型:软件工程(R) 指导教师:
一. 设计目的和意义
随着信息时代的到来,互联网得到了迅速发展,文本数据开始爆发式增长,丰富的信息背后蕴含着巨大的价值。文本分类技术可以有效的整理和组织文本,提高信息检索的效率,挖掘出文本更具价值的深层信息,而且随着数据收集和存储技术的发展,收集海量文本数据已经不再是难题。文本分类技术已逐渐在邮件过滤、信息检索、文本情感分析、文本索引等领域表现出广泛的应用前景。
本次开发要求利用卷积神经网络设计并实现高效的文本分类模型,进而抽取出海量文本背后所包含的有效信息。选用的数据为购物评价信息,需要判断出语料所含情感的积极性
学生通过该题目的设计过程,可以初步掌握数据分析与处理软件系统的开发原理和开发方法,得到数据获取、分析、展示及工程设计的综合训练,提高解决大数据领域复杂工程问题的能力。
二. 设计任务及要求
本系统主要是使用卷积神经网络进行文本分析,选用的数据为购物评价信息,判断出语料所含情感的积极性。
(1)文本数据须通过网络爬取方式获得,数据爬取要遵守国家和省市相关法规要求,确保数据获取的合法性和安全性;
(2)数据预处理:对爬取到的数据进行数据清洗,以便进行后续的训练处理。
(3)模型训练模块:以卷积神经网络为基础,使用Python作为开发语言, 进行词向量训练和情感分类网络的训练。
(4)系统要采用真实获取的数据进行测试。
三. 各阶段时间安排(共13周):
设计内容
|
起止周
|
搜集参考资料,分析题目要求。
|
第1周
|
教师指导学生学习进行需求分析。
|
第2周
|
学生提出系统总体设计方案和详细设计方案。
|
第3 周~第4周
|
功能实现(软件编程)。
|
第5周~第8 周
|
软件调试。
|
第9周
|
撰写、修改毕业论文
|
第10周~第12 周
|
准备答辩资料
|
第13周
|
四. 毕业设计的主要参考文献
1.任鹏,李文杰,舒宇杰,孙航,赵旖旎.结合BERT词嵌入和双向循环卷积神经网络的新闻文本分类研究[J].信息记录材料,2022,23(06):20-23.
2.王婷,朱小飞,唐顾. 基于知识增强的图卷积神经网络的文本分类[J]. 浙江大学学报(工学版),2022,56(02):322-328.
3.钟桂凤,庞雄文,孙道宗. 基于差分进化的卷积神经网络的文本分类研究[J]. 南京师大学报(自然科学版),2022,45(01):136-141.
4.彭博. 基于图卷积神经网络的文本分类方法研究[D].广西师范大学,2021.
5.林颂策. 基于卷积神经网络和主题模型的文本分类方法研究与实现[D].重庆邮电大学,2021.
6.闫跃,霍其润,李天昊,毛煜. 融合多重注意力机制的卷积神经网络文本分类设计与实现[J]. 小型微型计算机系统,2021,42(02):362-367.
7.冯帅,许童羽,周云成,赵冬雪,金宁,王郝日钦. 基于深度卷积神经网络的水稻知识文本分类方法[J]. 农业机械学报,2021,52(03):257-264.
8.许文华. 基于深度神经网络的长文本分类算法的设计与实现[D].南京邮电大学,2020.
9.潘雅丽.基于深度学习的文本情感分类研究[D].杭州电子科技大学,2022.
10.Julia Silge,David Robinson.Text Mining with R :A Tidy Approach[M]. O’Reilly Media,Ina.
2017.
11.Wes Mckinney.Python for Data Analysis Data Wrangling with Pandas,NumPy,and IPython[M].O’Reilly Media,Ina.2018.
附录:提交的成果
1. 毕业设计说明书一份,内容包括:
1) 中、英文摘要200字;关键词3-5个;
2) 序言;
3) 系统分析(包含需要的系统流程图、数据流程图、数据字典);
4) 系统总体设计(包含总体软件结构图、总体数据结构);
5) 详细设计;
6) 系统测试(包含测试方案、测试用例、测试结果及软件可靠性分析);
7) 软件使用说明书(核心界面说明);
8) 设计总结、参考文献、致谢等。
2. 完成10000-30000个印刷符号的外文文献翻译稿一篇。
3. 完成毕业设计简介一份,要求4页,科技论文格式。
4. 刻制光盘一张。