基于大数据可视化技术的2022年微博#国庆相关话题的中文情感识别研究开题报告-毕业作品网站

学生姓名

学号

系别

专业班级

指导教师

技术职务

课题名称

基于大数据可视化技术的2022年微博#国庆相关话题的中文情感识别研究

阅读中外文献资料情况

国外研究现状：随着互联网的快速发展，互联网在平民百姓中显得极其重要，人们从只能口述交流、到写信、再到现在电话语音交流，而互联网应用集合了以前交流方式，提供了更加快捷方便的功能让人们的交流越来越方便。微博是当下热门的互联网应用之一，其用户日趋增长，每天微博产生的信息量也越来越大，不仅仅在热点事件中有着不可估量的影响力，而且已经深入了网民的生活中，成为了用户不可缺少的一部分。于是，对微博的文本挖掘研究产生的价值也随之上升。

情感分析，正成为各界关注越来越关注的领域，主要用来识别一段文字的情感倾向。现实中，文本中能够看出人们表达出来的情感是十分复杂的，目前的自然语言处理的研究一般将倾向性划为正向和负向，这种研究方法使得情感分析与机器学习结合相当简便。通常情况下，对某些文本进行情感标注，之后划分为训练集和测试集，使用机器学习方法来进行分类，然后优化算法，最终得到分类结果。

情感分析，顾名思义，又被称为倾向性分析和意见挖掘，通常使用带有情感色彩的词语对文本进行分析、处理、归纳、推理等过程[4]，如：从购物网站上分析用户对某一件商品是好是坏的过程，从电影评论网站上分析用户对某部电影的评价，从音乐平台上的评论来鉴赏网民对某首音乐的喜爱程度等。其中，斯坦福通过公共平台如Twitter分析网民在2008~2009年金融危机的心情。

当下，情感分析的任务一般采用机器学习来进行分类。例如在一般购物网站中，一般都有商品的评论，因此使用其作为机器学习标注后的文本，之后使用机器学习方法来分类，最终构建一个情感分类器来对其他评论进行预测。但是对于微博这种数量庞大的互联网文本，想要对大量的微博进行标注是几乎不可能的，只能使用少量的人工标注的微博文本来进行机器学习。

目前，机器学习对情感分析的分类受制约的还是多种情绪的表达，以及网络新兴的流行的词汇等。由此可见，构建情感词典显得特别重要，在微博预料中需要全面高效的捕捉情感的基本单元，才能准确的计算出每条微博的情感倾向。

立题依据及主要内容

立体依据：随着互联网的快速发展，各类社交媒体平台如微信、QQ等也与日俱增，而微博更是集成了传统网站、论坛、博客等的优点，并加上了人与人之间的互动性、关系亲密程度等多种智能算法，并以简练的形式让数据爆发性的传播，促进了人与人之间的交流。网民可以通过微博来分享自己的生活，同时抒发自己的喜怒哀乐。因此对微博每天产生的信息量的分析和利用的需求显得更为迫切。

主要内容：第一主要是介绍研究的背景和研究现状、情感分析的概念等研究工作，指出这些工作在当前问题下存在的不足，并基于此提出该研究的关键问题。第二对微博的获取与清理，讲解了如何通过微博API的获取Token，然后模拟登录获取最新微博，最后介绍了微博的文本预处理，主要去除掉了对微博分类有影响的字符和无关信息，为开展研究提供支持。第三针对微博进行标注，然后选取特征词，在使用贝叶斯分类，将微博分为积极、消极、中性三个分类。第五四总结本论文的研究内容，并对可能的研究方向进行展望。

设计方案或论文提纲

1引言

2基于大数据可视化技术的微博获取与清理

2.1 概述

2.2 微博的反爬虫机制

2.2.1 通过Headers反爬虫

2.2.2 基于用户行为的爬虫

2.2.3 动态页面的反爬虫

2.2.4 微博的反爬虫

2.3 微博的获取

2.3.1 微博API的获取

2.3.2 模拟登录

2.3.3 微博抓取与存储

2.4 微博的分词与降噪

2.4.1 概念

2.4.2 分词

2.4.3 删除URL

2.4.4 删除用户名

2.4.5 去除停用词

3利用贝叶斯定理进行情感分析

3.1 引言

3.2 贝叶斯定理

3.2.1 高斯朴素贝叶斯

3.2.2 伯努利贝叶斯

3.2.3 多项式朴素贝叶斯定理

4微博国庆相关话题的中文情感识别

4.1算法过程

4.2拉普拉斯平滑

4.3实验

4.3.1分词

4.3.2特征提取

4.3.3 向量化

4.3.4 朴素贝叶斯分类

4.3.5 测试

4.3.6 计算准确率

总结

参考文献

致谢辞

毕业设计（论文）工作计划

序号	时间	完成内容
1	2021年05月28日-2020年06月02日	确定毕业设计题目
2	2021年06月03日-2020年06月04日	下达毕业设计任务
3	2021年06月05日-2020年06月09日	完成毕业设计开题报告
4	2021年06月10日-2020年06月14日	完成毕业设计的题纲
5	2021年06月15日-2020年08月15日	完成毕业设计，并提交毕业设计初稿
6	2021年08月16日-2020年08月31日	完善毕业设计功能，提交毕业设计最终稿
7	2021年09月01日-2020年09月10日	完成毕业论文初稿
8	2021年09月11日-2020年09月17日	完成毕业设计论文，并提交毕业设计作品
9	2021年09月26日	毕业设计答辩

指导教师审核意见

指导教师签字：

年月日