填表日期 2015 年 10 月 10 日 (此表以A4纸双面打印,表格空间不够可附页)
院\系 |
信息科学与技术 |
姓 名 |
|
学 号 |
|
专 业 |
计算机技术 |
研究方向 |
自然语言处理 |
入学时间 |
2013 年 9 月 |
导师姓名 |
|
职 称 |
助理教授 |
开题论文题目 |
基于LSTM的微博谣言检测研究 |
选
题
依
据 |
社交网络的应用越来越广泛,以新浪微博为例现在已经有超过了三亿的注册用户。微博上大量频繁的信息互动必然滋生了大量的微博谣言,微博谣言的产生是一个互联网时代不断发展的必然产物,微博谣言的产生所带来的后果是非常明显的。有的微博谣言也许不具有广泛的危害性,但是有的可能会在生活、民生甚至政治层面全方位的带来不利的影响。微博谣言的传播与扩散给人们的正常生活、社会秩序造成了极坏的影响。研究微博谣言识别的方法,有助于用户判断信息的真假,营造健康的互联网环境,使微博在信息传播引导、舆情监控过程中起到积极作用。由于判定标准不一,导致难以识别谣言, 仅靠人力手段费时且耗力。因此采用文本自动识别的研究,有助于更好更高效的实时检测微博谣言。 |
研
究
目
标
与
内
容
|
微博数据量大、词汇冗余并且不断涌入新兴词汇,依靠传统的统计学习的方法是不现实的,如支持向量机SVM、BP算法等。因为传统的基于统计的学习方法需要不断的为新出现的数据标注,这并不能适用于动态性强的社交媒体产生的文本数据。而大多数的深度学习算法都属于无监督学习,这样便能够直接用大数据训练出一个可靠的结果而不需要大量人工标注的样本。深度学习自主学习的机制让这种算法能够适用于微博数据分类的研究。针对深度学习有关文本分类的问题,提出几个相关研究:
1.深度置信网(DBN)算法利用限制玻尔兹曼机(RBM)模型,能够找到全局最优参数,避免了比如NN和CNN算法等会陷入全局最优的问题,其次DBN算法能够快速学习提取到特征,学习效率和学习效果都非常好,生成的是一个观察数据和文本标签的联合分布,适合微博这类短文本数据的信息特征学习以及分类。
2.面对微博这类的140字符的短文本数据,字与字之间的语义时间序列是一个很重要的特征,可以提出这是影响微博谣言检测的一个关键线索。LSTM(Long-Short Term Memory)是后面时间节点对前面时间节点有很强感知力的改进型CNN算法,这种模型在手写识别包括图像处理等方面非常成功,针对140字符的段微博数据,LSTM算法模型会具有非常高的正确率以及效率。
3.基于DBN和LSTM算法模型的差异进行分析和改进,寻找更符合微博谣言特征学习分类的模型实现。
|
研
究
计
划
|
基于LSTM的深度学习进行谣言检测的研究与实现可以分为个阶段:
第一步,将微博语原始数据去停用词以及分字处理,建立分字索引表,分为谣言和非谣言 两类,构建算法模型的输入数据的训练样本。
第二步,用DBN算法模型训练学习谣言以及非谣言样本,分析实验结果。
第三步,用LSTM算法模型训练学习谣言以及非谣言样本,分析实验结果。
第四步,用测试样本分别测试两者的正确率以及效率,评估系统性能,寻找适合微博谣言检测的其它深度学习算法。 |
导
师
意
见 |
该生基于其个人的兴趣爱好,结合查阅的文献资料,课题具有一定的实用价值。该课题是学生所学专业知识的相关领域的探索,符合专业发展方向,研究方法和研究计划合理。
同意该课题开题。
导师签名
2015 年10月 10日 |
导师
组或教研室审
核意
见
|
组长签名
年 月 日 |
学
院
或
系
意
见 |
主管领导签名
年 月 日 |
注:本表由院系(所)研究生教学秘书存档。
厦门大学研究生院制表2005年3月