基于LDA模型的豆瓣影评分析研究
【摘要】 随着互联网技术的发展,人们在网络平台上畅所欲言的方式越来越简单,例如博客、空间及现在的微博、豆瓣、知乎等,也正是这些方式和平台的诞生,丰富了人们的生活,使得数据信息急速增长着。豆瓣是一个提供了关于书影音的网络社区,越来越多的人们在豆瓣上发表了自己的电影评价,其电影评价风格各异,具有自由真实等特点。影评的描述影响了对电影的舆论倾向,影响着电影的票房成绩。本文基于情感分类和LDA主题模型对豆瓣上28部电影共约212万条数据进行情感主题分析。该组合模型提高了LDA对主题的提取能力。
【关键词】 情感值分类,LDA,豆瓣影评,主题提取
Analysis and research on Douban film reviews based on LDA model
【Abstract】 With the development of Internet technology, people have more and more simple ways to speak freely on the network platform, such as blog, space and now Weibo, Douban, Zhihu, etc. It is the birth of these ways and platforms that enriches people's life and makes the data information grow rapidly. Douban is an online community that provides information about books, videos and music. More and more people have published their own film evaluations on Douban. The film evaluations have different styles and features of freedom and authenticity. The description of the film reviews influences the public opinion tendency of the film and the box office performance of the film. Based on emotion classification and LDA theme model, 2.12 million pieces of data of 28 films on douban were analyzed in this paper. This combination model improves the subject extraction ability of LDA.
【Key Words】 Emotional Value Classification,LDA,film reviews,topic extraction
目 录
1 绪 论
1.1 选题背景及研究意义
1.2 国内外研究现状
1.2.1 自然语言处理研究现状
1.2.2 文本情感分析研究
1.3 论文研究思路及方法
1.4 论文结构安排
2 相关软件及模型
2.1 ROSTCM6系统及语义网络
2.1.1 ROSTCM6系统
2.1.2 语义网络
2.2 文本情感值分析
2.2.1 情感词典
2.2.2 否定词词典
2.2.3 程度副词词典
2.2.4 停用词词典
2.2.5 情感值计算
2.3 CLDA主题模型
2.3.1 主题模型
2.3.2 LDA主题模型
2.3.3 CLDA主题模型及使用原因
3 影评文本处理
3.1 实验环境
3.2 数据处理
3.2.1 影评文本的获取及修改
3.2.2 主要处理部分——分类
3.2.3 jieba分词、停用词过滤
3.3 数据预处理存在的问题
3.3.1 分词及停用词词典
3.3.2 情感词典词性
4 影评主题分析
4.1 CLDA主题分析
4.1.1 分类结果检验
4.1.2 CLDA主题提取
4.2 LDA主题分析
4.3 语义网络
结 论
参考文献
致 谢