目录
基于LDA模型的豆瓣影评分析研究
1.引言
2国内外研究现状
2.1自然语言处理的发展
2.2影评语义分析的研究现状
2.3影评情感分析应用的研究现状
3基于语义网络的评论分析
3.1语义网络的概念
3.2语义网络进行评论分析的优势
4 LDA主题模型
5结论
参考文献
基于LDA模型的豆瓣影评分析研究
1.引言
公共论坛犹如一个开放的广场,任何人都可以在论坛上自由的发言。网络影评随之而生,越来越多的电影爱好者,包括一些电影人和专业影评人都开始在豆瓣等平台上撰写影评,发表对电影的看法和见解。网络影评具有开放、互动、自由真实等特性。
影评的好坏影响着观望者对电影的态度,影响着电影的评价和票房。从参差不齐的影评中提取观影者对电影的看法有助于人们对于电影的整体把握,也有利于制片商及时获取大众关于电影的整体感观和舆论倾向,从而及时调整相应的宣传策略,达到高票房的目的。
豆瓣的影评相对比较客观,利用LDA主题模型对豆瓣影评进行数据挖掘,识别其中潜藏的主题信息,可以得出人们对于电影的情感倾向,可以看出一部电影的优点和不足,从而实现数据的价值提取,促进电影行业的发展。
2国内外研究现状
2.1自然语言处理的发展
自然语言就是人们日常使用的语言。自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效沟通的各种理论和方法。
最早的自然语言的研究是机器翻译。在1949年,美国人威弗首先提出了机器翻译的设计方案。在大约90年代,自然语言处理的领域出现了两个明显的特征:一方面,要求处理系统能够处理大规模的真实文本;另一方面,要求系统能够提取数据中有用的信息。随之产生的自然语言处理的难点在于,单词的边界界定、词义的消歧、句法的模糊性、有瑕疵或不规范的输入、语言行为和计划。
在分词方面,python的第三方库jieba是一个非常好用的中文工具,特征选择上,大多数使用了N-Gram或其修改后的模型算法。现代NLP算法是基于机器学习,特别是统计机器学习,相关的技术有数据稀疏与平滑技术等,常用的机器学习分类算法有SVM、K-nearest neighbor等。NLP算法主要实现的应用有文本分类、语言建模、语音识别、说明生成、机器翻译、文档总结和问题回答等。
2012年,徐钟提出一种适用于中文实体名称的分词方法,基于词语的相关性研究,进一步把隐马尔可夫模型应用到中文实体分类中去[1]。
2013年,邹若晨未来了体现分词前后词性的搭配关系,构建基于词性的统计模型来约束分词结果。使用该方法测试网络文本语料分词时,分词的准确率、召回率和F值均有提升[2]。
2015年,周祺提出了统计与词典相结合的中文分词方法,优势互补,通过训练和实验证明,该分词方案有效的提高了中文分词的速度和准确率[3]。
2016年,刘岩基于MMSE算法实现了MMSEGAnalyzer中文分词器,MMSE算法中分词算法主要分为简单最大匹配算法和复杂最大匹配算法,这是属于基于字符串匹配的分词方法[4]。
2017年,周世宇提出了一种基于词典与统计相结合的分词方法,该方法才用词典分词做粗分和HMM模型做歧义判断,达到提高分词精度的目的[5]。
2.2影评语义分析的研究现状
孙凯、于俊清等人提出一种面向观众的个性化电影情感空间建模方法。采用模糊c-均值聚类算法划分诱力-激励情感空间,并利用高斯混合模型定义划分得到的模糊情感子空间的情感隶属度函数,以便表示和识别观众观影过程中的个性化情感体验。实验结果表明,该方法能够有效地表示和识别个性化电影情感内容。
徐薇基于集成概率推理模型(Ens-PRM)的情感倾向性识别算法,