目录
译文及原稿
一种新的基于特征的启发式情感分类方法
摘要
1. 介绍
2. 算法公式
4. 观察结论
百科电影评论的情感分析:
一种新的基于特征的启发式情感分类方法
Singh, V.K.,Piryani, R.,Uddin, A.,Waila, P.
摘要
本文介绍了一种新的基于领域特征的启发式电影评论情感分析的实验研究。我们设计了一个面向方面的方案,分析一部电影的文本评论,并在每一方面给它分配一个情感标签。然后将多个评论的各个方面的得分进行汇总,并在所有参数上生成电影的净情感概况。我们使用了一个基于SentiWordNet的方案,其中包括两种不同的语言特征选择,包括形容词、副词和动词,以及N-gram特征提取。我们还使用我们的SentiWordNet方案来计算每部电影的文档级别的情感,并将结果与使用Alchemy API获得的结果进行比较。电影的情感轮廓也与电影实际的情感结果进行了比较。结果表明,与简单的文档级情绪分析相比,我们的方案能够产生更准确、更集中的情绪分析结果。
1. 介绍
情感分析是一种自然语言处理,它使用算法来识别成型的内容,并将其分类为积极或消极的内容。网络上的非结构化文本数据往往承载着用户的意见表达。情感分析试图识别用户的意见和情绪表达。一个简单的情感分析算法试图根据文档中表达的观点将文档分类为“正”或“负”。文档级的情感分析问题本质上是:给定一组文档D,一个情感分析算法将每个文档d∈D分为正负两类。正面标签表示文件d表示正面意见,负面标签表示文件d表示用户的负面意见。更复杂的算法试图在句子层面、特征层面或实体层面识别情感。
文本情感分类的方法大致有三种:(a)使用基于机器学习的文本分类器(如Naïve Bayes、SVM或kNN),并采用适当的特征选择方案;(b)使用无监督的语义定位方案,提取文本的n-grams数据,然后将其标记为正面或负面,并记录为文档;(c)使用基于SentiWordNet的公共可用库,为单词提供正面、负面和中性的分数。
以用户为中心的新Web承载着由不同用户创建的大量数据。用户现在是网络内容的共同创造者,而不是被动的消费者。社交媒体现在是网络的主要组成部分。统计数据显示,五分之四的互联网用户在使用某种形式的社交媒体。用户对社交媒体的贡献包括博客文章、推特、评论和照片、视频上传等。网络上的大量数据是非结构化文本。社会媒体以评论或帖子的形式发表的意见,是一个值得探索和开发的重要而有趣的领域。随着电影评论、产品评论、博客评论、社交网络推特等可访问性资源的增加,新的挑战任务是挖掘大量文本,并设计合适的算法来理解他人的意见。这些信息对于那些试图了解其产品或服务反馈信息的公司来说具有巨大的潜力。这种反馈有助于他们做出明智的决定。除了对公司有用之外,从中挖掘的评论和意见也对用户有用。例如,对一个城市中的酒店的评论可以帮助访问该城市的用户找到一个好的酒店。类似地,电影评论可以帮助其他用户决定电影是否值得观看。