国外研究现状:随着互联网的快速发展,互联网在平民百姓中显得极其重要,人们从只能口述交流、到写信、再到现在电话语音交流,而互联网应用集合了以前交流方式,提供了更加快捷方便的功能让人们的交流越来越方便。微博是当下热门的互联网应用之一,其用户日趋增长,每天微博产生的信息量也越来越大,不仅仅在热点事件中有着不可估量的影响力,而且已经深入了网民的生活中,成为了用户不可缺少的一部分。于是,对微博的文本挖掘研究产生的价值也随之上升。
情感分析,正成为各界关注越来越关注的领域,主要用来识别一段文字的情感倾向。现实中,文本中能够看出人们表达出来的情感是十分复杂的,目前的自然语言处理的研究一般将倾向性划为正向和负向,这种研究方法使得情感分析与机器学习结合相当简便。通常情况下,对某些文本进行情感标注,之后划分为训练集和测试集,使用机器学习方法来进行分类,然后优化算法,最终得到分类结果。
情感分析,顾名思义,又被称为倾向性分析和意见挖掘,通常使用带有情感色彩的词语对文本进行分析、处理、归纳、推理等过程[4],如:从购物网站上分析用户对某一件商品是好是坏的过程,从电影评论网站上分析用户对某部电影的评价,从音乐平台上的评论来鉴赏网民对某首音乐的喜爱程度等。其中,斯坦福通过公共平台如Twitter分析网民在2008~2009年金融危机的心情。
当下,情感分析的任务一般采用机器学习来进行分类。例如在一般购物网站中,一般都有商品的评论,因此使用其作为机器学习标注后的文本,之后使用机器学习方法来分类,最终构建一个情感分类器来对其他评论进行预测。但是对于微博这种数量庞大的互联网文本,想要对大量的微博进行标注是几乎不可能的,只能使用少量的人工标注的微博文本来进行机器学习。
目前,机器学习对情感分析的分类受制约的还是多种情绪的表达,以及网络新兴的流行的词汇等。由此可见,构建情感词典显得特别重要,在微博预料中需要全面高效的捕捉情感的基本单元,才能准确的计算出每条微博的情感倾向。
|