目录
1.中文分词 Chinese Word Segmentation
1.1中文分词问题
1.2常用中文分词方法
1.3开源免费的分词软件
2.特征提取 Feature Extraction
3.计算信息量 Calculate information content
4.对每个特征按信息量排序 sorting
5.给训练数据打标签 tagging the training set
6.训练并测试不同的分类模型 training and testing different classification models
6.1不同模型 different models
6.2不同的n-gram选取方式 different n-gram selection modes
6.3是否做特征提取apply feature extraction or not
6.4维度截取 dimension interception
6.5ROC 曲线 ROC-curves
7.分析选择最好的方案 select the optimal model
8.参考文献 references
在成功获取来自微博和人民日宝的数据后,重点就是如何利用这些数据实现情感的极性分析。目前情感 倾向分析的主流方法有两类,其一是基于情感词典,这需要应用到标注好的情感词典,英文语料的各类 词典数量庞大,而现有的中文语料的词典却不是很多,主要有知网整理的情感词典Hownet和台湾大学 整理发布的NTUSD两个情感词典,还有哈工大信息检索研究室开源的《同义词词林》可以用于情感词 典的扩充。在实践过程中我们选取了大连理工大学的情感词汇本体库进行基于词典的情感分析.第二种方 法则是基于机器学习,其需要大量人工标注的语料作为训练集,并通过提取文本特征,构建分类器模型 来实现情感分类。
下图为使用机器学习方法的过程流:
相较于固定的情感词典,机器学习方法的优点就在于其精确度更高。首先,词典匹配会由于语义表达的 丰富性而产生很大误差,而机器学习则无需深入到语法层面。其次,词典匹配的方法适用范围更加广 泛,因为词典本身所包含的语料就十分丰富;相较而言,机器学习方法对训练集语料的质量依赖性较 高,如果训练语料针对性不强,则会严重影响到模型的性能,相反优秀的训练语料会使训练所得模型在 特定的预测方向拥有极高的精确度。
Python有很多优秀的适用于情感分类的模块,比如Python自然语言处理包,即Natural Language
Toolkit,简称NLTK,本次实验中,还使用了jieba作为中文文本的分词工具。