文献综述
--基于新闻数据的情感分析与用户推荐系统的设计与实现
1 前 言
随着信息技术的迅速发展,人们在互联网上获取新闻信息的方式发生了颠覆性的变化。新闻网站的迅猛发展和用户个性化需求的不断增长使得如何更有效地从海量新闻中获取感兴趣内容成为一个迫切需要解决的问题。本研究旨在设计与实现一套基于新闻数据的情感分析与用户推荐系统,以提升用户体验、提供个性化的新闻推荐服务。
情感分析一直以来都是自然语言处理领域中一个十分重要的任务。文本情感分析基本上就是从文本中挖掘情感倾向,对文本按情感倾向进行分类,一般而言,主要有三种情感极性:积极情感、中性情感和消极情感。文本情感分析目前多用于自然语言处理、文本挖掘、信息提取等多个领域。如今对于文本情感分析的研究,可以从处理文本粒度、情感分类粒度和实现方法三个方面来分类。首先根 据输入文本的不同粒度,可以分为篇章级、语句级以及方面级。其中句子级别和篇章级别的文本在根本上没有什么区别,文章就是由许多句子组成的。
其次根据情感分析的分类粒度,可以分为主观情感倾向分析、主客观情感分析、以及细粒度 情感分析。最后从情感分析技术的主流研究方法来看,可以分为基于规则的情感分析方法、基于机器学习算法的情感分析方法以及基于深度学习的情感分析方法。基于情感词典和机器学习的方法其词典和特征的构造选择都较为复杂,且分类性能有限,往往无法考虑到充分的语义信息。深度学习的出现在很大程度上解决了这些问题,在实现自动提取特征的同时,也大大提高了文本情感分类模型的精度。
2017 年 Vaswani 等人首次提出了 Transformer 模型,该模型完全基于注意力机制,解决了长期以来 CNN 网络无法获取全局的结构信息与 RNN 网络无法并行计算的问题。模型 中使用的自注意力机制(Self-Attention)可以充分考虑到每个词在全局的作用。 2018 年,以多层双向 LSTM 的 ELMo 模型[66]带来了一种基于上下文信息的文本 表示方法,它能够学习到复杂的语法和语义,也可以根据上下文学习到词汇的多 义性,解决了一直以来的一词多义问题,并在多个自然语言处理任务和多个数据 集上都有显著的效果提升。之后基于 Transformer 模型,又发展出了 BERT (Bidirectional Encoder Representation from Transformer)模型、Transformer-XL 模型、ERNIE 模型、ALBERT 模型等预训练语言模型,在多个典型的 NLP 任务中都展现出了远超传统文本表示模型的效果,例如语义关系判断,问答 系统、情感分析、命名实体识别以及阅读理解等,至今仍无法超越。其中 BERT 模型在多个典型 NLP 下游任务上都取得了很好的成绩,对 NLP 领域的技术发展 起到了很大的促进作用,从而使 NLP 技术发展进入到一个全新的动态预训练技术的时代。
当下主流的推荐算法从图神经网络中得到启发,利用相同的传播原则:矩阵变换,
邻域聚集和非线性激活。显式建模用户和项目之间的高连接性来提升嵌入。把用户和物品的交互建模成一个二分图,在二分图上通过高阶连接性来去建模协同过滤的信号。大部分操作是直接从 GCN 继承而来。但是非线性激活函数和特征变换对协同过滤没有多大作用,由于在输入的 id 中只包含嵌入信息,而缺乏具体的语义信息,因此无论是用户还是项目,它们的特征都不够充分。
相比之下,在 GCN 中,每个节点都包含了许多其他属性,这些属性能够提供更多的语义信息。因此,执行多个非线性转换并不能帮助学习更好的特征,反而可能会增加训练的难度,并降低推荐的效果。并且会增加训练的困难,降低推荐结果,所以删除NGCF中的特征变换和非线性激活,形成新的LightGCN,包含了 GCN 中重要的邻域聚合。本文提出一种新的对比损失函数,用来过滤相似度较低的信息,并且使用超参数用来控制正负样本之间的相对权重,最大化正样本之间的相似性,最小化已经过滤的负样本对之间的相似性,以期待获得更好的性能。
2 背景知识介绍
本文提出使用网络爬虫爬取数据并基于爬取的数据进行建立情感分析的模型,在本章中,我们将结合本文的设想来介绍关于情感分析模型的背景知识。
2.1 对数据的爬取与清洗
对于新闻数据的情感分析与用户系统的实现首先需要进行的就是数据的收集。使用Python中的爬虫框架,如Scrapy,是一种高效且强大的选择。Scrapy提供了许多有用的功能,如异步处理、中间件支持、自动限速等,适合大规模的数据抓取。确定想要爬取数据的目标新闻网站,并且了解目标网站的页面结构和URL格式才能更为正确的配置爬虫并获取比较理想的数据,将获取的数据存入 MySQL 中;在数据分析之前由于获取的数据存在重复项,处理缺失值,文本格式等问题,需要对脏数据进行清洗和预处理。
数据清洗和预处理是数据分析和挖掘过程中至关重要的步骤。去除重复项可以用标识和保留第一个重复项,删除其余项的方法来处理。处理缺失值可以使用删除包含缺失值的行或列;使用平均值、中位数或众数填充缺失值;使用插值方法填充缺失值等方法。对于文本数据去除空格、特殊字符、转换为小写、移除停用词、进行词干提取或词形还原。
2.2 深度学习模型
深度学习是机器学习的一种分支,其应用十分广泛,在数据挖掘、搜索技术、推荐、个性化等方面有着十分广泛的应用。LSTM(Long Short-Term Memory),即长短时记忆神经网络,它是在循环神经网络(Recurrent Neural Network,RNN)的基础上发展而来的一种变体,要介绍LSTM必须先理解RNN的工作原理。RNN模型是一个序列模型,一般用于处理带有序列特征的数据。在传统的神经网络模型中,输入层和输出层的状态是互不关联、相互独立的,但在RNN模型中,当前时刻的输出是由上一时刻的输出以及当前时刻的输入所共同决定的,这使得RNN是具备时间记忆功能的,它可以记住每一时刻的信息。
LSTM,它是一种单向的神经网络模型,隐藏层保存的是前一个时刻的信息,所以它只能用于编码从前到后的信息,在一些应用场景中能够发挥很好的作用,但是在某些应用场景下,我们还需要对句子进行从后到前的编码,即隐藏层还需要保存下一个时刻的信息。因此,Schuster等人提出了双向循环神经网络(Bi-directional Long Short-Term Memory,Bi_LSTM)的概念[27]。Bi_LSTM模型是双向的,不仅能从前往后提取文本词汇特征和语义依赖,而且还能提取从后往前的文本词汇特征和语义依赖。相比于LSTM的单向编码,Bi_LSTM的双向编码能够更加完整地提取文本特征,对文本内容的判断也更加准确。
3 总 结
传统的新闻推荐系统往往基于用户历史行为或新闻内容的相似性进行推荐,而忽略了用户对新闻的情感倾向。然而,新闻报道本身往往伴随着丰富的情感信息,用户对新闻的情感态度往往影响其阅读体验和对信息的理解。因此,在推荐系统中引入情感分析,旨在更准确地捕捉用户的兴趣和情感需求,提升推荐系统的个性化水平。本文设想通过对网络爬虫所获得的数据进行情感分析,并且通过情感分析获得的成果来进行向用户推荐更具个性化的新闻,这预计是一项具有创新和十分有意义的一次研究与尝试。
参考文献:
[1] 闫慧珍.基于数据爬取的新闻宣传信息系统的设计与实现.中北大学,2021.DOI:10.27470/d.cnki.ghbgc.2021.000936
[2] 杨泰然. 基于LSTM及新闻情感分析的汇率数据预测研究. 北京:北京交通大学,2022.
[3] 刘启航. 基于深度学习的个性化新闻推荐算法研究与应用. 安徽:阜阳师范大学.2023.
刘总真, 张潇丹, 郭 涛,葛敬国, 周 熙 , 王宇航, 陈家玓,吕红蕾, 林俊宇.新闻推荐算法可信评价研究.北京:中国科学院大学网络空间安全学院,中国科学院信息工程研究所.
[4] 胡永辉.新冠疫情舆情信息分析系统的设计与实现. 湖北:华中科技大学.2022.
[5] 刘总真,张潇丹,郭涛,葛敬国,周熙,王宇航, 陈家玓,吕红蕾, 林俊宇.新闻推荐算法可信评价研究.北京:中国科学院大学网络空间安全学院,中国科学院信息工程研究所.2021
[6] 艾沛钰 闫 丽. 基于 python 的互联网数据爬取与解析的研究与实践.吉林:通化师范学院.2019.
[7] 张明明.基于图神经网络的AI代码缺陷检测的研究与实现.河北:华北电力大学.2023.