本文是一篇计算机论文,本文分别从基于review建模和基于document建模提出了两个改进的新算法且都达到了更好的预测结果,但相比下,基于review的aspect算法在算力要求上高于提出的基于document的推荐算法,预测结果也更加理想。
1 绪论
1.1 研究背景及意义
由于互联网时代的飞速发展和进步,当今社会也百家争鸣般出现了各式各样的新服务方式,其中以网购、视频等为首的服务在生活中占据越来越大的比重,也使得人们的消费、娱乐等观念也逐渐从线下转变至线上。目前以淘宝、亚马逊、shopee等电子商务平台百家争鸣,用户数量也不计其数。这些平台提供了生活、学习、娱乐等各方面的海量商品来满足用户们的需求,但同时如此数量的商品也增加了用户选择的难度,使得用户们不得不面临前所未有的信息超载问题。尽管之后各个平台使用搜索引擎来帮助用户可以更快的筛选商品,降低选购难度。但因为互联网的巨大包容性和快速更新,可能会使用户对所需商品描述不精确或购买的商品质量不尽人意,那么出现一种算法用来引导用户购买商品迫在眉睫。
根据2016年中国互联网信息中心发布的《2015年中国网络购物市场研究报告》中表明,在线评论成为网上消费用户决策时最为关注的因素,关注度高达77.5%[1],同样不仅仅局限于网络购物和网络观影,在线评论的重要性也从SEO(Search Engine Optimization)上体验出来,在来自BrightLocal的一份消费报告中,得出主要结论:(1)2014年88%的用户阅读评论来确定本地业务的质量比2013年多出了3%。(2)2014年定期阅读评论的用户占39%比2013年多出了7%。(3)只有12%的人不阅读评论,比2013年减少了3%,如图1-1所示:
计算机论文参考
计算机论文参考
.....................
1.2 国内外研究现状
1.2.1 协同过滤算法研究现状
随着推荐算法的发展,推荐算法主流已经演变为协同过滤推荐算法,其中协同过滤算法可以被分为两个大类,分别为基于内存的协同过滤算法和基于模型的协同过滤算法:
其中基于内存的协同过滤算法又可以分为基于物品和基于用户两种,1992年出现的第一个邮件过滤系统Tapestry就是由Bob Goldberg[3]等人结合不同的员工对不同的邮件的偏好性不同而提出,Tapestry会根据员工选择的感兴趣以及订阅的邮件来帮助员工过滤掉不感兴趣的邮件并保留他们感兴趣的邮件。1994年,GroupLens[4]研究组结合用户观看历史新闻的内容和对观看历史新闻的评分进行用户的个性化推荐推出了一个新闻推荐系统GroupLens,也是一个标准的基于协同过滤算法的系统,数据集使用的是MovieLens数据集。该系统先对用户给出的历史新闻评分来构建用户-评分矩阵,然后根据计算所有用户之间相似度矩阵,最后根据相似用户的历史新闻评分进行测试数据的推荐结果误差计算。2001年Sarwar[5]等人针对基于用户协同过滤算法预测效果差的问题进行改进,出现了基于项目的协同过滤算法,这一算法将重点从用户的相似度矩阵转换为计算项目之间的相似度矩阵来进行推荐。Wang[6]等之后将基于用户和基于物品两种协同过滤算法混合,产生了新的推荐算法,使得推荐结果更好。因为推荐算法的成长,世界第一电商平台Amazon[7]也成为第一个将推荐算法应用起来的电商平台,通过构建用户与商品之间的评分矩阵来进行相似度比对买家偏好进行推荐。GoldBerg[8]等人针对协同过滤算法的矩阵计算效率较低的问题使用主成分分析法对评分矩阵进行降维处理来提升计算效率。Liu[9]等人之后结合力协同过滤算法和基于基于内存的推荐算法并加入了用户偏好的学习机制实现了个性化推荐并应用于Google的新闻系统中进行推荐。曾洋[10]提出了新的推荐系统评价指标,并且套用了当时新起的文档主题生成(Latent Dirichlet Allocation,LDA)思想构建出了用户到用户文档到次的关系实现了用户LDA模型利用长尾数据,一定程度上将缓解了推荐领域中的长尾问题。刘振娇[11]等人将张量分解并结合上下文学习,套用奇异值分解技术来分别挖掘用户偏好和项目属性的上下文特征,并将张量分解结果用来重构评分矩阵来对用户推荐提升准确性,以此达到提高评分数据稀疏时推荐的准确性。文俊浩[12]等人根据相似偏好性的用户他们的上下文环境也是相似的这一规律,先将用户偏好聚类,然后每个用户上下文都可以作为聚类簇中矩阵分解算法(Matrix Factorization,MF)函数的限制条件,以此来针对评分矩阵数据稀疏问题。
.................................
2 相关技术与技术简介
2.1 推荐系统概述
我们的生活中总是会考虑或者听取他人的建议和意见,比如我们去看某一部影视作品前会先问身边的朋友这部作品的评价和观感;去一家餐厅吃饭会询问服务员推荐菜系或者招牌菜系等等。这不单单因为生物的本性,同样也因为社会的飞速发展带来的生活多姿多彩,从而使得我们的生活有很多种选择方式,而推荐算法就是帮助我们可以从这些丰富的生活中选择一个大概率会适合我们的选项,但其首先需要对我们的历史行为进行收录和分析,例如:浏览记录,点赞记录,收藏记录,购买历史,地域位置,评价记录等等,随后依靠发达的技术例如机器学习、深度学习等来挖掘用户的偏好特征,再结合商品属性,实现个性化推荐,为不同的用户生成不同的推荐列表。用户在推荐列表中做出的每一次反馈,推荐系统都会记录并进行迭代,产生新的推荐列表。例如:某一个用户观看过了10部电影,且对悬疑片打分最高,对其他类型影片打分都较低,那么之后推荐系统会结合观看历史尽可能对他推荐没看过的悬疑片。
在实际我们的生活中,无论是传统方法的推荐系统,还是深度学习的推荐系统,应用都十分广泛,本章会剖析推荐系统,从数据预处理、推荐算法概述、推荐系统的深度学习方法和推荐系统的评价指标的逐一分析。
计算机论文怎么写
计算机论文怎么写
........................
2.2 数据预处理
2.2.1 文本预处理
为了实现面向在线评论的推荐系统,首先要对得到的用户评论进行评论文本预处理,要分别对评论文本数据进行标记、分词和去除停用词等操作。
文本预处理是指对文本数据进行内容识别和筛选,从而方便之后的词向量转化。在这个过程中,文本数据并不能和想象的那么纯粹,其中可能包括一些特殊且常用的文本标记,例如:表情、动图、链接等非特殊字符。这些标记通常会对文本预处理产生干扰,且提取不到有效的内容。所以对于这些没有数据价值标记应该进行剔除,否则不但不能提取到需要的内容,这些无用数据不但会增加文本预处理时的无用工作量,浪费时间,还可能会对后续的预测精度产生不好的影响。所以在数据文本预处理过程中必须有消除这些无用数据的处理步骤,这个步骤如果足够好可以为后续工作减少无用的工作量甚至会使预测精度有所提高。
接下来是分词,分词是文本数据预处理的重点步骤,这个步骤需要根据不同语言使用与之相对应的分词技术,例如在以英文为代表的西班牙语中,其语法结构就要求相邻的单词之间要有一个天然的空格符,或者没有写完的词语在换行时需要一个连接符表示换行连接,所以这些可以根据空格的出现位置来实现分词操作并且换行判定是否有连接符即可,相较于还是较为简单的,具体实施方法就是将每句话中的空格标点位置作为分割点来进行粉刺操作。但相对于其他语言例如中文、日语等这种每个字词之间不存在空格或者其他的天然标识来表现区分,这种情况就会存在边界模糊的情况,所以会使得出现语义模糊的现象,使得母语不通的人变得难以理解文本实际表达的意思。因此可以看出对于不同的语言还是需要与之对应的分词操作才能达到想要的目的,中文、韩文、日文等相对于英文就不具备这种分词优势。不过国内也有相较于成熟的文本分词技术用来帮助针对边界区分较为模糊的语种可以顺利进行分词。在文本数据预处理环节中,边界区分模糊情况是最主要的区别[38]。
...........................
3 面向在线评论的基于aspect个性化语义推荐算法 ...................................... 17
3.1 问题提出 .......................................... 17
3.2 基于aspect的特征提取模型 .................................. 17
3.2.1 word2Vec词向量模型 ............................................... 17
3.2.2 基于aspect特征提取的理论推导 ............................... 18
4 面向在线评论的基于CNN个性化语义推荐算法 ................................. 33
4.1 问题提出 ............................. 33
4.2 基于CNN的特征提取模型 ..................................... 33
4.2.1 Glove词向量模型 .................................. 33
4.2.2 基于CNN特征提取的理论推导 .................................. 35
5 展望与总结 ............................................... 47
5.1 工作总结 .............................................. 47
5.2 工作展望 ........................................... 47
4 面向在线评论的基于CNN个性化语义推荐算法
4.1 问题提出
如3.1所讲,推荐系统需要通过对用户产生大量的历史显示数据和历史隐式交互数据进行信息挖掘来获得用户的偏好特征和行为规律,然后进行评价预测。可以看出推荐系统对用户未来的行为和目标可以进行准确的预测前提是需要一定的用户历史交互数据不论是显式数据还是隐式数据,但是对于某一个推荐系统出现新用户时,就会出现缺少历史交互数据的问题。
因此就出现一个推荐系统一直存在的诟病——冷启动问题,冷启动问题指的是新用户注册或者新物品入库,该怎么给新用户提供推荐服务让用户满意,怎么将新物品推荐出去,推荐给喜欢它的用户。推荐系统中使用许多方法都是基于协同过滤算法技术,尽管CF技术已经在许多应用程序中显示出了良好的性能,但是稀疏性问题仍然被认为是它们面临的重大挑战之一。当用户评价的商品数量与商品总数不一致时,就会出现稀疏性问题。它在许多实际应用中都会发生。对于CF技术来说,推荐评级较低的项目或向评级较低的用户推荐并不容易。
解决这一数据不足的方法之一是使用评论文本中的信息。在许多推荐系统中,除了数字评级之外,用户还可以为产品写评论。用户在文字评论中解释他们评分的原因,因此评论内容中也包含了可以缓解冷启动的信息。目前大多数CF技术的缺点之一是,它们只根据用户提供的数字评级对用户和项目进行建模,而忽略了评论文本中存在的丰富信息。
本文提出一种面向在线评论基于CNN的个性化语义推荐模型,先将所有评论文本合并为一个长文本,抛弃Word2Vec模型,使用可以更好的保留词序的Glove模型,对文本进行处理,套用DeepcoNN使用两个并行的卷积神经网络分别从评论信息中挖掘用户行为和商品性质,然后在最后一层融合,并且可以行确定数据集的长度,无需手动更改大小,最终预测部分使用PMF算法进行优化处理。
.............................
5 展望与总结
5.1 工作总结
现如今,网络发展之迅猛,使得网络服务行业已经成为人类生活中不可缺少的一部分,比如:网络订餐,网络购物,网上打车等等,这些服务的进行都会产生大量的评论和评价文本,这些文本中所包含的信息会对商家的销售和用户的选择产生极大的引导作用,那么透过这些用户的历史文本中的信息进行用户偏好分析和商品推荐就是炙手可热的问题。而推荐算法就很好的解决了这一问题,因此本论文主要结合这一问题进行面向在线评论的个性化语义推荐算法研究。本文的主要工作包括以下几个方面:
(1)详细阐述了个性化语义推荐算法的背景和意义,以及当前推荐算法发展的现状,完整介绍了推荐算法的演变和其中相关技术的迭代。包括数据预处理,推荐算法分类为基于内容、协同过滤和混合推荐算法,并说明了推荐算法的评价指标以及当前对个性化语义推荐算法的两大建模方式分别为基于document建模和基于review建模。
(2)针对基于review推荐算法进行改进设计一种面向在线评论的基于aspe ct的个性化语义推荐算法,将现有的基于document建模的aspect个性化语义推荐算法改进为基于review建模并使用了优化的LFM进行结果预测,该算法在原算法基础上极大增加了用户偏好和物品属性之间的细粒度关注,使用local-attention关注窗口加强特征提取。最后使用优化LFM算法进行结果预测,对实验进行参数调整,达到最优值,后进行结果比对。实验中采用的对比算法主要有基于document建模的aspect个性化语义推荐算法、MPCN和TNET进行比对,参数调整使用MES和MAE作为评价标准,比对结果使用MSE作为评价标准,最终证明本文提出的改进后的基于review建模的个性化语义推荐算法预测结果由于其他比对算法。
(3)针对基于document建模推荐算法提出改进的面向在线评论基于CNN的个性化语义推荐算法,将现有的两个CNN来分别提取用户偏好和物品属性最后进行融合来增加物品与用户间的交互性,数据预处理使用Glove模型保持了词的词序,预测结果使用PMF算法来提高结果准确度,实验调整参数达到最优值后与其他基于document建模的推荐算法做对比实验,对比实验分别是MEUMF算法、DeepCoNN算法和D-ATT算法,最终结果证明本文提出的面向在线评论的基于CNN的推荐算法效果更佳。