目前,数据挖掘在信息推荐领域的应用各式各样。在现有的文献统计下,根据信息推荐中采用的推荐规则的不同,信息推荐可以分为如下三类:基于内容推荐(Content-based Recommandatioin) [1]、基于协同过滤推荐(Collaborative Filtering based Recommendation)[2]、混合型推荐(Hybrid Recommendation)[3]
。其中,基于协同过滤的推荐因其对知识依赖度低以及利用群体智慧等特点,得到了最为深入的研究,它又可以分为如下几个子类别:基于用户的协同过滤(User-based CF),基于物品的协同过滤(Item-based CF),以及基于模型的协同过滤(Model-based CF)。其中基于模型的推荐是一类方法的统称,它指利用系统已有的数据和用户的历史行为,学习和构建一个模型,进而利用该模型进行用户偏好建模、预测、推荐,根据具体应用场景和可用数据的不同,模型可以是常用的奇艺质分解等矩阵分解模型,也可以是主题模型、人工神经网络、概率图模型、组合优化甚至深度学习等机器学习模型,下面将对以上几个方面对信息推荐系统的研究现状进行具体介绍。
基于内容推荐是指:首先收集和标注特征信息,例如电影的类型、导演、主角;用户的性别、年龄、内容偏好等等。在此基础上,基于内容的推荐通过用户的特征和物品的特征匹配算法进行推荐。在理论和方法方面,庄景明、王明文、叶茂盛等人采用基于内容过滤的推荐技术,提出一种新的用户综合兴趣模型,该模型通过将用户背景、阅读与操作行为等因素进行综合加权,计算用户与文档的相似度,并以此向用户推荐文档。测试结果表明,提高用户阅读与操作特征在模型中所占的权重,有效提高推荐精度[1]。Debnath等研究了特征权重的选取方法以及分析了推荐的准确率[4];Martinez等将语言学模型运用到基于内容的推荐当中,从而允许用户通过语言描述自身的兴趣爱好,以此达到个性化推荐的目的[5]; 代晨旭,周熙晨等则研究了基于内容的新闻推荐系统,文章针对该系统的关键部分即新闻特征值提取和用户画像做了深入的研究.采用了TFIDF进行新闻分词及特征值提取,将新闻用空间向量模型表示并利用PU Learning来解决用户画像时负反馈数据难以得到的问题.最后以实例证明了该方法的可行性[6]。基于内容的推荐算法是其优点是没有冷启动的问题,但是用户和物品特征的收集需要大量的时间和人力。
基于协同过滤的推荐的核心思想在于借助于其他用户的历史行为(群体智慧)来为当前用户给出推荐,而不仅仅考虑当前用户的特征偏好。大连理工大学郭艳红等人提出基于项目关键词预测与协同过滤相结合的混合推荐算法。分析了在系统中项目的内容信息不够丰富的情况下,如何应用基于项目关键词预测与协同过滤技术相结合的问题[2];Sarwar 等研究了协同过滤技术在电子商务网站中的应用[7];并发现由于在基于用户的协同过滤中需要计算用户之间的两两相似度,使得在电子商务等用户数庞大的网站中计算量成为了一大瓶颈。为了解决该问题,Sarwar 等进一步提出了基于物品的协同过滤,利用物品的相似度来进行协同过滤式推荐[8],该方法在亚马逊的个性化推荐系统中得到了重要的应用; 刘青文在文章中采用了协同过滤中相似度模型的研究。用户(项目)相似度计算是基于内存的协同过滤算法中最为关键的问题,正负标注信息不对称和数据稀疏性导致了传统的相似度模型不准确从而影响推荐精度。本文针对这两个问题,提出了基于变权重和罚函数的用户相似度模型。实验结果表明,本文提出的算法能够有效缓解上述两个问题 [9];于冲研究了受限波尔兹曼机RBM用于协同过滤时,其推荐性能与评分矩阵的稀疏性有很大的关联,当评分矩阵稀疏时其推荐性能不佳,且基于RBM的推荐仅使用评分矩阵,对于新物品存在冷启动的问题。针对上述问题,本文提出一种结合物品内容相似性的RBM协同过滤方法,命名为CS-RBM。该方法利用Word2vec对物品内容进行向量表示,并计算物品之间的相似度,然后将所得到的物品间的相似度度量添加到RBM模型预测评分上,从而使最后预测出来的评分既考虑了评分矩阵中隐因子的影响,又考虑了物品内容之间相似度的影响。经在ml-100k、ml-1m、Netflix多个数据集上的实验结果表明,结合物品内容相似性的RBM协同过滤方法能比原始的RBM模型具有更好的推荐性能[10]。基于协同过滤的推荐通过利用群体的智慧对用户和物品进行画像和建模,但是也存在冷启动、数据稀疏性等不足之处。
为了结合两者的优点而同时规避两者的缺点,提出了混合型推荐系统[8],现在大多数实际中的推荐系统都是综合多种推荐算法而构建的混合型推荐系统。李鹏飞等人针对传统混合模型推荐算法做了优化,其相似性度量方法由物品属性相似性和改进的修正余弦相似性线性组合而成,权重因子自动生成,考虑了用户评分尺度及用户活跃度对物品相似性的影响。为解决冷启动问题,使用用户基本信息获得用户间的相似度,各属性权重因子由SVDFeature计算得到.实验结果表明,该算法有效地提升了推荐系统的推荐质量[11],但是系统还是存在冷启动问题。Burke 等将基于知识的专家系统与协同过滤结合,较早提出了混合型推荐系统的概念[12];Burke 等研究了异构网络和数据环境下的混合型推荐算法[13];Salter等基于内容和协同过滤研究了电影推荐,Vaz 等基于协同过滤和作者排序实现了一个在线图书推荐系统 [ 14];滕少华 等人针对传统协同过滤推荐数据稀疏会影响推荐质量,以及项目最近邻居集的计算忽略用户多兴趣及提高推荐的准确度问题,该文采用混合模型改进了相似性度量计算,综合pearson相关系数与修正余弦相似性,提出了一种基于混合相似度的用户多兴趣推荐算法[15]。但是目前,很多推荐系统仍然存在一些不足:
1.推荐的精度不够。许多网站采用的是一对多的非个性化推荐,无法根据用户不同的兴趣取向给出针对性推荐,对于兴趣爱好与主流偏向较大的用户往往精准度不够。
2.低自动化。大部分推荐网站仍然依赖于关键词系统,需要用户频繁参与。
|