论文部分内容阅读
随着移动设备的普及和基础通信设施的建设完善,尤其是5G通讯的商用,互联网,物联网,云计算将得到高速发展,伴随而来的是数据量的爆发式增长。大量的有价值的信息湮没在了没用的冗余数据中,远远超出了大众用户的所能承受的数据量,严重阻碍了信息的有效传播。由于数据的信息过载,要为用户找到相关的、吸引人的和有用的内容变得越来越困难。作为解决信息过载的有效手段,推荐系统受到了大量研究人员的广泛关注。近年来,广大学者提出了许多的优秀的推荐算法模型,在推荐效果上有一定的提升。传统的推荐算法简单易行,但是偏好预测的精度不高,很难满足日益增长的用户需求。因此研究人员在传统推荐算法的基础上结合机器学习实现了模型的改进和多信息的融合,一定程度上提高评分的预测性能。随着的深度学习的发展,深度学习已经成为了推荐系统研究的新趋势。因此,本文基于机器学习方法,深入研究了新型的用户偏好预测模型。
本文以电影推荐场景为例,结合经典的推荐算法以及流行的知识图谱技术,以提高电影推荐算法的预测精度及准确率为目标,探索研究推荐算法模型。本文主要研究工作及创新点如下:
(1)针对推荐数据集设计了一整套推荐数据的处理流程,包括数据采集,数据解析,数据存储,数据清洗,数据转换等操作,数据呈现非结构化形式,处理复杂。针对数据集的特点和实际的推荐需求,采用K-core来筛选数据集,提升推荐数据的内聚性,有助于提升推荐模型的效率。
(2)利用(1)得到的数据,本文设计了一种多相似度双极限学习机(Dual Extreme Learning Machines,DELM)的协同过滤推荐算法来预测评分,将评分矩阵从物品和用户两方面计算相似度,并将相似度作为权重加权到近邻评分向量中得到用户贡献向量和物品贡献向量,以用户贡献向量和物品贡献向量作为双极限学习机的输入来预测评分,并针对极限学习机的网络结构特点给出有效的参数求解方法。通过在(1)中得到的数据和Movielens数据集上进行仿真实验,充分验证了本文提出的DELM模型相比于传统的基于用户的协同过滤和基于物品的协同过滤有更佳的偏好预测性能。
(3)由于传统方法和(2)中模型的都要给定一个近邻值,这就可能在某些商品或用户的近邻数取值上存在信息不足,或者信息冗余问题。因此,本文充分利用数据的图谱网络属性,将用户偏好预测问题抽象成为实体间的链接预测问题,然后设计一种针对图谱数据结构的编码解码(Encode-decode)模型,以关系型图卷积网络(Relational Graph Convolutional Network,RGCN)作为编码器提取用户和物品的特征,充分利用了实体之间的关系信息,以改进DistMult分解模型作为解码模型,保证偏好预测值的连续性。通过在两个数据集上的仿真实验,对比了SVD,PMF,RBM,AutoEncoder模型,充分的证明了关系型图卷积网络偏好预测推荐模型有更好的预测精度。
本文以电影推荐场景为例,结合经典的推荐算法以及流行的知识图谱技术,以提高电影推荐算法的预测精度及准确率为目标,探索研究推荐算法模型。本文主要研究工作及创新点如下:
(1)针对推荐数据集设计了一整套推荐数据的处理流程,包括数据采集,数据解析,数据存储,数据清洗,数据转换等操作,数据呈现非结构化形式,处理复杂。针对数据集的特点和实际的推荐需求,采用K-core来筛选数据集,提升推荐数据的内聚性,有助于提升推荐模型的效率。
(2)利用(1)得到的数据,本文设计了一种多相似度双极限学习机(Dual Extreme Learning Machines,DELM)的协同过滤推荐算法来预测评分,将评分矩阵从物品和用户两方面计算相似度,并将相似度作为权重加权到近邻评分向量中得到用户贡献向量和物品贡献向量,以用户贡献向量和物品贡献向量作为双极限学习机的输入来预测评分,并针对极限学习机的网络结构特点给出有效的参数求解方法。通过在(1)中得到的数据和Movielens数据集上进行仿真实验,充分验证了本文提出的DELM模型相比于传统的基于用户的协同过滤和基于物品的协同过滤有更佳的偏好预测性能。
(3)由于传统方法和(2)中模型的都要给定一个近邻值,这就可能在某些商品或用户的近邻数取值上存在信息不足,或者信息冗余问题。因此,本文充分利用数据的图谱网络属性,将用户偏好预测问题抽象成为实体间的链接预测问题,然后设计一种针对图谱数据结构的编码解码(Encode-decode)模型,以关系型图卷积网络(Relational Graph Convolutional Network,RGCN)作为编码器提取用户和物品的特征,充分利用了实体之间的关系信息,以改进DistMult分解模型作为解码模型,保证偏好预测值的连续性。通过在两个数据集上的仿真实验,对比了SVD,PMF,RBM,AutoEncoder模型,充分的证明了关系型图卷积网络偏好预测推荐模型有更好的预测精度。