融合社交网络信息的长尾推荐方法
冯晨娇1, 宋鹏2, 张凯涵3, 梁吉业3
1.山西财经大学 应用数学学院 太原 030006
2.山西大学 经济与管理学院 太原 030006
3.山西大学 计算智能与中文信息处理教育部重点实验室 太原 030006
通讯作者:

宋 鹏,博士,教授,主要研究方向为智能决策、数据挖掘.E-mail:songpeng@sxu.edu.cn.

作者简介:

冯晨娇,博士,讲师,主要研究方向为数据挖掘、推荐系统.E-mail:fengcj@sxufe.edu.cn.

张凯涵,博士研究生,主要研究方向为数据挖掘、机器学习.E-mail:zh_khan@163.com.

梁吉业,博士,教授,主要研究方向为粒计算、数据挖掘、机器学习.E-mail:ljy@sxu.edu.cn.

摘要

在长尾推荐场景中,目标用户更信任与自己兴趣相似的好友的推荐结果,故为目标用户推荐其好友的个性化偏好物品有利于提高长尾推荐性能.相应地,如何有效融合社交网络信息与评分矩阵信息,提升推荐性能自然成为长尾推荐中的重要问题.为此,文中从信息融合视角出发,通过社交网络和评分矩阵共享用户的潜在特征向量,并将好友推荐信息作为长尾推荐的重要影响因素,建立融合社交网络信息的长尾推荐方法.将用户活跃度、项目非流行度、用户项目偏好水平及好友推荐行为作为输入,采用变分推断方法,得出模型中相关未知参数,实现预测功能.实验表明,文中方法能在有效实现长尾物品推荐的同时,保证较高的推荐精度.

关键词: 推荐系统; 长尾推荐; 社会化推荐; 概率图模型
中图分类号:TP 391
Long Tail Recommendation Method Based on Social Network Information
FENG Chenjiao1, SONG Peng2, ZHANG Kaihan3, LIANG Jiye3
1. College of Applied Mathematics, Shanxi University of Finance and Economics, Taiyuan 030006
2. School of Economics and Management, Shanxi University, Taiyuan 030006
3. Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education, Shanxi University, Taiyuan 030006
Corresponding author:
SONG Peng, Ph.D., professor. His research interests include intelligent decision and data mining.

About Author:
FENG Chenjiao, Ph.D., lecturer. Her research interests include data mining and recommender system.
ZHANG Kaihan, Ph.D. candidate. Her research interests include data mining and machine learning.
LIANG Jiye, Ph.D., professor. His research interests include granular computing, data mining and machine learning.

Abstract

In the long-tail recommendation scenario, target users are more likely to trust the recommendation results of the friends with similar interests. Therefore, recommending personalized preferences of friends to target users is conducive to improving the performance of long-tail recommendation methods. Accordingly, how to effectively fuse social network information with rating matrix information is an important issue in long-tail recommendation. In this paper, a long-tail recommendation method based on social network information is designed. From the perspective of information fusion, social network and rating matrix information are utilized to share potential feature vectors of users. The information of friend recommendation is taken as an important factor in the proposed recommendation model. User activity level, item unpopularity level, user-item preference level and friend recommendation behavior are taken as inputs, and variational inference is employed to get relevant unknown parameters to realize accurate prediction. Experiments show that the proposed method can recommend long-tail items effectively with high recommendation accuracy.

Key words: Recommender System; Long-Tail Recommendation; Social Recommendation; Probabilistic Graphical Model

本文责任编委 马少平

Recommended by Associate Editor MA Shaoping

在信息爆炸时代, 用户难以高效地获取可能感兴趣的商品、服务等各类信息, 同时, 商家也难以准确地为目标用户展现相关的产品.因此, 推荐系统逐渐成为一个重要的角色出现在亚马逊等电子商务网站.然而, 现有的推荐算法常忽略冷门物品的推荐, 即现有方法更倾向于推荐流行物品.

冷门物品, 即长尾物品, 具有独特的价值.首先, 相比流行商品, 长尾商品的边际效用更大, 能为公司带来更高的利润, 对于推荐系统来说, 增加利润的关键在于长尾市场的开拓[1, 2, 3].Yin等[4]进一步解释, 由于竞争对手以相同价格出售流行商品, 导致这种商品的利润很低, 而长尾商品恰恰相反, 一旦成功被购置会使商家的收益增加.其次, 长尾商品销售给用户带来更好的满意度.由于一站式购物便利效应, 通过为客户提供一站式获取主流产品和利基产品的便利, 可提高消费者满意度, 使重复光顾成为可能.由于长尾商品推荐的重要性被人们广泛接受, Shi等[5]指出对长尾物品的推荐是推荐系统有效性的重要评测指标.

对于长尾物品而言, 推荐难度在于数据稀疏程度更凸显, 从现有研究进展上看, 主要集中在聚类、多目标优化、二部图及消除流行偏差等.Park等[6, 7]基于物品属性对长尾物品聚类, 通过同类中长尾物品评分的共享, 增加长尾推荐中可用的评分数目, 运用已有的预测模型进行推荐.Grozin等[8]基于聚类方法, 分组相似物品, 并通过关联规则挖掘算法使用这种密集的数据表示, 提高交叉销售推荐的质量.

随后, 学者们开始尝试多目标优化方法, 以多目标优化为出发点, 将准确性、多样性、流行度、新颖性等不同指标按照一定的原则构建优化函数, 实现在保证一定准确度的情况下提高推荐新颖性的折衷方案[9, 10, 11, 12, 13].此外也考虑利用附加信息(如用户评论、用户和产品属性、文本挖掘)挖掘用户的个性化偏好和长尾物品之间的关系.Johnson等[14]在二部图添加用户或产品属性额外的维度生成三部图, 目的是利用该维度使随机游走具有更高的概率到达长尾物品.现有的消除流行偏差的主要方法是排名调整和无偏学习.Zhu等[15]对推荐列表进行事后重新排序.Abdollahpouri等[16]采用xQuAD(Explicit Query Aspect Diversification)改进版解决流行偏差问题, 使系统设计者能对系统进行调优, 达到预期的折衷目标.这两种方法都是启发式设计, 旨在有意提高不太受欢迎的项目的分数, 但缺乏有效性的理论基础.Liu等[17]采用因果嵌入模型, 使用无偏均匀数据引导模型学习无偏嵌入, 迫使模型丢弃物品流行度.然而, 获取这种统一的数据需要将物品随机暴露给用户, 存在损害用户体验的风险.尽管上述方法在一定程度上提高长尾物品的推荐效果, 但均未考虑用户好友对长尾物品推荐起到的至关重要的作用.

Web 2.0时代的到来催生博客、P2P、维基、即时信息、社交网站等主要技术.这些技术在浏览网站的基础上, 更注重用户之间的交互作用, 为Web 2.0的蓬勃发展带来巨大的动力.社交媒体、社交网络、社交标签等网络应用的普及催生一个特殊的应用— — 社会化推荐.社会化推荐是建立在社会选择和社会影响效果基础上的推荐算法.社会选择是指人们倾向于接触具有相似属性的人, 并且由于社会影响, 社会网络中的相关个人互相影响变得更相似[9].如何有效融合两者之间的信息成为社会化推荐的核心问题.基于近邻的社会化推荐[18]是一种直观的做法, 即利用社交网络中两位用户之间共同的好友数量计算用户之间的相似度, 将其与传统的相似度结合后再进行近邻推荐或引入矩阵分解推荐方法中.基于图的社会化推荐[19, 20]结合用户和产品的二分图与用户的社交网络图, 产生表示社群的新节点后, 再进行基于图的推荐.

上述两种融合策略因涉及用户数目庞大, 给在线学习带来一定困难, 而融合社交信任网络的矩阵分解方法由于其可扩展性及灵活性较高等特点被广泛使用.一些学者将社交网络与评分矩阵共享用户潜在特征矩阵, 并有机结合两者[21, 22, 23, 24].还有些学者通过社交网络将用户潜在特征矩阵重表示后, 再进入矩阵分解环节[25, 26, 27, 28, 29, 30, 31].

从现有研究进展上看, 上述方法的出发点是更多地追求推荐精度, 而社会化推荐不单是追求精度, 可通过好友的可信任推荐增加冷门物品的点击率.本文试图通过概率图模型的因果关系表示优势, 将社交网络作为影响长尾推荐的一个重要影响因素有机融入推荐方法中, 从而在保持精度的前提下, 提高长尾物品的推荐效果.鉴于上述分析, 本文提出融合社交网络信息的长尾推荐方法(Long Tail Re-commendation Method Based on Social Network Infor-mation, LTRSN), 将用户活跃度、项目非流行度、用户项目偏好水平及好友推荐行为作为输入, 采用变分推断方法得出模型中相关未知参数, 实现预测功能.实验表明, 文中方法能在有效实现长尾物品推荐的同时, 保证较高的推荐精度.

1 参数定义

G=(U, ε)为一个社交网络, 其中

U={u1, u2, …, um}

表示用户节点集合, εU×U表示用户和用户之间的信任边.在社交网络中节点和节点之间的边通常为有序对(ui, uk), 其中, ui表示信任者, uk表示被信任者.使用链接矩阵T=(tik)表示ε中边的结构:tik=1表示用户ui信任用户uk; tik=0表示用户uiuk之间无信任关系.进一步, 利用社交矩阵T可计算两位用户之间的社交关系强度, 本文采用杰卡德相似度计算用户社交关系强度矩阵S=(sik), 其中, sik表示用户uiuk之间的社交关系强度.物品集合V={v1, v2, …, vn}, 用户与物品之间的评分矩阵R= (rij)m×n, rij为第i个用户ui对第j个物品vj的评分.评分通常采用5分制, 1分表示最弱的偏好, 5分表示最强的偏好.

2 融合社交网络信息的长尾推荐方法

社交信息不仅对用户的评分有影响, 同时, 对于长尾物品的推荐也有重要的推动作用, 因此, 本文从两方面融入社交网络信息:一方面, 社交网络和评分矩阵共享用户的潜在特征向量; 另一方面, 社交网络中的好友推荐是长尾物品推荐的重要影响因素.

2.1 生成过程

融合社交网络信息的长尾推荐方法(LTRSN) 是一种融合评分矩阵和社会化信息的概率图模型.具体生成过程如图1所示.图中:□表示超参数; 表示观测变量; ○表示隐变量, 即不可观测变量, 但是对系统状态和能观察到的输出存在影响, 故称为隐变量; 有向边表示概率依存关系; 矩形表示重复; 数字表示重复次数.

图1 LTRSN概率图模型Fig.1 LTRSN based probability graph model

生成过程解释如下.

1)第i位用户偏置ai∈ R、第j个物品偏置bj∈ R、第i位用户潜在特征向量Ui∈ Rl×1和第j个物品潜在特征向量Vj∈ Rl×1共同生成第i位用户对第j个物体的偏好zij~N(ai, bj, Ui, Vj, σz2), σz为超参数, 即用户- 物品偏好水平, 再由zij生成评分rij~N(zij, σR2), σR为超参数.

2)第i位用户活跃度ci∈ R、第j个物品非流行度dj∈ R、用户- 物品偏好水平zij和好友推荐( tfikj, θij, η)共同生成长尾物品推荐p(xij|ci, dj, zij, tfikj, θij, η).其中, xij表示0-1变量, 1表示第i位用户评分的第j个物品为长尾物品, 否则为0, fik表示第i位用户的第k个好友, tfikj表示0-1变量, 1表示第i位用户的第k个好友推荐物品j, 否则为0.|fi|表示第i位用户的好友个数ijRfi表示第i位用户及好友对第j个长尾物品贡献, η表示社交网络对长尾物品推荐的贡献.

p(xij|ci, dj, zij, tfikj, θij, η)主要受评分矩阵和社交网络影响.评分矩阵对xij影响是指cidjzij生成[32]

p(xij|ci, dj, zij, θij0=1)~B(σ(cidjzij)).

社交网络对xij的影响是指第k个好友生成

p(xij| tfikj, η, θijk=1)~B(η1 xfkij+η0(1- xfkij)),

其中k=1, 2, …, |fi|, η=(η0, η1).

η1=p(xij=1| tfkij=1, xfkij=1, θijk=1),

表示用户ui的第k位好友 ufkij对第j个长尾物品有评分且对第i位用户推荐长尾物品的概率;

η0=p(xij=1| tfkij=1, xfkij=0, θijk=1)

表示用户ui的第k位好友 ufkij对第j个长尾物品没有评分但对第i位用户推荐长尾物品的概率.

3)影响长尾物品推荐的各部分权重β i生成θij.假设θij~Mult(β i), β i作为θij的先验服从狄利克雷分布, 即β i~Dir(α ), 其中

2.2 变量描述

本文模型中的变量分为用户、物品和社会网络3类.

对于第i位用户:

1)用户偏置ai~N(0, σa2),

2)用户潜在特征向量Ui~N(0, σU2Il)),

3)用户活跃度ci~Beta( ωc1, ωc2),

4)用户自身偏好选择长尾物品和好友推荐长尾物品的权重β i~Dir(α ),

其中, σaσUα ωc1ωc2为超参数, 设

ωc1= ωc2, ( ωc1, ωc2)=ωc.

对于第j个物品:

1)物品偏置bj~N(0, σb2),

2)物品潜在特征向量Vj~N(0, σV2Ik),

3)物品非流行度dj~Beta( ωd1, ωd2),

其中, σbσVωd1ωd2为超参数, 设

ωd1= ωd2, ( ωd1, ωd2)=ωd.

对于每个评分rij:

1)可观测评分rij~N(zij, σR2),

2)用户-物品偏好水平

zij~N(ai+bj+ UTiVj, σz2),

3)当xij=1时第i名用户评分的第j个物品是长尾物品的概率是p(xij|ci, dj, zij, tfkij, θij, η),

4)贡献变量θij.

对于每个社交关系强度:

1)第k位用户的潜在社交特征向量Wk~N(0, σW2I),

2)社交关系强度 sik~N( UTiWk, σS2),

3)社交贡献η~Beta( ωη1, ωη2),

其中, σWσSωη1ωη2为超参数, 设

ωη1= ωη2, ( ωη1, ωη2)=ωη.

2.3 变分推断

本文采用平均场理论进行变分推断, 目标是学习隐变量的后验概率分布的参数.首先给出观测变量和隐变量组合的联合概率分布及变分分布, 得到证据下界表示.然后, 推导目标函数的梯度, 实现变分参数学习.最后, 预测未知评分.

定义偏好z= (zij)m×n, 用户偏置a=(a1, a2, …, am), 物品偏置b=(b1, b2, …, bn), 用户活跃度c=(c1, c2, …, cm), 物品非流行度d=(d1, d2, …, dn), 用户潜在特征向量U=(U1, U2, …, Um), 物品潜在特征向量V=(V1, V2, …, Vn), 用户潜在社交特征向量W=(W1, W2, …, Wm).概率图模型作为生成模型, 首先考虑观测变量和隐变量组合的联合概率分布, 设为p(R, x, T, S, Θ ), 其中, Θ ={z, a, b, c, d, U, V, W, θ, β , η}为隐变量, Rx, TS为观测变量.联合概率分布定义如下:

本文目标是求得后验概率p(Θ |R, x, T, S).

为了降低计算复杂度, 目标变换为寻找q(Φ ), 使KL散度D(q(Φ )‖p(Θ |R, x, T, S)达到最小, 称q(Φ )为变分分布, Φ 为变分参数. q(Φ )通过平

均场的假设变得清晰简单, 下面介绍平均场变分推断.

此处平均场理论假设变分参数相互独立(贝叶斯理论中这些参数实际是条件独立的), 即满足

其中, Φ 为变分参数,

变分推断最小化KL散度等价于用它最大化证据下界[33].证据下界为

L(q)=Eq(ln p(R, x, T, S, Θ ))-Eq(ln q(Φ )).

证据下界包括两部分:1)对数似然函数关于变

分分布q(Φ )的期望, 2)变分分布q(Φ )的对数函数关于自身的期望, Eq(·)表示数学期望是对q(Φ )定义的.

由式(1)得

由式(2)可得

最终, 可得到证据下界L(q), 其中

Eq(ln P(xij|ci, dj, zij, θij, tfkij, η))

利用全概率公式、Jensen's不等式和对数函数的高斯下界[34] :

σ(x)≥ h(x, ξ )=σ(ξ )exp{ x-ξ2-λ(ξ )(x2-ξ 2)}, λ(ξ )= 12ξ(σ(ξ )- 12),

x=ξ 时到达一致下界.故

其中, yijk=η0(1- xfkij)+η1 xfkij.

根据上述计算, 将证据下界L(q)中的

Eq(ln P(xij|ci, dj, zij, θij, tfkij, η))

用下界替换, 记为 L~(q), 相应地, 最小化证据下界L(q)转化为最小化关于变分参数Φ 的函数 L~(q).为了强调变分参数, 改记为 L~(q, Φ ).在 L~(q, Φ )中有多项关于q(Φ )的期望, 如Eq(ln N(rij|zij, σR2)), 计算如下:

Eq(ln N(rij|zij, σR2))=

Eq[- 12ln(2π σR2)- 12σR2( rij2+ zij2-2rijzij)]=

- 12ln(2π σR2)- 12σR2( rij2+Eq zij2-2rijEqzij)=

- 12ln(2π σR2)- 12σR2( rij2+ μzij2+ Λzij-1-2rij μzij).

其它项可用类似方法求出期望, 由于篇幅问题在这里不再赘述.

对于参数ξ ij, 利用文献[34]的结论, 有

ξ ij=Eq( (cidjzij)2),

得到ξ ij的估计:

ξ^ij[μci2+Λci-1][μdj2+Λdj-1][μzij2+Λzij-1]. (3)

ξ ij 的估计代入高斯下界公式, 得到λij的估计:

在传统的变分推断中, 利用坐标上升优化 L~(q, Φ ), 即迭代优化每个参数时, 固定其它参数.例如, 估计 Λzij, 即对 Λzij求偏导, 得

L~Λzij= 12σR21Λzij2+ 12σz21Λzij2+

λ(ξ ij)φij0[ μci2+ Λci2][ μdj2+ Λdj2] 1Λzij2- 121Λzij.

令偏导等于0, 得到 Λzij的估计:

Λ^zij1σR2+ 1σz2+2λijφij0[ μci2+ Λci2][ μdj2+ Λdj2].(5)

其它参数估计方法类似, 不一一详细计算, 具体结果如下:

基于上述梯度, 给出融合社会化信息的长尾推荐方法, 步骤如算法1所示.

算法 1 融合社交网络信息的长尾项推荐方法

输入 R, x, T, ρ

输出 变分参数Φ

从社交矩阵T计算社交关系强度S

随机初始化全局变分参数

While iter< iter_num

iter=iter+1

初始化局部变分参数

for rijR do

While 不收敛 do

利用式(3)~式(8)计算 ξ^ij, λ^ij, Λ^zij, μ^zij, φ^ij0, φ^ijk

end for

for i=1, 2, …, m do

利用式(9)~式(14)计算 Λ^Ui, μ^Ui, Λ^ai, μ^ai, ξ^ci, τ^i

end for

for j=1, 2, …, n do

利用式(15)~式(19)计算 Λ^Vj, μ^Vj, Λ^bj, μ^bj, ξ^dj

end for

for k=1, 2, …, m do

利用式(20)~式(22)计算 Λ^Wk, μ^Wk, ξηl

end for

更新Φ =(1-ρ )Φ +ρ Φ^

end While

2.4 概率推断

当所有参数更新完毕, 得到最优q* (Θ ), 预测第i名用户对第j个产品的评分:

3 实验及结果分析
3.1 实验数据集

为了验证本文方法, 实验数据集需要同时包含社交网络和评分矩阵, 本文采用社会化推荐常用的FilmTrust、Epinions公开数据集.FilmTrust 数据集是2011年6月从整个FilmTrust网站上抓取的一个数据集, 包含1 641 位用户, 2 071部电影, 35 497 个评分, 1 853 条社交关系.评分范围为0.5~4, 步长为0.5.Epinions数据集是2003年从评价网站Epinions上收集的数据集, 包含49 290位用户, 139 738部电影, 664 824个评分, 487 183条社交关系.评分范围为1~5, 步长为1.2个数据集均是单向信任关系.

本文利用巴莱多定律(也叫二八定律)将电影分为热门电影和长尾电影.具体方法是将电影按照评分数量由高到低排列, 取后20%的电影为长尾电影[35].

3.2 评价指标

本文选择如下5个指标刻画长尾推荐性能:与准确性相关的平均绝对误差(Mean Absolute Error, MAE), 均方根误差(Root Mean Squared Error, RMSE), 召回率(Recall), 精确度(Precision), 与流行度相反的新颖性(Novelty)[22].具体指标计算公式如下:

其中:|·|表示集合中元素的个数; Rtest表示五折交叉验证法中, 随机选择出的一折测试集; Iu表示面向用户u推荐的前k个物品集合; Tu表示测试集上面向用户u推荐的物品集合; Lu表示用户u的top N列表; Ui表示曾对物品i评分的用户的集合.

在这5个指标中, MAE、RMSE、Recall、Precision均采用五折交叉验证方法.Novelty表示推荐结果的平均流行度, 值越小, 推荐结果越新颖.为了降低随机初始化导致的误差, 本文在计算新颖性时, 重复10次取平均值.

3.3 对比方法

为了说明本文方法的有效性, 选择如下对比方法.

1)PMF(Probabilistic Matrix Factorization)[36].已知用户评分, 给出用户潜在特征和物品潜在特征的后验概率, 并以对数后验概率最大化为目标函数, 得到用户和物品的潜在特征向量的估计值, 通过它们的内积预测未知评分.PMF没用融合社交信息, 本文把PMF作为基准预测.

2)SoRec(Social Recommendation Using Proba-bilistic Matrix Factorization)[21].在上述PMF的基础上增加社交关系矩阵, 通过共享用户特征向量联合分解评分矩阵和社交关系矩阵, 达到两种信息的有效融合.SoRec的社交关系强度sik通过用户连接关系度计算[38].

3)RSTE(Recommendation with Social Trust En-semble)[25].在SoRec的基础上将目标用户好友的偏好与自身偏好进行加权平均, 同时考虑目标用户及其好友对同一物品的综合影响.

4)SocialMF(A Matrix Factorization Technique with Trust Propagation for Recommendation in Social Networks)[26].基于信任传播机制, 认为目标用户的偏好较大程度上由其好友的偏好决定, 相应地, 基于好友特征向量的加权平均表示目标用户特征向量, 并引入模型的目标函数中.

5)SoReg(Recommender Systems with Social Re-gularization)[27].与SocialMF类似, 同样在PMF的基础上添加社交正则项, 区别在于SoReg对具有不同关系强度的好友进行区分.

6)TrustMF(Social Collaborative Filtering by Trust)[22].将社交矩阵分解为信任和被信任双向关系, 将用户潜在社交特征向量分为信任者特征向量和被信任者特征向量, 类似SoRec建模.

7)TrustSVD(A Trust-Based Matrix Factorization Technique)[28].将SVD++融入社交信息的推广, 即将社交矩阵的显式关系作为隐式反馈信息加入SVD++中.

8)面向长尾推荐的三因素概率图模型(Three- Factors Based Probability Graph Model, TFPGM)[32].基于用户活跃度、项目非流行度和用户-项目偏好水平因素的概率图推荐方法.

9)FPMF(A Fusion Probability Matrix Factoriza-tion)[38].融合局部相似度信息和全局评价信息的概率矩阵分解方法.

在实验中, 潜在特征空间维数设置为10, 迭代步长均为0.01, 迭代100次停止.

3.4 实验结果

为了验证本文方法(LTRSN)的有效性, 基于如下3类指标分析实验结果.

第1类指标是从用户预测评分误差的角度对比方法性能.不同方法在FilmTrust、Epinions数据集上的性能对比如表1所示.由表1可看出, 在2个数据集上, 本文方法的MAE、RMSE值仅次于TrustSVD和FPMF, 均优于其它方法.这是因为TrustSVD在融合社交信息时利用SVD++的思想, 而SVD++将评分矩阵看成隐式反馈和显式反馈两种信息的表现.类似地, TrustSVD将社交矩阵也分为隐式反馈和显式反馈, 同时加入用户、物品偏置以优化预测评分.这些原因综合促成方法在预测误差方面性能最优.而FPMF是融合局部信息和全局信息的概率矩阵分解方法, 信息全面, 精度较高.本文方法沿用用户、物品偏置的概念, 利用社交矩阵的显式反馈等信息, 结果优于其它方法.之所以差于TrustSVD是因为添加用户活跃度、物品流行度等因素, 增强长尾物品的推荐, 从而在一定程度上降低预测误差.此外, 从PMF的MAE、RMSE值可知, 大多数情况下PMF劣于其它方法, 这说明社交信息的融合在一定程度上可提高预测精度.

表1 不同方法在2个数据集上的性能对比 Table 1 Performance comparison of different methods on 2 datasets

第2类指标是从排序的角度出发, 给出top N推荐.各方法在FilmTrust、Epinions数据集上的召回率对比如图2所示.由图可知, 在FilmTrust数据集上, 本文方法在召回率上仅劣于TrustSVD和FPMF, 优于其它方法.在Epinions数据集上, 本文方法在召回率上优于所有方法.

图2 各方法在2个数据集上的召回率对比Fig.2 Recall comparison of different methods on 2 datasets

各方法在FilmTrust、Epinions数据集上的精确度对比如图3所示.由图可知, 在FilmTrust数据集上, 本文方法的精确度劣于SoReg、TrustSVD、TFPGM, 但优于其它方法.在Epinions数据集上本文方法的精确度劣于SoReg、TrustMF, 但优于其它方法.

图3 各方法在2个数据集上的精确度对比Fig.3 Precision comparison of different methods on 2 datasets

综合图2和图3, 说明本文方法对于top N推荐是有一定优势的.

第3类指标是物品推荐的新颖性度量, 定义为流行度的对立面, 即长尾物品推荐的性能.由于SoReg 和TrustSVD在FilmTrust数据集上新颖性远大于其它方法, 即长尾推荐效果明显劣于其它方法, 因此不做对比.在Epinions数据集上, TrustSVD的长尾推荐效果显著劣于其它方法, 因此不做对比.各方法在FilmTrust、Epinions数据集上的新颖性对比如图4所示.

图4 各方法在2个数据集上的新颖性对比Fig.4 Novelty comparison of different methods on 2 datasets

由图4可看出, 本文方法在2个数据集上均优于其它对比方法.这是因为本文方法添加长尾物品推荐的影响因素, 有效提升长尾推荐性能.

4 结束语

本文从信息融合视角出发, 基于社交矩阵和评分矩阵, 提取长尾物品的重要影响因素, 即用户活跃度、物品流行度、用户-物品偏好水平和好友推荐.在此基础上, 面向长尾物品推荐任务, 提出融合社交网络信息的长尾推荐方法(LTRSN).本文通过平均场理论降低模型的复杂表示, 采用变分推断方法优化目标函数, 得到变分参数的估计, 并通过参数的估计预测未知评分.在2个具有社交信息的FilmTrust、Epinions公开数据集上进行算法的对比分析.实验表明, LTRSN在促进长尾物品推荐方面较有效, 同时保证较高的推荐精度, 这也进一步说明社会化信息融合的重要性.

参考文献
[1] BRYNJOLFSSON E, HU Y J, SMITH M D. From Niches to Riches: Anatomy of the Long Tail. MIT Sloan Management Review, 2006, 47(4): 67-71. [本文引用:1]
[2] OESTREICHER-SINGER G, SUNDARARAJAN A. Recommendation Networks and the Long Tail of Electronic Commerce. MIS Quarterly, 2012, 36(1): 65-84. [本文引用:1]
[3] VALCARCE D, PARAPAR J, BARREIRO Á. Item-Based Relevance Modelling of Recommendations for Getting Rid of Long Tail Products. Knowledge-Based Systems, 2016, 103: 41-51. [本文引用:1]
[4] YIN H Z, CUI B, LI J, et al. Challenging the Long Tail Reco-mmendation. Proceeding of the VLDB Endowment, 2012, 5(9): 896-907. [本文引用:1]
[5] SHI Y, LARSON M, HANJALIC A. Collaborative Filtering Beyond the User-Item Matrix: A Survey of the State of the Art and Future Challenges. ACM Computing Surveys, 2014, 47(1): 1-45. [本文引用:1]
[6] PARK Y J, TUZHILIN A. The Long Tail of Recommender Systems and How to Leverage It // Proc of the ACM Conference on Reco-mmender Systems. New York, USA: ACM, 2008: 11-18. [本文引用:1]
[7] PARK Y J. The Adaptive Clustering Method for the Long Tail Pro-blem of Recommender Systems. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(8): 1904-1915. [本文引用:1]
[8] GROZIN V, LEVINA A. Similar Product Clustering for Long-Tail Cross-Sell Recommendations[C/OL]. [2021-05-26]. http://ceur-ws.org/Vol-1975/paper29.pdf. [本文引用:1]
[9] HAMEDANI E M, KAEDI M. Recommending the Long Tail Items through Personalized Diversification. Knowledge-Based Systems, 2019, 164: 348-357. [本文引用:2]
[10] HO Y C, CHIANG Y T, HSU J Y J. Who Likes It More? Mining Worth-Recommending Items from Long Tails by Modeling Relative Preference // Proc of the 7th ACM International Conference on Web Search and Data Mining. New York, USA: ACM, 2014: 253-262. [本文引用:1]
[11] GENG B R, LI L L, JIAO L C, et al. NNIA-RS: A Multi-objective Optimization Based Recommender System. Physica A: Statistical Mechanics and Its Application, 2015, 424: 383-397. [本文引用:1]
[12] ZHANG M, HURLEY N, LI W, et al. A Double-Ranking Strategy for Long-Tail Product Recommendation // Proc of the IEEE/WIC/ACM International Conferences on Web Intelligence. Washington, USA: IEEE, 2012: 282-286. [本文引用:1]
[13] WANG S F, GONG M G, LI H L, et al. Multi-objective Optimization for Long Tail Recommendation. Knowledge-Based Systems, 2016, 104: 145-155. [本文引用:1]
[14] JOHNSON J, NG Y K. Using Tripartite Graphs to Make Long Tail Recommendations // Proc of the 8th International Conference on Information, Intelligence, Systems and Applications. Washington, USA: IEEE, 2017. DOI: DOI:10.1109/IISA.2017.8316436. [本文引用:1]
[15] ZHU Z W, HE Y, ZHAO X, et al. Popularity-Opportunity Bias in Collaborative Filtering // Proc of the 14th ACM International Conference on Web Search and Data Mining. New York, USA: ACM, 2021: 85-93. [本文引用:1]
[16] ABDOLLAHPOURI H, BURKE R, MOBASHER B. Managing Po-pularity Bias in Recommender Systems with Personalized Re-ranking[C/OL]. [2021-05-26]. https://arxiv.org/pdf/1901.07555.pdf. [本文引用:1]
[17] LIU D G, CHENG P X, DONG Z H, et al. A General Knowledge Distillation Framework for Counterfactual Recommendation via Uniform Data // Proc of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, USA: ACM, 2020: 831-840. [本文引用:1]
[18] XU G, XU L L, WU L. Utilizing Social and Behavioral Neighbors for Personalized Recommendation // Proc of the 10th International Symposium on Neural Networks. Berlin, Germany: Springer, 2013: 541-551. [本文引用:1]
[19] JAMALI M, ESTER M. TrustWalker: A Rand om Walk Model for Combining Trust-Based and Item-Based Recommendation // Proc of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM, 2009: 397-406. [本文引用:1]
[20] JAMALI M, ESTER M. Using a Trust Network to Improve Top- N Recommendation // Proc of the 3rd ACM Conference on Reco-mmender Systems. New York, USA: ACM, 2009: 181-188. [本文引用:1]
[21] MA H, YANG H X, LYU M R, et al. SoRec: Social Recommendation Using Probabilistic Matrix Factorization // Proc of the 17th ACM Conference on Information and Knowledge Management. New York, USA: ACM, 2008: 931-940. [本文引用:2]
[22] YANG B, LEI Y, LIU J M, et al. Social Collaborative Filtering by Trust. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(8): 1633-1647. [本文引用:3]
[23] TANG J L, HU X, GAO H J, et al. Exploiting Local and Global Social Context for Recommendation // Proc of the 23rd Internatio-nal Joint Conference on Artificial Intelligence. Palo Alto, USA: AAAI, 2013: 2712-2718. [本文引用:1]
[24] FANG H, BAO Y, ZHANG J. Leveraging Decomposed Trust in Probabilistic Matrix Factorization for Effective Recommendation // Proc of the 28th AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI, 2014: 30-36. [本文引用:1]
[25] MA H, KING I, LYU M R. Learning to Recommend with Social Trust Ensemble // Proc of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, USA: ACM, 2009: 203-210. [本文引用:2]
[26] JAMALI M, ESTER M. A Matrix Factorization Technique with Trust Propagation for Recommendation in Social Networks // Proc of the 4th ACM Conference on Recommender Systems. New York, USA: ACM, 2010: 135-142. [本文引用:2]
[27] MA H, ZHOU D Y, LIU C, et al. Recommender Systems with Social Regularization // Proc of the 4th ACM International Confe-rence on Web Search and Web Data Mining. New York, USA: ACM, 2011: 287-296. [本文引用:2]
[28] GUO G B, ZHANG J, YORKE-SMITH N. TrustSVD: Collaborative Filtering with Both the Explicit and Implicit Influence of User Trust and of Item Ratings // Proc of the 29th AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI, 2015: 123-129. [本文引用:2]
[29] LI H, WU D M, TANG W B, et al. Overlapping Community Re-gularization for Rating Prediction in Social Recommender Systems // Proc of the 9th ACM Conference on Recommender Systems. New York, USA: ACM, 2015, 27-34. [本文引用:1]
[30] TANG J L, WANG S H, XIA H, et al. Recommendation with Social Dimensions // Proc of the 30th AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI, 2016: 251-257. [本文引用:1]
[31] SEDHAIN S, MENON A K, SANNER S, et al. Low-Rank Linear Cold-Start Recommendation from Social Data // Proc of the 31st AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI, 2017: 1502-1508. [本文引用:1]
[32] 冯晨娇, 宋鹏, 王智强, . 一种基于3因素概率图模型的长尾推荐方法. 计算机研究与发展, 2021, 58(9): 1975-1986.
(FENG C J, SONG P, WANG Z Q, et al. A Method on Long Tail Recommendation Based on Three-Factor Probabilistic Graphical Model. Journal of Computer Research and Development, 2021, 58(9): 1975-1986. ) [本文引用:2]
[33] JAAKKOLA T S, JORDAN M I. Bayesian Parameter Estimation via Variational Methods. Statistics and Computing, 2000, 10: 25-37. [本文引用:1]
[34] JAAKKOLA T S, JORDAN M. A Variational Approach to Bayesian Logistic Regression Models and Their Extensions // Proc of the 6th International Workshop on Artificial Intelligence and Statistics. Berlin, Germany: Springer, 1996: 1-12. [本文引用:2]
[35] 刘华锋, 景丽萍, 于剑. 融合社交信息的矩阵分解推荐方法研究综述. 软件学报, 2018, 29(2): 340-362.
(LIU H F, JING L P, YU J. Survey of Matrix Factorization Based Recommendation Methods by Integrating Social Information. Journal of Software, 2018, 29(2): 340-362. ) [本文引用:1]
[36] SALAKHUTDINOV R, MNIH A. Probabilistic Matrix Factorization // Proc of the 20th International Conference on Neural Information Processing Systems. Cambridge, USA: The MIT Press, 2007: 1257-1264. [本文引用:1]
[37] ZHOU D Y, SCHÖLKOPF B, HOFMANN T. Semi-supervised Lear-ning on Directed Graphs[C/OL]. [2021-05-26]. https://www.microsoft.com/en-us/research/wp-content/uploads/2017/01/SDG.pdf. [本文引用:1]
[38] FENG C J, LIANG J Y, SONG P, et al. A Fusion Collaborative Filtering Method for Sparse Data in Recommender Systems. Information Sciences, 2020, 521: 365-379. [本文引用:2]