摘要

推荐算法毕业论文之编码序列强烈推荐：KERL！这篇论文介绍了一种基于知识引导的强化学习模型，可以预测客户未来的个人行为。使用深度神经网络技术，取得了非常好的实际效果。这项工作真是太棒了！

正文

推荐算法毕业论文之编码序列强烈推荐：KERL

KERL: A Knowledge-Guided Reinforcement Learning Modelfor Sequential Recommendation

引言

‍时钟频率强烈推荐是根据客户的次序个人行为，对将来的个人行为开展预测分析的每日任务。现阶段的工作中运用深度神经网络技术性的优点，获得了非常好的实际效果。可是这种工作中仅致力于所强烈推荐产品的部分盈利，仍未考虑到该产品针对编码序列长期性的危害。

增强学习（RL）根据利润最大化长期性收益为这一难题给予了一个很有可能的解决方法。可是，在时强烈推荐情景中，客户与产品互动的稀少性，动态提升了增强学习的任意探寻的难度系数，促使实体模型不可以非常好地收敛性。

Specifically, we formalize the sequential recommendation task as a Markov Decision Process (MDP), and make three major technical extensions in this framework, includingstate representation, reward function and learning algorithm.

最先，从开发设计 exploitation 和探寻 exploration 2个层面考虑到，明确提出用KG信息内容提高情况表明。
次之，大家精心策划了一个复合型奖赏涵数，该涵数可以测算编码序列级和专业知识级奖赏。
第三，大家明确提出了一种新的优化算法来更合理地学习培训所明确提出的实体模型。
据大家孰知，这是第一次在根据RL的编码序列强烈推荐中确立探讨和运用专业知识信息内容，特别是在探寻全过程中。

1 INTRODUCTION

Sequential recommendation 有很多方式：classic matrix factorization、popular recurrent neural network approaches [5,9,14]，一般，这种方式全是用巨大似然可能（MLE）来训炼，便于逐渐线性拟合观察到的相互影响编码序列。

增强学习（RL）的最新消息[24]根据考虑到利润最大化长期性特性为这一难题给予了一个有期待的解决方法。

[24] Mastering the game of Go with deep neuralnetworks and tree search. Nature 529, 7587 (2016), 484–489

最先，客户-新项目互动数据信息可能是稀少的或比较有限的。立即学习培训更艰难的提升总体目标并不易。

次之，RL实体模型的关键定义或体制是探寻全过程。选用单一或任意的探寻对策来捕获客户兴趣爱好的演化很有可能不是靠谱的。从实质上讲，客户个人行为是纷繁复杂的，将RL优化算法运用于次序强烈推荐，必须一个更可控性的学习过程。因此大家以KG数据信息为具体指导，选用根据RL的学习的方法开展次序强烈推荐。

Indeed, KG data has been widely utilized in recommendationtasks [12,26,28]. 但仅用在了开发设计 exploitation 全过程，并沒有应用到探寻 exploration 全过程中。如 Figure 1，影片能够被分成两个阶段，判断力上，运用 KG 能够在每一个环节非常好地推荐电影，可是这两个阶段的影片在种类，设计风格和小故事等很多层面都实质上是不一样的。目前的掌握专业知识的次序推荐者很可能会在第一阶段被“缠住”，而且没法合理地捕捉这两个阶段中间的喜好飘移。

【12】2018. Improving Sequential Recommendation with Knowledge-Enhanced Mem-ory Networks. In SIGIR. 505–514.
【26】2018. RippleNet: Propagating User Preferences on the KnowledgeGraph for Recommender Systems.
【28】2019. KGAT:Knowledge Graph Attention Network for Recommendation. In KDD. 950–958

大家将次序强烈推荐每日任务宣布化作马尔可夫管理决策全过程（MDP），并在这里架构中开展了三项关键的技术性拓展。实际包含专业知识提高的情况表明方式、引进专业知识的奖励制度，及其根据断开对策的学习培训体制。

最先，明确提出用KG信息内容提高情况表明。通过学习编码序列级和专业知识级的情况表明，大家的实体模型可以更精确地捕获客户喜好。为了更好地完成这一总体目标，大家搭建了一个预知未来客户喜好专业知识特点的梳理互联网。
次之，大家精心策划了一个可以另外测算编码序列级和专业知识级奖赏数据信号的复合型奖赏涵数。For sequence-level reward，the BLEU metric [21] from machine translation, and measure the overall quality of the recommendation sequence. For knowledge-level reward, we force theknowledge characteristics of the actual and the recommended se-quences to be similar.
Third, we propose a truncated policy gradientstrategy to train our model. Concerning the sparsity and instabilityin training induction network, we further incorporate a pairwiselearning mechanism with simulated subsequences to improve the learning of the induction network.（没了解）

2 RELATED WORK

Sequential Recommendation.次序强烈推荐致力于依据客户的历史时间互动交流数据信息来预测分析她们的将来个人行为。初期工作中一般运用马尔可夫链来捕捉次序个人行为的单步依赖感。

【22】2010. Factor-izing Personalized Markov Chains for Next-basket Recommendation. In WWW.811–820 设计方案了人性化的马尔可夫链以给予提议.
【27】2015. Learning Hierarchical Representation Model for NextBasket Recommendation.运用表征学习方式对客户和新项目中间的繁杂交互进行模型。
【19】
2018. Translation-based factorization ma-chines for sequential recommendation. InRecSys. 63–71. 融合 translation and metric-based approaches for sequential recommendation.

另一条线是对多步次序个人行为开展模型，这被证实是次序强烈推荐的一种更合理的方式，而且根据递归算法神经元网络（RNN）的实体模型在该行业获得了普遍的运用[5,20,29]。根据RNN的实体模型能够非常好地捕捉较长的编码序列个人行为开展强烈推荐。

【5】2017. Sequential User-basedRecurrent Neural Network Recommendations. InRecSys. 152–160.
【20】2017. Personalizing Session-based Recommendations with Hierarchical RecurrentNeural Networks. InRecSys. 130–137
【9】2016. Session-based Recommendations with Recurrent Neural Networks. In ICLR
[14] Wang-Cheng Kang and Julian J. McAuley. 2018. Self-Attentive Sequential Rec-ommendation. In ICDM. 197–206

3 PRELIMINARY

除开客户的历史时间互动数据信息，还有一个 KG，在其中假定每一个item能够与KG两端对齐。【33】2019. KB4Rec: A Data Set for Linking Knowledge Bases withRecommender Systems. Data Intell.1, 2 (2019), 121–136。

每日任务界定：关键紧紧围绕着 predict the next item 与【12】2018. Improving Sequential Recommendation with Knowledge-Enhanced Mem-ory Networks. InSIGIR. 505–514 设定类似。

4 OUR APPROACH

4.1 A MDP Formulation for Our Task

自然环境情况包括用以次序强烈推荐的全部有效信息内容，包含互动历史时间和KG。s_t = [ i_1:t, G ]，在其中 G 意味着 KG 信息内容，s₀ = [0, G]。V_st意味着情况 s_t。

依据情况，the agent 挑选一个 action a_t 归属于A，即从课程内容结合 I 挑选中一个课程内容 i_{t 1}开展强烈推荐。

在 action 后，agent 接到一个 reward，比如 r_{t 1} = R(s_t, a_t) , 奖赏涵数能够反映出强烈推荐的品质。而且情况依据情况迁移涵数开展升级

T(T:S×T→S)：s_{t 1}=T(s_t,a_t)=T([u, i_1:t, G],i_j(at))。

4.2 Learning Knowledge-Enhanced State Representation

虽然早已在根据编码序列的每日任务中明确提出了很多RL方式 [21,35]，但他们关键集中化在学习培训优化算法上，而且欠缺对外界专业知识信息内容的运用

【21】2016.Sequence Level Training with Recurrent Neural Networks. InICLR.
【35】2019. Reinforcement Learning to Optimize Long-term User Engagement inRecommender Systems. InKDD. 2810–2818.

文中为了更好地 enhance the state representations 分成两一部分：sequence-level and knowledge-level state representations.

4.2.1 Sequence-level State Representation.

选用规范的 GRU for encoding previous interaction sequence。那样关键捕捉客户喜好的次序特点，而且不运用专业知识信息内容来计算情况表明。

4.2.2 Knowledge-level State Representation.

如【12】，KG 能够用于提升编码序列强烈推荐的主要表现。However, previous methods mainly consider enhancing item or user representations with KG data for fitting short-term behaviors with MLE [35]. 因此为了更好地均衡 exploitation and exploration，明确提出2个 knowledge-based preference for a user，当今专业知识喜好（通称当今喜好）和将来专业知识喜好（通称将来喜好）。

【12】2018. Improving Sequential Recommendation with Knowledge-Enhanced Mem-ory Networks. InSIGIR. 505–514.
【35】2019. Reinforcement Learning to Optimize Long-term User Engagement inRecommender Systems. InKDD. 2810–2818.

Learning Current Preference. 先用 TransE 获得每一个 item i_t 的 KG embedding V_eit，再应用均值池方式（a simple average pooling method）来汇聚客户与之互动的历史时间项的 embedding。

Predicting Future Preference. As the key point to achieve effective exploration，运用将来喜好来捕获客户在未来時间的兴趣爱好。大家搭建了 an induction network 来预知未来喜好。根据应用全网络连接結果， an induction network 能够能够更好地捕获客户兴趣爱好的演化，尤其是喜好飘移。

4.2.3 Deriving the Final State Representation.

最终的情况表明为 v_st，where “⊕” is the vector concatenation operator

4.3 Setting the Reward with Knowledge Information

把 reward function 分成两一部分

Sequence-level Reward. 在编码序列强烈推荐中，一个好的奖赏涵数不但要考虑到单独流程的主要表现，还必须考量强烈推荐编码序列的总体主要表现。用到了评定翻译机器的指标值 BLEU。

在其中 prec_m是调整后的精密度，测算以下：

p_mis an m-gram subsequence of i_{t:t k} ，# 意味着统计分析前面一种在后面一种中发生的频次。

Knowledge-level Reward. 强烈推荐的 item 与一样运用 TransE 汇聚，测算相似性，以下：

4.4 Learning and Discussion

Based on these subsequences, a pairwise ranking mechanism is then proposed to learn the induction network. 实际优化算法步骤

下面详细介绍关键点。

4.4.1 Training with Truncated Policy Gradient.

总体目标是 learn a stochastic policy π that maximizes the expected cumulative reward J(Θ) for all uses. J(Θ) 的导函数以下：

在其中 γ is the discount factor to balance the importance of the current reward and future reward。

大家选用了一种断开式的 policy gradient 对策来对目标函数开展提升，针对客户的每一个情况，任意取样L条长短为 k 的子序列，开展梯度方向升级：

4.4.2 Training the Induction Network.

在 KERL 中大家根据设计方案一个推论互联网来模型文学知识和将来专业知识的关系。可是训炼数据信息的稀少性促使该互联网不可以非常好地收敛性。充分考虑 KERL 根据 policy gradient 对策取样了一系列子序列开展实体模型的学习培训，大家尝试引进这种编码序列，根据结构一个排列实体模型学习培训推论互联网。

实际的，大家先获得每一个编码序列的专业知识表述，。给出2个子序列专业知识表述，大家依照以下的标准结构键对

4.4.3 Discussion.

KERL 实体模型的关键自主创新之处取决于它融合了将来根据专业知识的喜好，这一在【11】【12】和【28】被忽略了，造成难以捕获客户兴趣爱好偏位。

【11】2019. Taxonomy-Aware Multi-Hop Reasoning Networks for SequentialRecommendation. InWSDM. 573–581.
【12】2018. Improving Sequential Recommendation with Knowledge-Enhanced Mem-ory Networks. InSIGIR. 505–514
【28】2019. KGAT:Knowledge Graph Attention Network for Recommendation. InKDD. 950–958

虽然之前根据RL的强烈推荐实体模型[30,35,37]驱使实体模型利润最大化长期性奖赏，但他们要不依靠奖赏作用，要不选用任意探寻对策。因而，这种根据RL的实体模型并未非常好地科学研究（informative exploration strategy）信息内容探寻对策。

【30】2019. Reinforcement Knowledge Graph Reasoning for Explainable Recommenda-tion. InSIGIR.
【35】2019. Reinforcement Learning to Optimize Long-term User Engagement inRecommender Systems. InKDD. 2810–2818
【37】2019.MarlRank: Multi-agent Reinforced Learning to Rank. InCIKM. 2073–2076.

5. 模型模拟实际效果

虑到大家的实体模型把 KG 的信息内容各自结合进了激励函数和情况表述当中，大家先根据脱离实验来实际的剖析每一块的特性。

对于 RL 的情况表明，KERL 一共应用了三种不一样的信息内容，分别是编码序列信息内容，文学知识，及其将来专业知识。大家最先剖析一下不一样的信息内容针对特性的危害，实际设计方案了三种根据不一样情况表明 KERL 实体模型，包含 KERL_h仅用时钟频率的信息内容；KERL_{h c}运用时钟频率与文学知识信息内容； KERL_{h f}运用时钟频率与将来专业知识信息内容。大家将这三个实体模型同 KERL 开展较为，实际結果如图所示下所显示：

针对激励函数，大家剖析了独立考虑到时钟频率相似度和专业知识相似度针对实体模型特性的危害。下面的图呈现了在 CD 数据上实体模型的特性：

我们在 next-item 和 next-session 2个每日任务上认证了实体模型的实效性，KERL 一致超出了全部的基准线方式。

6. 汇总

该毕业论文初次讨论了将增强学习运用于时钟频率强烈推荐每日任务的可行性分析，根据将该每日任务界定为 MDP 全过程，授予了时钟频率预测模型捕捉强烈推荐产品长期性盈利的工作能力，并创造性引进专业知识对增强学习的探寻反复全过程开展具体指导。文章内容在 next-item 和 next-session 2个强烈推荐每日任务上认证了实体模型的实效性。

关注不迷路

扫码下方二维码，关注宇凡盒子公众号，免费获取最新技术内幕！

温馨提示：如果您访问和下载本站资源，表示您已同意只将下载文件用于研究、学习而非其他用途。

文章版权声明 1、本网站名称：宇凡盒子
2、本站文章未经许可，禁止转载！
3、如果文章内容介绍中无特别注明，本网站压缩包解压需要密码统一是：yufanbox.com
4、本站仅供资源信息交流学习，不保证资源的可用及完整性，不提供安装使用及技术服务。点此了解
5、如果您发现本站分享的资源侵犯了您的权益，请及时通知我们，我们会在接到通知后及时处理！提交入口

推荐系统新星：KERL，序列推荐之王。

摘要

正文

推荐算法毕业论文之编码序列强烈推荐：KERL

KERL: A Knowledge-Guided Reinforcement Learning Modelfor Sequential Recommendation

引言

1 INTRODUCTION

2 RELATED WORK

3 PRELIMINARY