推荐系统-电商直播多目标排序算法探秘

前言：

电商直播已经成为电商平台流量的主要入口，今天我们一起探讨推荐算法在直播中所面临的核心问题和解决方案。以下内容参考阿里1688的技术方案整理完成。

一、核心问题介绍

在电商网站中，用户的主要行为是在商品上的行为，直播的内容行为数据比较稀疏，因此商品行为应与直播行为结合来优化直播推荐。
多目标学习，直播推荐的效能类指标和满意度指标很多，包括用户看到直播间的点击率，进入直播间的停留时长，转化率，关注率，留言率等。
减少偏差，position bias 与 selection bias 会影响模型的准确性，增强马太效应，损害腰部、尾部主播的利益。

此内容将在下一遍文章中详细探讨。

二、特征工程

特征包括了推荐系统中非常经典的一些特征体系，也就是直播测， item 侧，用户侧，用户和 item 侧交叉的特征体系。

直播侧

第一是直播的实时和历史的统计特征，包括实时以 30 分钟，3 天，7 天，15 天为窗口的开播次数，曝光数，点击数，CTR，CVR 等特征。

第二是内容侧特征，包括封面图和标题的 embedding。

第三是商家画像特征，静态信息有商家等级和店铺交易数据，B 类信息有商家工厂能力。

用户侧

用户侧特征里，我们一方面采用了网站的用户画像，包括网站的身份，等级，来访频次等，另一方面采用直播画像，包括偏好，访问天数，下单数，RFM 等特征。

直播用户交叉

用户和直播的交叉特征，以非常好地反映用户对直播的偏好程度。我们分别用到了用户在 item 的序列和用户在 live 序列在不同的时间和次数窗口上与直播间的商品，以及直播间本身的一些交叉的次数，点击率和转化率的特征。

三、直播排序模型迭代

1、第一版：我们采用的模型是一个以 CTR 为目标的 GBDT point-wise 模型

2、第二版：基于YouTube 的 DNN 和 DIN，演化开发的异构双序列 Attention 模型

行为异构性：商品序列、直播序列

采用了两个 Target Attention 的结构，分别基于用户在 Item 上的序列和当前直播正在讲解的商品做一个 Attention。也就是说，如果用户的 Item 序列与当前直播的商品匹配程度比较高，模型即可捕捉对应的兴趣。

第二是基于用户历史点过直播的序列与直播间的 ID 做一个 Attention。用户如果历史看的直播与当前直播间比较相似，模型也能捕捉到用户对应的兴趣，来提升预测 CTR 准确度。

直播实时性：大量实时统计特征

总结：

大量的用户只有关于商品（item）的行为，缺少直播相关的行为。因此用户直播的序列的 Attention 结构就不会生效。

3、第三版：HIN 异构网络建模

1、构建图：

2、Metapath 选取

人工指定语义

例如 User-Item-User（user CF）或者 Item-user-item（item CF），item-user-item 相当于一个用户同时点了两个商品，这两个商品就会较为相似。但对于节点类型多，metapath 比较长的序列，效果不好，可解释性较差

集合中取最优

首先在图中做 random walk，采样出不同的序列，再做一些规则筛选，比如要求至少要覆盖两种不同的节点的类型。所以再用打分公式做一个打分，打分公式核心关注该 metapath 被采样出了多少条不同的 ID 组合序列，条数越多说明这样的 metapath 在图中共性越高，同时我们会更关注核心节点，比如直播节点的出现次数，依此制定打分公式来选出对应三到五条 metapath 做采样学习。

3、图游走采样

基于选出的 metapath 在图中做游走采样，再用 Skip-Gram 训练出 metapath 语义下的 Embedding。

4、Embedding 融合

融合多个 Metapath Embedding 的语义网络

总结：V3 的模型仍存在一些问题，其一它不是端到端模型，其二,T+1 更新无法表征实时商品

4、第四版：直播 Transformer 异构行为建模

直播 transformer，一方面可以让 HIN 融合多个商品表征，另一方面可以引入实时直播正在讲解的多个商品的信息。

transformer 方案中，直播表征包含三部分数据： m 个历史核心商品， k 个实时讲解商品的集合序列，用户的商品足迹行为序列。

三组序列进行拼接输入进 Transformer 后即可用来对任意用户商品行为足迹到直播间核心品或实时品进行建模。Transformer 层包括四部分：

Embedding：输入的 Embedding 包括 Type Embedding 和 Position Embedding
Multi head Self Attention：任意用户足迹与直播商品表征的交叉
Feed Forward Layer：加强模型的非线性能力
Pooling Layer：直播 Item 表征为不定长，Average&Max pooling

Transformer 模型中，Embedding 的构建十分关键。输入的 Embedding 不仅包含了商品的 ID Embedding，还包含 Type 和 Position Embedding。

Type Embedding

Type Embedding 表征 self attention layer 中每个 token 的类型，比如用户序列，直播间历史品，或是实时品。同时用户序列的商品分为点击，加购，下单商品三种类型。

Position Embedding

Position Embedding 用来表征一个序列时间或者空间上的先后顺序，此处我们建模了三种不同的条件：

一是用户行为序列长度，时间由近到远，编号由 0 到 n-1；

二是直播历史核心商品，重要程度由强到弱，编号由 0 到 m-1；

三是直播实时讲解商品，当前商品为 0，下一个商品为 1，一直到 k-1。同时，position embedding 都是端到端的学习。重要性强的位置交叉，给予模型更强的信号。例如用户某个最近的历史行为与当前直播的商品有较强的相关性，模型信号将会更强。

四、直播多目标排序方案

直播是一个非常经典的多目标学习的场景，优化目标包括直播背景页面的点击（CTR）、进入直播间后的停留时长（Stay Time）、转换率（CVR）、互动率（CMR）、关注率（FLR）。业务往往需要同时优化多个目标，因此多目标学习是非常重要的技术。

1、多目标优化有两套方案：

1.1、方案 1：目标独立建模

为每个目标单独去建立一个模型，这种方案可能会面临着成本高的问题。另外有些目标会面临着数据稀疏的问题，更重要的是忽略了目标间之间的信息共享关系。比如一个 5 秒钟的点击和一个 5 分钟的点击，它带来这个效果是不一样的，如果能把这种时间上的信息作用到点击上，也是可以提升点击效果的。

1.2、方案 2：多目标联合建模

我们的目标都是通过用户行为来反馈标定的。而在推荐场景下，用户的行为有一定的时序关系，比如先有点击，再有点赞、评论等等其他互动行为，所以在做多目标联合建模的时候，也需要去考虑目标时序关系，也就是 target-target 层面。

2、多目标技术方案演进：

多目标业界有两种做法：

一种做法是：目标之间的独立性假设。没有刻画目标之间的联系，而是通过底层的共享机制来完成，像这种原生的 Multi-task Learning 也称为 share-bottom 的这种方法。然后还有谷歌提出的 MMoE 的方法，腾讯提的这种 PLE 的方法。

另外一类做法是：建模目标关系。像阿里巴巴提出的 ESMM，然后还有 lazada 提出的这种 GMSL 的模型。

图一：Multi-task Learning

图一是原生 Multi-task Learning，也是我们 2018 年升级之后的 base 模型。它是通过底层的共享网络来实现信息的迁移共享，每个目标之间共享 share layer，然后在上层会有各自的 specific layer，通过这种人为去定义哪些要共享，哪些不要共享的网络形式来实现信息的迁移。因为这种方式是通过人工方式来指定的，所以我们也称为 hard parameter sharing 的一个方法。

图二：谷歌提出的 MMoE

图二是 Google 的 MMoE，它是采用 soft parameter sharing 方法来实现。因为它通过定义多组的专家网络，每一个目标会在网络里自适应的学习，我们要选择哪一些专家网络来实现信息的共享，所以它会有一个门控的机制。通过这种门控来学习每个目标对每一个专家网络组的权重关系，实现底层特征的信息共享。

图三：腾讯的 PLE

腾讯的 PLE，认为 MMoE 是所有的专家组都是共享的，它没有每个目标自己的一个专家组网络，所以又提出了在每个目标都有一个 Specific 的 Expert 的优化方案。

图四：阿里巴巴的 ESMM

图四是阿里巴巴的 ESMM，它最初的一个目标是要去优化 pCVR，然后通过引入 pCVR=pCTR*pCTCVR 这样的目标关系刻画，解决了样本选择空间偏差的问题，进一步优化 pCVR。

图五：azada 提出的 GMSL

图五是 lazada 提出的 GMSL，它是通过 GRU 结构去优化目标之间的链式关系。无论是 ESMM 的这种乘积，还是 GMSL 这种 GRU 的结构，它都只能去刻画特定关系的目标。像下面的网络框架图（属于有向无环图），从点击到评论，点击到进店，到成交，然后到时长，这个相对比较复杂的贝叶斯网络，就没法很好的来满足目标的刻画。