December 16, 2020d0evi1 Reading time ~2 minutes

taobao Privileged Features Distillation介绍

1.介绍

最近几年，DNNs已经在推荐任务预测上达到了非常好的效果。然而，大多数这些工作集中在模型本身。只有有限的工作把注意力放到输入的特征方面，而它可以决定模型表现的上界（upper-bound）。在本工作中，我们主要关注于特征方面，特别是在电商推荐中的features。

为了确保offline training与online serving的一致性，我们通常在真实应用的两个enviorments中我们使用相同的features。然而，有一些有区分性的特征（discriminative features）会被忽略（它们只在训练时提供）。以电商环境中的CVR预测（conversion rate）为例，这里我们的目标是：估计当用户点击了该item后购买该item概率。在点击详情页（clicked detail page）上描述用户行为的features（例如：在整个页面上的dwell time）相当有用。然而，这些features不能被用于推荐中的online CVR预测，因为在任意点击发生之前预测过程已经完成。尽管这样的post-event features确实会在offline training记录。为了与使用privildeged information的学习相一致，这里我们将对于预测任务具有区分性（discriminative）、但只在训练时提供的features，称为priviledged features。

使用priviledged features的一种简单方法是：multi-task learning，例如：使用一个额外的任务来预测每个feature。然而，在multi-task learning中，每个任务不必满足无害保障原则（no-harm guarantee）（例如：priviledged features可能会伤害原始模型的学习）。更重要的是，由于估计priviledged features比起原始问题[20]更具挑战性，很可能会与no-harm guarantee原则相冲突。从实际角度看，当一次使用数十个priviledged features，对于调整所有任务来说是个大挑战。

受LUPI（learning using priviledged information）【24】的启发，这里我们提出priviledged features distillation(PFD)来使用这些features。我们会训练两个模型：一个student和一个teacher模型。

student模型：与original模型相同，它会处理offline training和online serving的features。
teacher模型：会处理所有features，它包括：priviledged features。

知识会从teacher中distill出来（例如：在本工作中的soft labels），接着被用于监督student的训练，而original hard labels（例如：{0, 1}）它会额外用来提升它的效果。在online serving期间，只有student部分会被抽出，它不依赖priviledged features作为输入，并能保证训练的一致性。对比起MTL，PFD主要有两个优点：

一方面，对于预测任务，priviledged features会以一个更合适的方式来进行组合。通常，添加更多的priviledged features会产生更精准的预测
另一方面，PFD只会引入一个额外的distillation loss，不管priviledged features的数目是多少，很更容易进行平衡

PFD不同于常用的模型萃取（model distillation：MD）[3,13]。

在MD中，teacher和student会处理相同的inputs，teacher会使用比student更强的模型。例如，teachers可以使用更深的network来指导更浅的students。
而在PFD中，teacher和student会使用相同的模型，但会在inputs上不同。PFD与原始的LUPI【24】也不同，在PFD中的teacher network会额外处理regular features。

图1给出了区别。

在本工作中，我们使用PFD到taobao推荐中。我们在两个基础预测任务上，通过使用相应的priviledged features进行实验。主要贡献有4部分：

在taobao推荐中定义了priviledged features，并提出了PFD来使用它们。对比起MTL来独立预测每个priviledged feature，PFD会统一所有的模型，并提供一个一站式（one-stop）的解。
不同于传统的LUPI，teacher PFD会额外使用regular features，它会更好地指导student。PFD与MD互补。通过对两者进行组合，例如：PFD+MD，可以达到更进一步的提升
我们会通过共享公共输入组件（sharing common input components）来同步训练teacher和student。对比起传统的异步使用独立组件进行训练，这样的训练方式可以达到更好的效果，而时间开销会进一步减小。因此，该技术在online learning中是可用的，其中real-time计算需要。
我们会在taobao推荐的两个基础预测任务上进行实验，例如：粗排中的CTR预测，以及粗排中的CVR预测。通过对interacted features（交叉特征）进行distill是不允许的，因为在粗排中的效率问题，以及在精排CVR中的post-event features，我们可以对比baseline达到极大的提升。在on-line A/B tests中，在CTR任务上点击指标可以提升+5%。在CVR任务中，conversion指标可以提升+2.3%。

2.相关distillation技术

在给出我们的PFD的详细描述前，首先介绍下distillation技术。总体上，该技术的目标是，帮助non-convex的student models来更好地训练。对于model distillation，我们通常会按如下方式写出objective function：

\[\underset{W_s}{min} (1-\lambda) * L_s(y, f_s(X; W_s)) + \lambda * L_d (f_t(X; W_t), f_s(X; W_s))\]

…(1)

其中：

\(f_t\)和\(f_s\)分别是teacher模型和student模型
\(L_s\)表示student pure loss，它具有已知的hard label y
\(L_d\)表示使用soft labels的loss，它由teacher产生
\(\lambda \in [0, 1]\)是超参数，用于对两个loss进行balance

对比起单独最小化\(L_s\)的original function，我们会期待在等式(1)中的additional loss \(L_d\)会帮助更好地训练\(W_s\)，通过从teacher中对knowledge进行distilling得到。在[29]中，Pereyra et.将distillation loss看成是在student model上进行regularization。当单独以最小化\(L_s\)的方式训练\(f_s\)时，它被证明是获得overconfident preditions（过拟合的预测），会对training set过拟合。通过添加distillation loss，\(f_s\)也会逼近来自\(f_t\)的soft predictions。通过对outputs进行softening，\(f_s\)更可能会达到更好的泛化效果。

通常，teacher model会比student model更强大。teachers可以是一些models的ensembles，或者具有比student更多neurons、更多layers、或更广数值精度的DNNs。但也有些例外，比如，在[1]中，两个模型都会使用相同的结构，它们会相互学习，不同之处在于initialization以及处理训练数据的orders。

如等式(1)所示，teacher的参数\(W_t\)会在最小化期间fix住。我们可以将distillation技术划分成两个steps：首先使用已知的labels y训练teacher，接着通过最小化等式(1)来训练student。在一些应用中，模型会花费相当长的时间才收敛，等待teacher像等式(1)一样准备好是不实际的。作为替代，一些工作会尝试同步训练teacher和student【1,38,39】。除了像等式(1)那样从final output进行distilling之外，也可以从middle layer上进行disitll，例如：[30]尝试从intermediate feature maps进行distill，可以帮助训练一个deeper和thinner network。

除了从更复杂模型中对knowledge进行distill外，[24]提出从previledged information \(X^*\)上进行distill，它被认为是使用priviledged information(LUPI)进行学习。loss function接着变为：

\[\underset{W_s}{min} (1-\lambda) * L_s (y, f(X; W_s)) + \lambda * L_d (f(X^*; W_t); f(X; W_s))\]

…(2)

在[37]中，wang et使用LUPI来image tag推荐。除了teacher和student网络外，他们会额外学习一个discriminator，它会确认student更快地学习真实数据分布。Chen 使用LUPI来review-based 推荐。他们也会使用advrsarial training来选择informative reviews。另外，为了达到更好的效果，许多工作会在相对小的数据集上进行验证。但在工业级数据集上，仍有许多未知，这些技术需要在min-max game中达到均衡。

3.taobao推荐中的Priviledged features

图片名称

图2 taobao推荐总览。我们采用一个cascaded learning框架来select/rank items。在粗排中， interacted features(通常也是discriminattive)会被禁止，因为他们会在serving时极大增加时耗。一些有表征性的features会在下面部分演示

为了更好地理解priviledged features，我们首先如图2所示给出taobao推荐的一个总览。在工作推荐中通常这么做，我们采用cascaded 学习框架。在items呈现给用户前，有3个stages来select/rank items：candidate generation、coarse-grained ranking、fine-grained ranking。为了在效率和accuracy间做出一个好的trade-off，越往前的cascaded stage，会采用复杂和高效的模型，对items进行scoring会具有更高的时延。在candidate generation stage，我们会选择\(10^5\)个用户可能会点击或购买的items。总之，candidate genreation会从多个sources进行混合而来，比如：协同过滤、DNN模型等。在candidate generation之后，我们会采用两个stage进行ranking，其中PFD会在这时使用。

在coarse-grained ranking stage中，我们主要会通过candidate generation stage来估计所有items的CTRs，它们接着被用来选择top-k个最高的ranked items进入到下一stage。预测模型的input主要包含了三个部分。

第一部分：用户行为，它会记录用户点击/购买items的历史。由于用户行为是有序的，RNNs或self-attention会通常被用来建模用户的long short-term interests。
第二部分：user features，例如：user id、age、gender等。
第三部分：item features，例如：item id、category、brand等。

通过该工作，所有features都会被转换成categorical type，我们可以为每个feature学习一个embedding。

在粗排阶段，prediction model的复杂度会被严格限制，以便让上万候选在ms内完成。这里，我们使用inner product模型来对item scores进行measure：

\[f(X^u, X^i; W^u, W^i) \triangleq <\phi_{W^u}(X^u), \phi_{W^i}(X^i)>\]

…(3)

其中：上标u和i分别表示user和item。

\(X^u\)：表示user behavior和user features的一个组合
\(\phi_W(\cdot)\)表示使用学到参数的非线性映射
\(W_{\cdot}<\cdot, \cdot>\)是内积操作

由于user侧和item侧在等式(3)中是独立的。在serving期，我们会事先离线计算关于所有items的mappings \(\phi_{W^i}(\cdot)\)。当一个请求到来时，我们只需要执行一个forward pass来获得user mapping \(\phi_{W^u}(X^u)\)，并计算关于所有candidates的inner product，它相当高效。细节如图4所示。

如图2所示，粗排不会使用任何交叉特征，例如：用户在item category上在过去24小时内的点击等。通过实验验证，添加这样的features可能大大提高预测效果。然而，这在serving时会极大地增加时延，因为交叉特征依赖user和指定的item。换句话说，features会随着items或users的不同而不同。如果将它们放到等式(3)中的item或user侧。mappings \(\phi_w(\cdot)\)的inference需要执行和候选数一样多的次数，例如：\(10^5\)次。总之，non-linear mapping \(\phi_W(\cdot)\)的计算开销要比简单的inner product大许多阶。在serving期间使用交叉特征是不实际的。这里，我们将这些交叉特征看成是：在粗排CTR预测的priviledged features。

在精排阶段，除了在粗排中也会做的CTR预估外，我们也为所有候选预估CVR，例如：如果用户点击某个item后会购买该item的概率。在电商推荐中，主要目标是最大化GMV（商品交易总量），它可以被解耦成CTR x CVR x Price。一旦为所有items估计CTR和CVR，我们可以通过expected GMVs来对它们进行排序来最大化。在CVR的定义中，很明显，用户在点击item详情页上的行为（例如：停留时长、是否观看评论、是否与卖者进行交流等），对于预测来说相当有用。然而，在任何future click发生前，CVR必须要对ranking进行估计。描述在详情页上用户行为的features在inference期间并没有提供。这里，我们可以将这些features表示成priviledged features来进行CVR预测。为了更好地理解它们，我们给出图3进行演示。

图片名称

图3 描述了clicked item的详情页上的用户行为。包括没有展示的dwell time，这些features对于CVR预测来说是相当有信息量的（informative）。然而，在serving时，如左子图所示，在任意item被点击之前，我们不必使用CVR来对所有candidate items进行rank。对于CVR预测，我们将这些features表示成priviledged features

4.Priviledged Feature Distillation

如等式(2)所示，在原始的LUPI，teacher依赖于priviledged information \(X^*\)。尽管信息量大，在本工作中的priviledged featues只能部分描述用户的偏好。使用这些features的表现要比使用常规特征（regular features）要差。另外，基于priviledged features的预测可能有时会被误导（misleading）。例如，对于顾客来说，通常会在昂贵item上花费更多时间来最终决定，而这些items的转化率相当低。当进行CVR估计时，LUPI的teacher会依赖于priviledged features（例如：停留时间）做出预测，但不考虑regular features（例如：item price），这会导致在昂贵items上做出false positive predictions。为了缓和它，我们会额外将常规features feed给teacher model。等式(2)的原始function可以修改如下：

\[\underset{min}{W_s} (1-\lambda) * L_s (y, f(X; W_s)) + \lambda * L_d( f(X, X^*; W_t), f(X; W_s))\]

…(4)

通常，添加更多信息（例如：更多features），会得到更精准的predictions。teacher \(f(X, X^*; W_t)\)这里期望会比sutdent \(f(X; W_s)\)、或者LUPI \(f(X^*; W_t)\)的teacher更强。在上述场景上，通过考虑上priviledged features和regular features，可以使用停留时长（dwell time）来区分在不同昂贵items上的偏好程度。teacher会有更多的知识来指导student，而非误导它。通过以下实验进行验证，添加regular features到teacher中是non-trivial的，它可以极大提升LUPI的效果。从那以后，我们将该技术表示成PFD来区别LUPI。

如等式(4)所示，teacher \(f(X, X^*; W_t)\)会优先训练。然而，在我们的应用中，单独训练teacher model会花费一个较长时间。使用像等式(4)这样的distillation是相当不实际的。更可行的方式是，像[1,38,39]的方式同步地训练teacher和student。objective function接着被修改如下：

\[\underset{W_s, W_t}{min} (1-\lambda) * L_s(y, f(X;W_s)) + \lambda * L_d(f(X,X^*;W_t), f(X;W_s)) + L_t(y, f(X, X^*; W_t))\]

…（5）

尽管会节省时间，同步训练可能不稳定（un-stable）。在early stage时，teacher模型没有被well-trained，distillation loss \(L_d\)可能会使student分心（distract），并减慢训练。这里我们通过一个warm up scheme来缓和它。在early stage时我们将等式(5)的\(\lambda\)设置为0，从那以后将它固定到一个pre-defined value，其中swapping step可以是个超参数。在我们的大规模数据集上，我们发现，这种简单的scheme可以良好地运转。不同于相互学习（mutual learning），我们只允许student来从teacher那进行学习。否则，teacher会与student相互适应，这会降低效果。当根据teacher参数\(W_t\)分别计算gradient时，我们会触发distillation loss \(L_d\)。算法1使用SGD更新如下。

根据该工作，所有模型都会在parameter server系统上进行训练，其中，所有参数都会存储在servers上，大多数计算会在workers上执行。训练速度主要决取于在workers上的计算负载以及在workers和servers间的通信量。如等式(5)所示，我们会一起训练teacher和student。参数数目和计算会加倍。使用PFD进行训练可能会比在student上单独训练更慢，这在工业界是不实际的。特别是对于在线学习，会要求实时计算，采用distillation会增加预算。这里我们会通过共享在teacher和student的所有公共输入部分来缓和该问题。由于所有features的embeddings会占据在servers上的大多数存储，通过共享通信量可以减小一半。该计算可以通过共享用户点击/购买行为的处理部分来减小，它的开销较大。正如以下实验所验证的，我们可以通过sharing来达到更好的表现。另外，对比起单独训练student，我们只会增加一些额外的时间，对于online learning来说这会使得PFD更适应些（adoptable）。

扩展：PFD+MD

如图1所示，PFD会从priviledged features中distill知识。作为对比，MD会从更复杂的teacher model中distill知识。两个distillation技术是互补的。一个天然扩展是，将它们进行组合来构成一个更复杂的accurate teacher来指导student。

图片名称

图1 MD与PFD。在MD中，knowledge会从更复杂的模型中distill出来。在PFD中，knowledge会同时从previledged和regular features中进行distill。PFD也会与使用priviledged information(LUPI)的original learning有所不同，其中teacher只处理priviledged features

在粗排的CTR prediction中，如等式(3)所示，我们使用inner product模型来在serving上增加效率。事实上，inner product模型会被认为是泛化的MF（gnerelized matrix factorization）。尽管我们正使用非线性映射\(\Phi_W(\cdot)\)来转移user和item inputs，该模型能力天然受限于内积操作的bi-linear结构。DNNs，它可以逼近任意函数，被认为是对于在teacher中的inner product模型的一个替代。事实上，如【22】中的定义1所示，乘积操作可以通过一个two-layers的NN（在hidden layer上只有4个neurons）来逼近任意小。因此，使用DNN的表现被认为是inner-product模型的下界（lower-bounded）。

图片名称

图4

在PFD+MD中，我们也采用DNN模型作为teacher network。事实上，这里的teacher model与我们在精排CTR预测使用的模型相同。本任务中的PFD+MD可以被认为是从精排中distill知识，来提升粗排。为了更好地演示，我们在图4中给出了整个框架。在serving期间，我们会只抽取student部分，它依赖于priviledged features。由于所有items的mappings \(\phi_{W^i} (X^i)\)是与users相互独立的，我们会事先对它们进行离线计算。当一个请求过来时，user mapping \(\phi_{W^u}(X^u)\)会首先计算。这之后，我们会使用所有items的mappings（它们从candidate generation阶段生成）来计算inner-product。top-k得分最高的items接着被选中并被feed给精排。基本上，我们只要执行一个forward pass来获得user mapping，并在user和所有candidates间执行高效地inner product操作，它在计算方面相当友好。

图片名称

图5

5.实验

在taobao推荐上做了实验，目标是回答以下的研究问题：

RQ1: PFD在粗排的CTR任务上的表现，以及在精排CVR上的表现？
RQ2: 对于独立的PFD，我们可以通过将PFD与MD进行组合来达到额外的提升？
RQ3: PFD对于等式(5)中的超参数\(\lambda\)敏感吗？
RQ4: 通过共享公共输入部件（），同时训练teacher和student的效果是什么？

5.1 实验setting

5.2 粗排CTR

5.3 精排CVR

5.4 RQ3-4

6.结论

略

参考

1.https://arxiv.org/pdf/1907.05171.pdf

December 15, 2020d0evi1 Reading time ~2 minutes

DFN介绍

微信在《Deep Feedback Network for Recommendation》提出了DFN。

摘要

显式与隐式反馈可以影响关于items的用户意见，这对于学习用户偏好来说是必要的。然而，大多数当前的推荐算法主要关注于隐式正反馈（implicit positive feedbacks: 例如：click），忽略了其它有信息的用户行为。在本paper中，我们的目标是：联合考虑explicit/implicit以及positive/negative feedbacks来学习用户的无偏偏好。特别的，我们提出了一种新的Deep feedback network(DFN)来建模click、unclick和dislike行为。DFN具有一个内部feedback interaction组件，它可以捕获用户行为间的细粒度交叉（fine-grained interactions），一个额外的feedback interaction组件可以使用精准但相对少的feedbacks(click/dislike)来从丰富但带噪声的feedbacks（unclick）中抽取有用信息。在实验中，我们在wechat top stories的推荐系统上，对数百万用户做了实验。DFN带来了极大的提升。源代码为：https://github.com/qqxiaochongqq/DFN

1.介绍

个性化推荐系统的目标是，为用户根据它们的偏好提供定制的items。它们在视频和电商业被广泛使用。

推荐系统中大量使用user-item interactions来进行个性化。这些重要的信息主要有两大类：显式反馈（explicit feedback）和隐式反馈（implicit feedback）：

显式反馈（explicit feedback）来自于用户对items的直接意见（比如：评分、like/dislike等）。它可以很精准地表示用户的真实偏好，而收集这样的feedback相当不容易。
隐式反馈（implicit feedback）主要来自于具有暗示非直接意见的用户行为（例如：click或unclick）。在真实推荐系统中，很容易从大量用户行为中收集这样的隐式反馈。隐式反馈（implicit feedbacks）会混杂着许多其它内在的noises，以及少量的真实负反馈，这会损害学习用户的无偏偏好.

最近，推荐系统通常会将个性化推荐看成是一个CTR预测任务。因此很自然地，大多数推荐算法主要关注于隐式正反馈（点击），这在实际中很容易获取。这些模型会直接使用点击行为和CTR目标进行最优化，它会产生以下的问题：

首先，CTR目标的objectives通常关注于：用户喜欢什么，忽略掉用户不喜欢什么。简单依赖于这些隐式正反馈（implicit positive feedbacks）会使得模型趋向于提供均匀的（homogeneous）、短视（myopic）的结果，这会伤害用户体验。因此，negative feedbacks应在推荐中被考虑
第二，除了被动地接受由模型选中的信息外，用户也需要有效和高效的反馈机制来激活与推荐系统的交互。再者，由于用户的implicit feedbacks与它的真实偏好（点击并不总是意味着喜欢）间存在gap。它也证实了explicit feedbacks的必要性。

多个explicit/implicit和positive/negative feedbacks可以互补，并影响用户的无偏偏好。有一些工作：使用隐式反馈和显式反馈的CF(Liu 2010)、多任务学习（Hadash 2018）。然而，这些工作中，negative feedbacks通常会被忽略，或者只存在显式反馈（这很精准、但量很少）。一些工具会考虑unclick或missing行为作为隐式负反馈来乘上负信号（negative signals）。不幸的是，在这些隐式负反馈（implicit negative feedbacks）中的noises会严格限制效果表现，因此，这些隐式负反馈会由许多除了dislike之外的原因造成。

图片名称

图1

。。。

2.相关工作

。。。

3.方法

我们的目标是，将多个explicit/implicit和positive/negative feedbacks进行联合考虑来学习用户无偏偏好。特别的，我们提出了DFN模型，它会收集用户历史行为中的三种类型的feedbacks：

隐式正反馈（implicit positive feedbacks）：implicit positive feedbacks是在大规模推荐中被广泛使用的feedbacks，它在量级和质量上均比较满意。根据大多数conventional模型，我们考虑点击行为序列 \(\lbrace c_1, \cdots, c_{n_1}\rbrace\)作为在DFN中使用的implicit positive feedback。
显式负反馈（explicit negative feedbacks）：Explicit feedbacks是高质量的，但在真实推荐中很少。我们会使用与每个item相关的dislike按钮来收集explicit negative feedback序列 \(\lbrace d_1, \cdots, d_{n_2}\rbrace\)
隐式负反馈（implicit negative feedbacks）：我们会将曝光未点击（impressed but unclick）的行为序列\(\lbrace u_1, \cdots, u_{n_3}\rbrace\)作为implicit negative feedbacks。这种未点击行为在所有feedbacks类型中占绝大多数，而它会与噪声和false-negative信号相混杂。

CFN尝试使用高质量的click和dislike behaviors作为instructors来从未点击行为中抽取有用信息。在DFN中很容易添加其它类型的feedbacks。

3.1 整体架构

Deep feedback network主要包含两个模块，称为：deep feedback interaction模块与feature interaction模块。首先，deep feedback interaction模块会采用多个feedbacks作为inputs，使用内部和外部的feedback interactions来抽取用户无偏的positive和negative偏好。第二，refined feedback features会与其它有信息特征（比如：user profiles、item features以及contexts）进行组合。我们会实现Wide、FM和Deep组件来进行特征聚合（feature aggregation）。最终，feature interaction模块的outputs会feed给full connected和softmax layers来进行positive和negative losses的模型最优化。图2(a)展示了DFN的整体架构。

图片名称

图2

3.2 DFN module

图2(b)中的deep feedback interaction模块会采用对于target item的implicit positive(click)，explicit negative(dislike)以及implicit negative(unclick) feedbacks作为inputs。我们会使用两个components来从inside和between不同类型的feedbacks的交叉中进行学习。

Internal Feedback Interaction Component

对于一个特定类型的feedback，该component会关注target item和individual behaviors间的交叉。我们会根据Vaswani[2017]的行为使用一个multi-head self-attention。所有的行为特征包含了它们的item embeddings和position embeddings，会被投影到一个联合语义空间（joint semantic space）中来形成behavior embeddings。以点击行为为例，我们会将target item t与点击序行的behavior embeddings进来组合来形成输入矩阵 \(B_c = \lbrace t, c_1, \cdots, c_{n_1} \rbrace\)。query, key, value矩阵可以通过如下进行计算：

\[Q = W^Q B_c, K=W^K B_c, V=W^V B_c\]

…(1)

其中，\(W^Q, W_K, W^V\)是投影矩阵。我们接着通过下面方式计算self-attention：

\[Attention(Q, K, V) = softmax(\frac{Q^T K}{\sqrt{n_h}}) V\]

…(2)

其中，\(n_h\)是query、key、value的维度。总共h个multi-heads的第i个head可以通过如下进行计算：

\[head_i = Attention(W_i^Q Q, W_i^K K, W_i^V V)\]

…(3)

\(W_i^Q, W_i^K, W_i^V \in R^{n_k \times n_k / h}\)是第i个head的weighting矩阵。self-attention的最终输出矩阵是：

\[F_c = concat(head_1, \cdots, head_h) \cdot W^O\]

…(4)

\(W_O \in R^{n_h \times n_h}\)是投影矩阵。最终，我们通过在\(F_c\)中所有n+1的output embeddings上进行一个average pooling来生成implicit positive feedback embedding \(f_c\)：

\[f_c = Average_pooling(F_c), f_c \in R^{n_h}\]

…(5)

我们也会使用相同的带type-specific hyper-params的transformer来生成explicit negative feedback embedding \(f_d\)以及从dislike和unclick behaviors中的implicit negative feedback embedding \(f_u\)。internal feedback interaction component可以很好地捕获在每种类型的feedback序列中target item和behaviors的behavior-level interactions。它可以提供与target item相关的user positive和negative偏好。

External Feedback Interaction Component

隐式负反馈（implicit negative feedbacks）是够多的，但有非常noisy。总之，unclick behaviors看起来暗示着negative signals，而曝露给用户的items则需通过特定策略进行选择，它也会包含来自粗粒度的用户兴趣。external feedback interaction组件的目标是，根据在click和dislike行为上的强反馈，来区别用户在未点击行为（unclick behaviors）上的真实喜欢（like）和不喜欢（dislike）。特别的，我们通过两个vanilla attentions，它会考虑隐式正反馈和隐式负反馈的embeddings \(f_c\)和\(f_d\)作为instructors来指导来自unclick序列\(u_1, \cdots, u_{n_3}\)。我们将unclick-dislike interaction embedding \(f_{ud}\)使用dislike和unclick行为公式化：

\[f_{ud} = \sum\limits_{i=1}^{n_3} \alpha_i u_i, \alpha_i = \frac{f(f_d, u_i)}{\sum_{j=1}^{n_3} f(f_d, u_j)}\]

…(6)

其中，weighting score function \(f(a,b)\)定义如下：

\[f(a, b) = MLP(concat(a, b, a-b, a\odot b))\]

…(7)

我们将\(\odot\)看成是element-wise product，并使用一个2-layer Multi-layer perceptron (MLP)。\(f_d\)包含了user的强的negative偏好，它从与target item相关的显式负反馈（explicit negative feedbacks）进行重定义得到。它会帮助vanilla attention来抽取用户真实dislike和unclick行为的items。我们也会使用隐式正反馈（implicit positive feedback）的embedding \(f_c\)来放大在unclick行为中positive的声音。

\[f_{uc} = \sum\limits_{i=1}^{n_3} \beta_i u_i, \beta = \frac{f(f_c, u_i)}{\sum_{j=1}^{n_3} f(f_c, u_j)}\]

…(8)

最后，我们将所有5种feedback features组合来构建最终的refined feedback feature \(f_{Feed}\)：

\[f_{Feed} = \lbrace f_c, f_d, f_u, f_{uc}, f_{ud}\rbrace\]

…(9)

隐式正反馈与显式负反馈\(f_c\)和\(f_d\)被看成是强的positive和negative信号，而其余unclick-related feedbacks则被看成是弱信号（weak signals）。

3.3 Feature Interaction Module

在feature interaction中，我们将refined feedback feature与其它features（包括：user profiles、item features、以及context）进行refined。根据Guo[2017]，我们将这些sparse features进行group到m个fields中 \(\lbrace x_1, \cdots, x_m \rbrace\)包括：continuous fields(例如：age)和categorical fields（例如：location）。所有的fields被表示成one-hot embeddings。一个lookup table被用于生成所有fields的dense feature：\(\lbrace f_1, \cdots, f_m \rbrace\)。我们为feature interaction实现了Wide, FM以及Deep components。

Wide Component

Wide component是一个泛化的linear model，它在推荐中被广泛使用。Wide component \(y^{Wide}\)的output是一个m-dimensional的vector，其中，第i个element被计算成：

\[y_i^{Wide} = w_i^T x_i + b_i, w_i, x_i \in R^{n_{f_i}}\]

…(10)

\(w_i\)是第i个one-hot fields embedding \(x_i\)的weighting vector，\(b_i\)是bias，\(n_{f_i}\)是\(x_i\)的维度。

FM Component

FM component会捕获所有features间的二阶交叉。FM的input embeddings是所有dense features的组合，最终的refined feedback feature为：\(F' = \lbrace f_1, \cdots, f_m, f_{Feed}\rbrace\)。我们根据Bi-interaction layer，并根据下面方式生成output embedding \(y^{FM}\)：

\[y^{FM} = \sum\limits_{i=1}^{m+5} \sum\limits_{j=i+1}^{m+5} f_i^' \odot f_j^', f_i^', f_j^' \in F'\]

…(11)

Deep component

在Deep component中，我们实现了一个2-layer MLP来学习高阶feature interactions。input是dense features和feedback features的concatenation，可以表示成：\(f^{(0)} = concat(f_1, \cdots, f_m, f_{Feed})\)。我们有：

\[y^{Deep} = f^{(2)}, f^{(i+1)} = ReLU(W^{(i)} f^{(i)} + b^{(i)})\]

…(12)

其中，\(f^{(i)}\)是第i个layer的output embedding。\(W^{(i)}\)是weighting matrix，\(b^{(i)}\)是第i个layer的bias。

最终，我们从三个components中将所有outputs进行concat起来来生成aggregated feature embedding y：

\[y = concat(y^{Wide}, y^{FM}, y^{Deep})\]

…(13)

3.4 Optimization Objective

我们使用click、unclick以及dislike行为来进行监督训练。预测的点击概率与aggregated feature embedding y通过下式计算：

\[p(x) = \sigma(w_p^T y)\]

…(14)

\(w_p\)是weighting vector，\(\sigma(\cdot)\)是sigmoid function。DFN的loss function包含了三个部分：click、unclick、dislike行为：

\[L = -\frac{1}{N} (\lambda_c \sum\limits_{S_c} log p(x) + \lambda_u \sum\limits_{S_u} log(1 - p(x)) + \lambda_d \sum\limits_{S_d} log(1-p(x)))\]

…(15)

该训练集具有N个实例，分组成：click set \(S_c\)，dislike set \(S_d\)以及unclick set \(S_u\)。\(\lambda_c, \lambda_d, \lambda_u\)是不同losses的weights来measure不同feedbacks的重要性。

4.实验

略

参考

1.https://www.ijcai.org/Proceedings/2020/0349.pdf

December 11, 2020d0evi1 Reading time ~3 minutes

CSCNN介绍

JD在《Category-Specific CNN for Visual-aware CTR Prediction at JD.com》提出了CSCNN:

1.介绍

JD领先的广告系统，会服务数百万广告主(advertisers)与数十亿顾客(customers)相连。每天，顾客会访问JD，点击ads并留下数十亿的交互日志。这些数据不仅会反馈给到学到的系统，但也会增强技术演进提升用户体验。

在常见的CPC广告系统中，广告会通过eCPM进行排序，商品的竞价通过advertisers给出，广告系统则会预测CTR。精准的CTR预测对商业效果和用户体验有用。因而，该topic在机器学习界和工业界被广泛关注。

大多数广告会使用图片进行展示，因为它们具有更多的视觉展示，并对于文本描述能传达更丰富的信息。一个有意思的现象是，许多广告通过切换更吸引人的图片会获得更高的CTR。对于CTR预测，这驱使了关于提取更丰富可视化特征的许多研究。这些算法会采用现成的（off-the-shelf）的CNNs来抽取可视化特征，并将它们与非可视化的特征（non-visual features：比如：category, user）进行混合来进行最终CTR预测。有了额外的可视化特征，这些算法在离线实验上可以远胜过无可视化的模型，并可以泛化到冷门和长尾ads上。在实际在线广告系统中使用CNN仍然是non-trival的。使用CNN进行offline end-to-end训练必须足够有效遵循随时间变化（time-varying）的在线分布，online serving需要广告系统的满足低时延要求。

另外，我们注意到，在电商中的可视化特征抽取与图片分类的setting有大不同。在分类任务中，categories会被看成是要预测的target。而在电商系统中，广告的categories会被明显地进行标记，它包含了丰富的可视化先验信息，可以帮助进行可视化建模。一些学术研究通过在CNN embeddings的top之上[7]构建category-specific投影矩阵进行集成，并将可视化features显式解耦成styles和categories。这些研究会共享一个公共的架构：visual和categorical knowledge的late fusion，然而，它对于CTR预测来说是sub-optimal。也就是说，image embedding模块很少会利用categorical knowledge。如果不知道ad category，通过这些CNNs抽取的embedding会包含与该category不相关的不必要features，从而浪费CNN的有限表达能力。相反，如果该ad category被集成其中，CNN只需要关注category-specific patterns，它会减轻训练过程。

为了克服工业挑战，我们会同时为有效的end-to-end CNN training和低时延在线服务构建优化的基础设施。基于该有效地基础设施，为了充分利用电商中的labeled category，我们为CTR预测任务特别提出Category-specific CNN (CSCNN)。我们的关键思想是，以一个early-fusion的方式将category知识插入到CNN中。受SE-net、以及CBAM的启发，它会使用一个light-weighted self-attention模块来建模convolutional features间的相互依赖，CSCNN会进一步吸收ad category知识，并执行一个category-specific feature recalibration，如图2所示。更明显地，我们会接着使用category-specific channel和spatial attention modules来强调重要的以及与category相关的features。这些丰富的可视化特征对于CTR预测问题来说有巨大的效果增益。

总之，我们有以下的贡献：

据我们所知，我们是在visual-aware CTR预测中首个对visual和non-visual features的late fusion的负面影响进行强调的。
我们提出了CSCNN，为CTR预测特别设计了一个新的visual embedding模块。关键思想是组织category-specific channel和spatial self-attention来强调重要并且与category相关的特征。
我们通过大量离线实验、以及AB test验证了CSCNN的有效性。我们验证了许多self-attention机制的效果，以及network backbones通过插入CSCNN来进行一致性提升。
我们构建了高度有效地基础设施在real online电商广告系统中来使用CNN。在一天内100亿规模的真实产品数据集上，引入有效加速方法来对CNN完成end-to-end training，并满足在线系统的低时延需求（在CPU上20ms）。CSCNN已经被部署在JD的搜索广告系统中。

2.相关工作

2.1 CTR预测

…

2.2 CNN中的attention机制

attention机制是一个重要的feature selection方法，它可以帮助CNN来强调feature maps的重要部分，并抑制不重要的部分。spatial attention会告诉你关注where，而channel-wise attention则告诉你focus在what上。

在文献中，许多工作尝试从feature map中学习attention weights，称为“self-attention”。SOTA的算法称为CBAM， SE。除了self attention外，attention weights可以有额外的信息为条件，例如自然语言。成功应用的领域包括：language、image captioning以及可视化问答。

我们的工作受attention机制的启发。而非vision & language，我们设计了新的架构来使用attention机制来解决一个重要但长期忽略的问题：对于vision和non-vision feature的sub-optimal late fusion。我们同时将self-attention和attention conditioned on external information（称为：ad category）两者的优点相结合。作为结果，我们的图片embedding能够强调important和category相关的features。

3. JD中的CTR预测

我们首先review了3.1节中的CTR预测的背景。接着，我们描述了CTR预测系统的架构。我们会进一步挖掘新的visual modeling模块的细节。最终，我们会引入必要的加速策略来进行在线部署。表1中总结了相关概念。

3.1 先决条件

在在线广告工业界，一个ad会在一些contexts下被展示给一个user，该情景被记成一次曝光（impression）。CTR预测的目标是：在发生一次impression（ad, user, contexts）时，预测一次positive feedback（例如：click）的概率。准确的CTR预测直接有益于用户体验和商业效果，这使得该任务对于整个广告工业来说很重要。

CTR预测通常被公式化成二分类问题。特别的，它会从一个training set \(D = \lbrace (x_1, y_1), \cdots, (x_{\mid D \mid}, y_{\mid D \mid} )\rbrace\)中学习一个预测函数f: \(R^d \rightarrow R\)，，其中\(x_i \in R^d\)是第i次impression的feature vector，\(y_i \in \lbrace 0,1 \rbrace\)是class label表示一个click是否发生。

目标函数被定义成负的log-likelihood:

\[l(D) = - \frac{1}{|D|} \sum\limits_{i=1}^{|D|} y_i log(\hat{y}_i) + (1-y_i)log(1-\hat{y}_i)\]

…(1)

其中，\(\hat{y}_i\)是predicted CTR，通过sigmoid \(\sigma\)归一化到(0, 1)中：

\[\hat{y}_i = \sigma(f(x_i))\]

…(2)

3.2 CTR预测系统的架构

我们现在描述了我们的CTR预测系统的架构，如图1所示。

图片名称

图1. CTR预测系统的架构。左下角：CSCNN，它会将一个ad image与它的category一起嵌入到一个visual feature vector \(x_v \in R^{150}\)中。注意，CSCNN只在offline下运行。而在online serving系统中，为了满足低时延需求，我们会使用一个高效的lookup table进行替代。右下角：non-visual feature embedding，从(ad, user, contexts)到一个non-visual feature vector \(x_{nv} \in R^{380}\)。TOP：主要架构，一个修改版的DCN，它会采用visual feature \(x_v\)和non-visual feature \(x_nv\)作为inputs。

3.2.1 DCN

DCN网络可以得到可靠的效果，它可以学到有效的特征交叉。这里，我们将DCN修改成两个inputs：

一个non-visual feature vector \(x_{nv} \in R^{380}\)
一个visual feature vector \(x_v \in R^{150}\)

visual feature被包含在deep net中。在layer 1中，我们将non-visual feature转换成1024维，并将它们与visual feature进行concatenate起来：

\[h_1 = [x_v, ReLU-MLP(x_{nv})] \in R^{150 + 1024}\]

…(3)

接着跟两个deep layers：

\[h_{l+1} = ReLU-MLP(h_l), l \in \lbrace 1, 2\rbrace, h_2 \in R^{512}, h_3 \in R^{256}\]

…(4)

cross net用于处理non-visual feature：

\[z_{l+1} = z_0 z_l^T w_l + b_l + z_l\]

…(5)

其中，对于layer \(l \in \lbrace 0, 1, 2\rbrace\)，input \(z_0 = x_{nv}\)。

最终，我们会为predicted CTR组合outputs：

\[\hat{y} = \sigma(ReLU-MLP[h_3, z_3])\]

…(6)

3.2.2 Non-visual Feature Embedding

我们现在描述embedding layer会将一次impression（ad, user, contexts）的raw non-visual features转成vector \(x_{nv}\).

我们假设：所有features以categorical的形式进来（例如：binning，预处理后）。通常，一个categorical feature会以one-hot / multi-hot vector \(x_hot \in \lbrace 0,1 \rbrace^v\)的方式编码，其中v是该feature的vocab size。我们以如下方式展示两条样本：

WeekDay=Web  ==>  [0,0,0,1,0,0,0]
TitleWords=[Summer,Dress] ==> [..., 0,1,0, ..., 0,1,0...]

不幸的是，该one/multi-hot coding不能应用于工业界系统，因为高维稀疏性。我们在我们的系统上采用一个低维的embedding策略：

\[x_{emb} = E_{x_{hot}}\]

…(7)

其中：

\(E \in R^{d_e \times v}\)是对于该specific feature的embedding字典
\(d_e\)是embedding size

我们接着将\(x_{emb}\)的所有features进行concatenate来构建\(x_{nv}\).

实际上，我们的系统会使用来自用户的95个non-visual features（历史点击/购买，location），ads（category, title, #reviews等）以及rich contexts（query words, visit time等），总共有70亿vocab。设置\(d_e = 4\)，总的维度是95 x 4 = 380. 我们将进一步引入features和其它statistics。

3.3 Category-Specific CNN

converntional预测系统大多数使用off-the-shelf CNN来嵌入ad图片。我们将它称为“off-the-shelf”，是因为它原始是用来分类设计的，而不是CTR预测。他们将image category看成是要预测的target，而非inputs。这实际上在电商平台上是一个巨大的浪费，因为：categories会被精准标记，并包含丰富的可视化先验知识，可以用于visual modeling。

我们针对CTR预测通过提出一种新的CNN（Category-Specific CNN）来解决该问题，它会嵌入一个ad图片m，并与ad category \(k \in K\)一起concat到visual feature \(x_v\)上。特别的，category prior knowledge被编码成category embeddings（与CTR模型联合训练），并使用一个conditional attention机制来包含CNN。

理论上，CSCNN可以被用来在任意网络中当做任意的convoluation layer。在我们的系统中，我们插入CSCNN到ResNet18.

3.3.1 单个convolutional layer上的框架

对于每个category k以及每个convolutional layer l，CSCNN会学习一个 tensor \(A_c^k \in R^{1 \times 1 \times C'}\)，它会为该layer编码category prior knowledge在channel-wise attention上的影响。我们会出于简洁性，忽略subscript l。框架如图2所示。

图片名称

图2 我们提出的Category-Specific CNN框架。注意CSCNN可以被添加到任意单个convolutional layer上，但出于简单演示，我们只展示了单个layer的细节。TOP：一个将category映射到category prior knowledge的map，它会影响channel-wise & spatial attentions。Bottom：F是当前convolutional layer上的output feature map。通过顺序使用channel-wise和spatial attention进行refined，新的feature map F’‘被当成下一layer的input使用

给定一个intermediate feature map \(F \in R^{H \times W \times C}\)，convolutional layer l的output，CSCNN会首先学习一个channel attention map \(M_c \in R^{1 \times 1 \times C}\)，它基于当前feature map和category为条件。接着，channel-wise attention会被乘上feature map来获得一个Refined feature map \(F' \in R^{H \times W \times C}\),

\[F' = M_c (F, A_c^k) \odot F\]

…(8)

其中，\(\odot\)表示与\(M_c\)的element-wise product，它沿着spatial维度\(H \times W\)进行广播。

相似的，CSCNN也会学到另一个tensor \(A_s^k \in R^{H \times W \times 1}\)，它会为spatial attention \(M_S \in R^{H \times W \times 1}\)对category prior knowledge进行编码。这两个attention模块被顺序用来获得一个3D的refined feature map \(F'' \in R^{H \times W \times C}\)：

\[F'' = M_s(F', A_s^k) \odot F'\]

…(9)

其中，spatial attention会在element-wise product之前沿着channel维度进行广播。一个实际的关注点是，在\(A_s^k\)中存在大量参数，尤其是在前几层。为了解决该问题，我们提出只学习一个更小的tensor \(A_s^{'k} \in R^{H' \times W' \times 1}\)，其中\(H' << H\)以及\(W' << W\)，接着通过线性插件（linear interpolation）将它进行resize到\(A_s^k\)。\(H'\)和\(W'\)的作用会在后面实验结果进行讨论。注意，\(A_s^k\)和\(A_c^k\)会随机初始化并在训练期间学习，除category id外不需要额外的category prior knowledge。

channel-wise和spatial attention两者都被重新定义后，\(F''\)会被fed给下一layer。注意，CSCNN会被添加到任意CNNs上，通过只将input的F替代成next layer的\(F''\)。

3.3.2 category-specific channel-wise Attention

channel-wise attention会告诉要关注”what”。除了之前的inter-channel关系外，我们也会利用category prior knowledge和features间的关系（图3）。

图片名称

图3

为了收集spatial信息，我们首先将F的spatial dimension通过max和average pooling进行挤压（squeeze）。采用两者的优点由CBAM的实验所支持验证。两个squeezed feature maps接着与category prior knowledge \(A_c^k\)进行concatenated一起，并通过一个共享的two layer MLP进行forward传递，将维度从\(1 \times 1 \times (C + C')\)减小到\(1 \times 1 \times C\)上。最终，我们通过element-wise summation进行合并。

\[M_c(F, A_c^k) = \sigma(MLP[Avg P(F), A_c^k] + MLP[MaxP(F), A_c^k])\]

…(10)

3.3.3 Category-specific Spatial Attention

我们的spatial attention module如图3(bottom)。Spaital attention会通过利用features的inter-spatial关系，告诉需要关注哪里。受CBAM的影响，我们首先通过average pooling和max pooling沿着channel的维度聚合feature map \(F'\)的channel-wise信息。为了包含category prior knowledge，这两者接着与\(A_s^k\)进行concatenate一起来形成一个\(H \times W \times 3\)维度的feature map。最终，该feature map通过一个\(7 \times 7\)的convolutional filter进行传递来获得attention weights。

\[M_s(F', A_s^k) = \sigma(Conv_{7 \times 7}(Max P(F'), Avg P(F'), A_s^k))\]

…(11)

3.3.4 复杂度分析

注意，CSCNN实际上是一个轻量级module。特别的，我们在表2中展示了Baseline、CBAM以及我们的算法在参数数目和giga floating-point operations(GFLOPs)上的对比。

我们设轩\(C \in \lbrace 64, 128, 256, 512 \rbrace, C'=20\)，瓶颈下降至4， #categories \(\mid K \mid =3310\)（表7中的real production dataset）。在CBAM中的每个convolutional yer中的“shared FC”中，参数数目是\(2 * C * C / 4\)。对于CSCNN，FC中的参数数目和channel category embedding是\(C * C / 4 + (C + C')*C/ 4 + C' * \mid K \mid\)。在channel attention中，参数数目的增加对比CBAM是1个conv layer为67-69k。另外，\(W' = H' = 6\)，在spatial attention中的额外参数数目是\(W' * H' * \mid K \mid + 6 * 6 \approx 120k\)。因此，总参数的增加为(120k + 68k) * 16 layers = 3.0M。额外的参数引入是可接受的，对比CBAM，额外计算只有0.03%。

3.4 系统部署

我们在搜索广告系统部署了CSCNN。图4描述了我们在线模型系统的架构。

图片名称

图4

3.4.1 offline training

CSCNN会与整个CTR prediction系统进行jointly train，最近32天收集的100亿规模的直实数据集。在我们之前的调查中，CNN是训练期间的关键计算瓶颈。采用ResNet18 network，它的input pic size为224 x 224，单机4个P40 GPUs只能每天训练1.77亿图片。这意味着在分布式训练中加速CSCNN，我们需要226 P40 GPUs来计算1天内的100亿曝光，这很昂贵。为了加速，我们采用[2]中的sampling strategy。具有相同的ad的大约25个曝光（impressions）会收集成一个batch。一张图片的image embedding只需要管理一次，并在该batch中传播给多次曝光。有了28张P40 GPUs后，训练可以在1天内完成。

3.4.2 Offline inferring

images和categories会被feed到一个well trained CSCNN中来infer那些visual features。Fearures会传到一个lookup table中，接着在predictor memory中加载来替换CSCNN。在维度减小和频控后，一个20GB的lookup table可以覆盖超过下一天曝光的90%。

3.4.3 Online serving

一旦收到请求，visual features会直接从lookup table根据ad id进行发现。predictor会返回一个estimated CTR。在流量高峰中，每秒有超过3亿的items的吞吐量，我们的CPU online serving系统的tp99 latency会在20ms以下。

4.实验结果

略

参考

1.https://arxiv.org/pdf/2006.10337.pdf

October 21, 2020d0evi1 Reading time ~1 minute

Mixed Negative Sampling介绍

google（google play）《Mixed Negative Sampling for Learning Two-tower Neural Networks in Recommendations》中提出了Mixed Negative Sampling。

3.模型框架

在本节中，我们首先提出：对于retrieval任务的large-corpus推荐系统中的一个数学表示。我们接着提出一个two-tower DNN的建模方法，并描述了如何使用in-batch negative sampling来训练模型。最后，我们介绍了Mixed Negative Sampling (MNS) 技术来解决batch negatives的选择偏差（selection bias）。

3.1 问题公式

在推荐系统中的检索任务，目标是：给定一个query，从整个item corpus中，快速选择数百到上千的候选内容。特别的，一个query可以是一个文本、一个item（比如：一个app）、一个user，或者它们的一个混合形式。这里，queries和items可以被表示成feature vectors，用于捕获多样的信息。我们将检索问题看成是一个多分类问题，从一个large corpus(classes) C中选择一个item的likelihood可以被公式化成一个softmax probability：

\[P(y | x) = \frac{e^{\epsilon(x,y)}}{\sum_{j \in C} e^{\epsilon (x, y_i)}}\]

…(1)

其中：

\(\epsilon(x,y)\)表示由retrieval model提供的logits，feature vectors x和y分别表示query和item。

3.2 建模方法

我们采用一个two-tower DNN模型结构来计算logits \(\epsilon(x,y)\)。

图片名称

图1 双塔结构

如图1所示，left tower和right tower会分别学习query和item的latent representations。正式的，我们通过函数\(u(x; \theta)\)和\(v(y; \theta)\)来分别表示两个towers，它们会将query features x和item features y映射到一个共享的embedding space上。这里\(\theta\)表示所有的模型参数。该模型会输出query和item embeddings的内积作为等式(1)中的logits：

\[\epsilon(x, y) = <u(x;\theta), v(y;\theta)>\]

出于简单，我们会：

u表示成一个给定query x的的embedding
\(v_j\)表示从corpus C中的item j的embedding

对于一个\(\lbrace query(x), item(y_l, postive \ label) \rbrace\)pair的cross-entropy loss变为：

\[L = - log(P(y_l | x)) = - log(\frac{e^{<u, v_l>}}{\sum_{j \in C} e^{<u, v_j>}})\]

…(3)

对等式(2)根据参数\(\theta\)做梯度，给出：

\[\nabla_{\theta} (- log P(y_l | x)) \\ = - \Delta_{\theta}(<u, v_l>) + \sum\limits \frac{e^{<u,v_j>}}{\sum_{j \in C} e^{<u, v_j>}} \nabla_{\theta}(<u, v_j>) \\ = - \nabla_{\theta}(<u, v_l>) + \sum\limits_{j \in C} P(y_j | x) \Delta_{\theta}(<u, v_j>)\]

第二项表示：\(\nabla_{\theta}(<u, v_j>)\)是对于\(P(\cdot \mid x)\)（指的是target分布）的期望（expectation）。通常在大的corpus上对所有items计算第二项是不实际的。因此，我们会通过使用importance sampling的方式抽样少量items来逼近该期望（expectation）。

特别的，我们会从corpus中使用一个预定义分布Q来抽样一个items子集\(C'\)，其中\(Q_j\)是item j的抽样概率（sampling probability），并用来估计等式(3)中的第二项：

\[E_P [\nabla_{\theta}(<u, v_j>)] \approx_{j \in C'} \frac{w_j}{\sum_{j' \in C'} w_{j'}} \nabla_{\theta}(<u, v_j>)\]

…(4)

其中，\(w_j = e^{<u, v_j> - log(Q_j)}\)会包含用于sampled softmax中的logQ correction。

双塔DNN模型的一个常用sampling策略是：batch negative sampling。特别的，batch negative sampling会将在相同training batch中的其它items看成是抽样负样本（sampled negatives），因此sampling分布Q会遵循基于item频次的unigram分布。它可以避免feed额外的负样本到右塔，从而节约计算成本。图2展示了在一个training batch上的计算过程。给定在一个batch中有B个{query, iitem} pair，B个queries和B个items的features会分别经过该模型的左塔和右塔。产生\(B X K\)（K是embedding维度）的embedding matrix U和V。接着，logits matrix可以被计算为\(L = U V^T\)。由于batch negative sampling会极大提升训练速度，我们会在下节中讨论它的问题，并提出一个可选的sampling策略。

图片名称

图2

3.3 Mixed Negative Sampling

控制梯度估计的bias和variance对于模型质量来说很重要。有两种方式来减小bias和variance：

(1) 增加sample size
(2) 减少在Q分布和target分布P间的差异

在训练两塔DNN模型的情况下，batch negative sampling会隐式设置采样分布Q为unigram item frequency分布。它在推荐场景下有两个问题：

(1) 选择偏差：例如，一个没有任何用户反馈的item不会包含在训练数据中作为一个candidate app。因而，它不会被batch negative sampling抽样成一个负样本。因此，该模型不能有效区分具有稀疏反馈的items 与其它items。
(2) 缺乏调整抽样分布的灵活性：隐式采样分布Q由训练样本决定，不能被进一步调整。Q与target分布P偏离，会导致巨大bias。

我们提出了Mixed Negative Sampling (MNS) 来解决该问题。它会从另一个数据流中均匀抽样\(B'\)个items。我们将这额外数据流称为index data，它是一个由来自整个corpus的items组成的集合。这些items对于每个batch来说会当成额外负样本使用。图3展示了一个training batch的计算过程。

图片名称

图3

除了\(B \times K\)的query embedding matrix \(U_B\)外，\(B \times K\) candidate item embedding matrix \(V_B\)，均匀从index data中抽样的\(B'\)个candidate items会被feed到右塔来生成一个\(B' \times K\)个candidate item embedding matrix \(V_B'\)。我们将\(V_B\)和\(V_B'\)进行拼接来获得一个\((B + B') \times K\)个candidate item embedding matrix V。事实上，我们具有\(B \times (B + B')\)个logits matrix \(L = U V^T\)。label matrix因此变成\(B \times (B + B')\)，具有一个所有都为0的\(B \times B'\)的matrix会append到原始的\(B \times B\)的对角矩阵上。相应的，一个training batch的loss function：

\[L_B \approx - \frac{1}{B} \sum\limits_{i \in [B]} log(\frac{e^{<u_i, v_i>}}{e^{<u_i, v_i>} + \sum\limits_{j \in [B+B'], j \neq i} w_{ij}})\]

…(5)

其中：

\(w_{ij} = e^{<u_i, v_j> - log(Q_j^*)}\)，\(u_i\)是U的第i行，\(v_j\)表示V的第j行。这里的抽样分布\(Q^*\)变成是一个关于基于unigram sampling的item frequency和uniform sampling的混合形式，有一个关于batch size B和\(B'\)间的ratio。

MNS会解决以上与batch softmax有关的两个问题：

(1) 减少选择偏差（selection bias）：在corpus中的所有items具有一个机会作为负样本，以便retrieval model可以更好分辩新鲜和长尾的items
(2) 在控制sampling分布时使得更灵活：有效采样分布Q是一个来自training data基于unigram分布的item freqeuncy和来自index data的uniform分布的mixture。对于一个固定的batch size B，我们可以通过调节\(B'\)来实验不同的Q。这里的\(B'\)可以作为一个超参数进行调节。

参考

1.https://dl.acm.org/doi/pdf/10.1145/3366424.33861952022-02-13-dwelltime-reweight.md

October 15, 2020d0evi1 Reading time ~3 minutes

SDM介绍

阿里在《SDM: Sequential Deep Matching Model for Online Large-scale Recommender System》提出了SDM，我们来看下。

摘要

捕获用户的精准偏好是大规模推荐系统中一个基础问题。当前，item-based CF方法通常会在工业界广泛使用。希而，它们不能有效建模用户的动态演进的偏好。在本paper中，我们提出了一个新的序列深度匹配模型（SDM: sequential Deep Matching）来捕获用户的动态偏好，它通过将short-term sessions和long-term behaviors相结合进行建模。我们对比了已经存在的sequence-aware推荐方法，我们会解决在实验应用中的两个天然问题：

1）他们可以在一个session内存在多个兴趣趋势
2）长期偏好（long-term）可能会与当前session兴趣的融合得不够有效

长期行为是多样且复杂的，因而，与short-term session高度相关的行为应该在融合（fusion）时被保留。我们提出，使用两个相应的组件来编码行为序列：

multi-head self-attention模块：来捕获多种类型的兴趣
long-short term gated fusion模块：来吸收long-term偏好

在与序列用户行为向量（sequential user behavior vector）与item embedding vectors相匹配后，会推荐连续的items。在真实世界数据集中的离线实验表明，SDM的优点。另外，SDM已经在taobao的在线大规模推荐系统中成功部署，并达到了巨大提升。

1.介绍

。。。

2.相关工作

。。。

3.提出的方法

3.1 问题公式化

我们首先将序列匹配问题（sequential matching problem）和我们的解决方法进行公式化。假设：

U：表示users集合
I：表示items集合

我们的模型认为：用户\(u \in U\)会与与一个item \(i \in I\)在t时刻进行交互。对于user u，我们可以通过以时间序降序对交互items进行排序来获得他/她的最新sessions。受session-based推荐的启发，我们可以将new session的生成规则进行公式化：

由后台系统记录，相同的session ID进行交互属于相同session
时间差异少于10分钟内（或者更长时间，具体依赖于场景）的近邻交互也可以合到一个session
一个session的最大长度设置为50，它意味着：当session长度超过50时，会新开启一个new session

用户u的每个最近session会看成是短期行为（short-term behavior），命名为\(S^u = [i_1^u, \cdots, i_t^u, \cdots, i_m^u]\)，其中：m是sequence的长度。u在过去7天内在\(S^u\)前发生的长期行为（long-term）被标记为\(L^u\)。基于这样的前提条件，我们会定义我们的推荐任务。给定用户u的短期行为 \(S^u\)以及长期行为 \(L^u\)，我们希望为他/她推荐items。

总的网络结构如图1所示。我们的模型会将当前session \(S^u\)和\(L^u\)作为input。\(S^u\)和\(L^u\)会分别被编码成short-term session表示为时间t的\(s_t^u\)，长期行为表示\(p^u\)。这两种representations会通过一个gated neural network进行组合。我们将该模块命名为user prediction network，它会从\(S^u\)和\(L^u\)中预测用户行为向量\(o_t^u \in R^{d \times 1}\)。假设：\(V \in R^{d \times \mid I \mid}\)表示I的item embedding vectors，其中：\(\mid I \mid\)是所有items的数目，d是每个vector的embedding size。我们的目标是：基于在\(o_t^u\)与V中每个列向量\(v_i\)间的内积得分，预测在time t+1时top N个item candidates：

\[z_i = score(o_t^u, v_i) = {o_t^u}^T v_i\]

其中，\(v_i \in R^{d \times 1}\)是第i个item embedding vector。

3.2 训练和在线serving

在训练期间，在time t的postive label是next interacted item \(i_{t+1}^u\)。negative labels是从排除了\(i_{t+1}^u\)的I中通过log-uniform sampler抽样得到的。接着预测的class probabitities会通过一个softmax layer做出。称为sampled-softmax，我们会使用cross entropy作为loss function：

\[\hat{y} = softmax(z) \\ L(\hat{y}) = - \sum\limits_{i \in K} y_i log(\hat{y}_i)\]

…(2)

其中，K是I的抽样子集，它包含了positive labels和negative labels，\(z = [z_1, \cdots, z_{\mid K \md}]\)是在\(o_t^u\)与每个\(v_i (i \in K), \hat{y} = [\hat{y}_1, \cdots, \hat{y}_{\mid K \mid}\)是在每个抽样样本（sampled item）上的预测概率分布，其中\(y_i\)是item i的truly probability分布。

我们会在我们的在线推荐系统中部署该模型。item embedding vectors V对于ANN来说很重要。同时，user prediction network会部署在一个高性能的实时inference系统上。这种架构遵循Youtube视频推荐[4]。当顾客使用我们的在线服务时，他们会与多个items交互，他们关于items的feedback会被处理，接着在数据库中作为用户行为日志进行排序。从大量日志中的有用悠会被抽取出来构建成模型所需的结构化数据。在time t时，顾客的历史行为\(S^u\)和\(L^u\)会被feed到inference系统中。接着，用户行为向量\(o_t^u\)会被预测。KNN搜索系统会使用\(o_t^u\)根据它们的内积进行检索。接着推荐top-N items。现在，我们会详述\(S^u\)和\(L^u\)会被编码到network中，并且两个representations会在图2中进行融合。

3.3 使用side information的input embedding

在taobao推荐场景中，顾客不只关注于特定item本身，也会关注品牌、商店和价格，等。例如，一些用户趋向于购买指定品牌的items，其它用户可能会从他们信任的商店进行购买。再者，由于工业界存在大规模items造成的稀疏性（sparsity），只对item ID feature级别来编码items不够令人满意。因此，我们会从不同的feature尺度来描述一个item，例如：item ID、leaf category、first level category、brand和shop，它们可以被表示成side information set F。每个input item \(i_t^u \in S^u\)被表示为一个dense vector \(e_{i_t^u} \in R^{d \times 1}\)，它通过embedding layer进行转换，因此，他们可以直接feed到DNN中：

\[e_{i_t^u} = concat( \lbrace e_i^f | f \in F \rbrace )\]

…(3)

其中，\(e_i^f = W^f x_i^f \in R^{d_f \times 1}\)是item i关于feature f的input embedding，它具有embedding size \(d_f\)。\(W^f\)是feature。f是转移矩阵，\(x_i^f\)是one-hot vector。

相似的，user profile可以从不同的feature scales来描述user u，比如：age、gender、life stage。用户u的profile信息输入可以被表示成一个dense vector \(e_u \in R^{d \times 1}\)：

\[e_u = concat( \lbrace e_u^p | p \in P \rbrace)\]

…(4)

其中，P是这profile features set，\(e_u^p\)是feature p的embedding。

3.4 Recurrent Layer

给定用户u的embedded short-term sequence \([e_{i_1^u}, \cdots, e_{i_t^u}]\)，为了捕获和特征化在short-term序列数据中的全局时序依赖，我们会使用Long Short Term Memory（LSTM） network作为recurrent cell，它遵循session-based recommendation【7，14，15】，LSTM可以描述为：

\[\]

…

3.5 Attention机制

在电商场景下，顾客通常会浏览一些不相关的items，这被称为是“因果点击（causal clicks）”。不相关的行为（unrelated actions）一定程度上会影响在序列中\(h_t^u\)的表示（representation）。我们使用一个self-attention network来减小一些不相关actions的影响。Attention network可以聚合多个vectors到一个总体表示上，通过分配不同的权重分到每个组件上。

3.5.1 Multi-head self-attention

self

3.5.2 User Attention

对于不同的用户，他们通常会对相似的item sets具有不同的偏好。因此，在 self-attention network的顶部，我们会添加一个user attention module来描述一些细粒度的个性化信息，其中\(e_u\)会被用于query vector，对\(\hat{X}^u = [\hat{h}_1^u, \cdots, \hat{h}_t^u]\)进行attend。time t时的short-term行为表示\(s_t^u \in R^{d \times 1}\)可以被计算：

\[a_k = \frac{exp(\hat{h}_k^{uT} e_u}{\sum_{k=1}^t exp(\hat{h}_k^{uT} e_u} \\ s_t^u = \sum\limits_{k=1}^t a_k \hat{h}_k^u\]

3.6 长期行为混合

从long-term视角看，用户通常会在不同维度积累不同程度的兴趣。一个用户可能经常浏览一群相似商店，并且重复购买相同品类的items。因此，我们也会从不同的feature scales将long-term行为\(L^u\)进行encode，\(L^u = \lbrace L_f^u \mid f \in F \rbrace\)包含了多个子集：\(L_{id}^u\)(item ID)，\(L_{leaf}^u\)（leaf category），\(L_{cate}^u\)（first level category），\(L_{shop}^u\)（shop）以及\(L_{brand}^u\)（brand），如图2所示。例如：\(L_{shop}^u\)包含了用户u在过往一周内交互的shops。考虑在在线环境下的快速响应，在每个subset中的entries，通过一个attention-based pooling会被嵌入并聚合到一整个vector中。

每个\(f_k^u \in L_f^u\)会通过在第3.3节中的\(W^f\)被转换成一个dense vector \(g_k^u \in R^{d \times 1}\)。接着我们使用user profile embedding \(e_u\)作为query vector来计算attention scores并获得\(L_f^u\)的表示：

\[a_k = \frac{exp(g_k^{uT} e_u}{\sum_{k=1}^`{| L_f^u |}`exp(g_k^{uT} e_u)} \\ z_f^u = \sum_{k=1}^{| L_f^u |} a_k g_k^u\]

…(11)

\(\lbrace z_f^u \mid f \in F\rbrace\)会被concatented并feed到一个FC network上：

\[z^u = concat(\lbrace z_f^u | f \in F \rbrace) \\ p^u = tanh(W^p z^u + b)\]

…(12)

其中，\(p^u \in R^{d \times 1}\)是long-term行为的表示。

为了与short-term行为进行组合，我们精妙地设计了一个gated neural network，它会将\(e_u, s_t^u, p^u\)作为input进行组合，如图2所示。一个gate vector \(G_t^u \in R^{d \times 1}\)会被用来决定在time t时short-term和long-term的贡献百分比（contribution percentages）

\[G_t^u = sigmoid(W^1 e_u + W^2 s_t^u + W^3 p^u + b)\]

…(13)

最终的output，例如：用户行为向量\(o_t^u \in R^{d \times 1}\)，会通过如下计算：

\[o_t^u = (1 - G_t^u) \odot p^u + G_t^u \odot s_t^u\]

…(14)

其中：\(\odot\)是一个element-wise乘法。

4.实验

4.1 数据集

我们会构建一个offline-online train/validation/test framework来开发我们的模型。模型会在两个离线真实电商数据集。一个是移动taobao APP的在线天级日志。另一个来自JD。我们的代码和离线数据集提供在：https://github.com/alicogintel/SDM.

离线taobao数据集。随机选取了在连续8天内交互超过40个items的活跃用户（2018年12月）。另外，我们会过滤交互超过100个items的用户，它们会被认为是spam users。接着我们收集他们的历史交互数据，首个7天做为训练，第8天作为测试。我们会过滤出该数据集中少于5次的items。session segmentation会遵循3.1节的规则，并限定每个\(L_f^u\)的最大size为20个。在训练过程期间，我们会移除长度少于2的sessions。在test环节，我们会选择近10000个活跃用户作为快速评估。他们在第8天的的前25%的short-term sessions会被feed到模型中，剩除的交互作为ground truth。除此外，顾客一天内浏览一些items超过一次，并重复推荐不应被鼓励，因此，我们会在test data上对某个user来说对其它items只保留一次。

离线JD数据集。由于该数据集相当稀疏和更小，我们选择3周的用户-item交互日志进行训练，一周进行测试。其它data构建和清理过程与taobao相同。在表1中的两个离线数据集的统计详情如下。

在线数据集。我们会选择大多数有效离线模型来部署在淘宝的生产环境中。来自taobao APP的user-item交互日志的训练数据来自过往7天，没有进行sampling。相同的数据清理过程会应用在离线训练数据集上。在线用户和items的scales会扩展到亿级别，它可以cover住大多数taobao的活跃商品，更多的long-term行为可以被使用。详情如表1所示。在线model、相应的item和user features会天级更新。

4.2 评估指标

4.1 离线评估

4.2 在线评估

在线指标：pCTR、pGMV和discovery。

pCTR是每个page view的Click-Through-Rate ，其中每个page可以为用户推荐20个items：

\[pCTR = \frac{#clicks}{#pages}\]

pGMV是每个1000 PV的Gross Merchandise Volume。它的计算如下：

\[pGMV = 1000 \times \frac{#pay amount}{#pages}\]

除了在线流量和收入外，我们也考虑用户的shopping体验。定义了有多少新items推荐系统提供给一个用户：

\[discovery = \frac{#new \ categories}{#all \ categories}\]

其中，分母是一个用户在每天点击的所有categories的数目，分子是用户在过往15天内新category的数目。我们会对所有用户求平均。

4.3 对比方法

Item-based CF
DNN: youtube DNN
GRU4REC
NARM: GRU4REC的改进版本
SHAN
BINN
SDMMA： Sequential Deep Matching with Multi-head Attention，我们的增强模型
PSDMMA：Personalized SDMMA，增加了user attention module来挖掘细粒度的个性化信息
PSDMMAL：PSDMMA组合了short-term sessions和long-term 行为。
PSDMMAL-N：基于PSDMMAL，在训练期间，我们会采用以下的N个items作为target classes作为Tang&Wang[24]。本实验中N=4

4.4 实现详情

分布式tensorflow。在离线实验上，训练使用5个PSs和6个GPU worksers，平均30 steps/s，在online实验上我们使用20 PSs和100 GPU workers。Adam optimizer具有learning rate 0.001.。。。

略

5.经验分析

5.1 离线结果

表2展示了不同模型在离线数据集上的结果。我们会从这些模型的训练epochs中选择最好的结果。总之，除YoutubeDNN外，基于deep learning的方法要胜过传统的item-based CF一大截。在item序列上的average pooling会忽略items间的内在的相关性，造成推荐质量（recall、precision）的损伤。GRU4Rec和NARM会考虑short-term行为的演进。他们的效果要好于原始的DNN模型。为什么SHAN和BINN能比GRU4Rec好是因为：他们包含了更多的个性化信息，包括long-term行为和user profile表示。

我们提出的SDMMA会利用multi-head attention结构，并全面好于NARM。我们会在5.3节看一个具体的case来解决multi-head attention是如何捕获多种兴趣的。通过引入user profile表示，PSDMMA会增强该模型，因为不同类型的users会关注不同的items。short-term表示会更准，越多的顾客可以在候选列表中发现他们感兴趣的items。但很难为一个新用户推荐潜在的新items。通过考虑上long-term行为，会infer得到越精准的偏好。

PSDMMAL可以打败所有模型，它会考虑long-term偏好。不同于SHAN和BINN，它会应用一个fusion gate来组合short-term和long-term行为表示。该gate比hierarchical attention结构具有更强的表示能力。SHAN会简单使用user profile表示作为query vector来决定long-term和short-term偏好表示的attention weights。我们提出的PSDMMAL会建模它们间的相关关系。在5.4节会通过一个有意思的case来解释fusion gate的设计。PSDMMAL-N是最好的变种，它在训练期间采用next 5 items作为target classes。它可以召回更多样的items，会满足更广用户的需求，对于推荐系统的matching task更合适。PSDMMAL-NoS的结果表明，我们的模型在没有side information下效果会急剧下降。

5.2 在线A/B

当前，taobao的在线匹配算法是一个two-staged方法。我们会将trigger items定义为一个用户最近交互过的items。Item-based CF首先会生成item-item相似矩阵。trigger items会通过相似矩阵去召回相似的items。接着这些recalled items会通过GBDT进行rerank作为matching chandidates。这样的方法是我们的online baseline，我们替换它作为一个标准的A/B test。

我们会部署最好的的SDM模型PSDMMAL-N，同时也会部署没有long-term behaviors的版本。对比baseline模型，从顾客的序列行为infer出来的推荐items的质量，会比由item-based CF生成的相似items的要好些。特别是对于那些经常在线浏览的顾客，我们的模型会推荐新items给他们，并吸引更多眼球来提升潜在的订单率。图3展示了7天的在线结果。两个SDM模型会胜过baseline一大截，其中PSDMMAL-N具有一个整体pCTR :7.04%的提升，pGMV：4.5%，cover: 24.37%。合并long-term行为会带来更多的提升。long-term行为总是表示个性化偏好，它可以影响顾客的当时购物决策。注意，我们的sequential matching model在2018 12月后表现稳定。

5.3 Multi-head Attention的效果

我们在matching模型中探索了多种heads的影响。直觉上，short-term session会获得heads增加数目带来的准确率。表3上报了在离线taobao dataset上的结果。在该实验中，在PSDMMAL中，只有heads数目是不同的，并且模型的维度 hidden units d设置为64。

我们可以观察到，由head number引起的变化在4个指标上保持一致。当heads的数目少于4时，该效果呈现了heads量间的postive关系。当heads数目大于4时，结果会急剧变差。我们可以下结论：更多head并不必要正向，因为\(d_{head_i} = \frac{64}{#head}\)会变得更小，并造成更差的表示。在我们的settings中，4个heads可以获得最好的结果，我们会将在short-term session上不同heads的attention weights进行可视化，如图4所示。我们会选择LSTM的hidden output \(h_t^u\)作为在multi-head attention中的query vector，来获得到\([h_1^u, \cdots, h_t^u]\)的attention weights。weight vector也是等式8中\(A_i^u\)的第t个row vetor。\(head_1\)和\(head_2\)主要关注在session中的前几个items，它们是白色羽绒衣（white down jackets）。\(head_3\)会捕获连衣裙（dress）的兴趣，\(head_4\)则会给出对牛仔裤（jeans）更多的attention。

5.4 Fusion Gate

element-wise乘法，concatenation和加法操作，会直接在未过滤的long-term偏好表示上进行，并忽略：在long-term上少量偏好会与当前short-term session具有强相关性。这些简单的组合方法会获得来自long-term偏好的所有信息，会天然地伤害fusion的效果，如图4所示，在taobao离线数据集上的效果。作为对比，我们提出的gated fusion network会准确捕获multi-layer user偏好，并达到最好的结果。在long-term偏好中与当前session高度相关的信息会与当前的short-term vector进行融合。

为了更好解释gated fusion，我们使用一个taobao的抽样用户的真实案例来解释gate的功能。如图5所示，\(R^u\)包含了我们模型推荐的items，它会被用户同时点击。我们可以看到，用户会浏览多种类型的玻璃，包括：红酒杯（red wine glass）和冠军杯（champion glass）。我们的模型可以直接推荐champion glasses，因为他们与用户的short-term session \(S^u\)中的最近点击有关。这意味着他更可能在此时对champion glasses感兴趣，该gate会允许保留该信息。同时，我们的gated fusion可以在它大量long-term行为\(L^u\)间捕获最相关的items （red wine），它也包含了许多不相关的点击：比如啤酒（beer）、削皮刀（paring knife）、小板块（small plate），并与short-term session的items（ red wine glasses）组合来生成推荐项：红酒瓶（red wine decanter）。该case表明：我们的gate module是有效的，并具有精准融合的能力。

图5

参考

1.https://arxiv.org/pdf/1909.00385.pdf

d0evi1的博客

d0evi1's blog

1.介绍

2.相关distillation技术

3.taobao推荐中的Priviledged features

4.Priviledged Feature Distillation

5.实验

5.1 实验setting

5.2 粗排CTR

5.3 精排CVR

5.4 RQ3-4

6.结论

参考

摘要

1.介绍

2.相关工作

3.方法

3.1 整体架构

3.2 DFN module

3.3 Feature Interaction Module

3.4 Optimization Objective

4.实验

参考

1.介绍

2.相关工作

2.1 CTR预测

2.2 CNN中的attention机制

3. JD中的CTR预测

3.1 先决条件

3.2 CTR预测系统的架构

3.2.1 DCN

3.2.2 Non-visual Feature Embedding

3.3 Category-Specific CNN

3.3.1 单个convolutional layer上的框架

3.3.2 category-specific channel-wise Attention

3.3.3 Category-specific Spatial Attention

3.3.4 复杂度分析

3.4 系统部署

3.4.1 offline training

3.4.2 Offline inferring

3.4.3 Online serving

4.实验结果

参考

3.模型框架

3.1 问题公式

3.2 建模方法

3.3 Mixed Negative Sampling

参考

摘要

1.介绍

2.相关工作

3.提出的方法

3.1 问题公式化

3.2 训练和在线serving

3.3 使用side information的input embedding

3.4 Recurrent Layer

3.5 Attention机制

3.5.1 Multi-head self-attention

3.5.2 User Attention

3.6 长期行为混合

4.实验

4.1 数据集

4.2 评估指标

4.1 离线评估

4.2 在线评估

4.3 对比方法

4.4 实现详情

5.经验分析

5.1 离线结果

5.2 在线A/B

5.3 Multi-head Attention的效果

5.4 Fusion Gate

参考