youku在《Multi-objective Optimization for Guaranteed Delivery in Video Service Platform》提出了一种方法:

1.介绍

对于在线视频提供商,例如:Netflix、Youku等,这里通常是一个widget/drawer,需要分发最新发布 或者 热门视频内容(通常是:TV综艺和电视剧)。在一天内访问该drawer的所有用户不会过多变化,因为一个视频服务平台的日活用户总数在一定期限内是相当稳定的。因此,该widget的一个非常重要的问题是,如何对给定的视频内容分配有限的曝光(impressions),以便确保对他们来说有足够的曝光并且相对公平。该drawer应关注那些新/热视频的商业化需求或合同需求;例如:保证每个内容的固定数目的曝光。这就是一个典型的保量分发系统(Guaranteed-Delivery system)。如果只依赖推荐系统是不够的,因为它是面向个人的。为了解决该问题,一个有效的曝光资源分配系统,会规划(plans)一个特定周期内的曝光资源(impression resources)。总之,操作周期可以是一天或者数小时,这依赖于特定需求。曝光资源首先会对每个内容在周期开始时考虑所有需求,接着分发系统(通常是推荐系统)会获得分配给每个内容的曝光量作为参考,然后尝试寻找最合适的用户。因而,整个系统可以平衡商业化需求和用户的个性化需求。

然而,在每个操作周期前的曝光分配是很复杂的,因为涉及到许多约束(constraints)。当前的曝光系统(impression system)是靠人工操作的,它高度依赖于人的经验,因而这是次优的。另一方面,在该widget中的一个视频内容的实际曝光分发,大多情况是由它的ctr来决定的,但是人工分配策略不能精准预测这些内容在一个给定曝光下的点击(CLICK)。另一方面,对人类来说设计这样一个分配策略:它对于每个视频来说,可以达到高点击量 & 不与所有约束冲突下的公平性(对于该场景来说是个常见目标),是很困难的。一个常见的场景是,不同的视频内容行为,在PV和VV上很不同,因为内容属性的不同。一些视频内容使用很少的曝光就可以达到高点击,而另一些可能会消耗更多曝光。如果我们分配太多曝光给这些内容,总CTR会在一个更低的水平。尽管有一些广告的曝光分配算法(也称为:保量分发系统: guaranteed delivery algorithm)提出,但对于内容曝光分配问题并没有提出这样的一些算法。内容的保量分配(GD allocation)问题具有它的独特之处,主要有两点:

  • 1)对于视频分发,特别是IP视频,内容平台需要重复曝光这些内容给定向消费者,因为对比起广告和商品来说,内容的数目很有限。再者,内容通常对于具有大量的潜在消费者,对比起广告,重复曝光过多会具有更大的概率带来更多潜在消费者来看视频。因此,跟随PV的CTR(有效指标)是一个内容分发要考虑的关键因素;
  • 2) 建模内容的曝光分配问题时考虑上CTR动态趋势(trends)作为约束,这对于模型和解决方案来说都是个新挑战。

在本paper中,为了解决上述挑战,我们设计了一个two-stage框架。第一个stage是预估(forecasting),第二个stage是分配(allocating)。在预估stage,我们会寻找开发有效的预估模型,它的目标是:预测用户在给定历史PV和点击记录的前提下预测用户的行为点击。特别的,为了描述随不同PV变化的CTR趋势,我们基于ODE(ordinal differential equation)提出了一个预测模型(称为:pv-click-ctr模型)。接着,在分配stage,我们提供了一个多目标非线性规划模型(multiple objective nonlinear progammming),它遵循CTR趋势及其它约束。

通过组合CLICK预估模型以及分配模型,它提供给我们一个解决方案来处理内容的保量分发问题。我们会执行离线和在线实验,表明我们提出的解决方案,在模型性能和效果上都比较好。据我们所知,这是第一个工业界解决方案来处理保量分发问题。应该承认的是,存在许多其它相关因素,比如:在widget内的曝光影响位置(location)、推荐系统对每个内容的性能,等。当前我们不会考虑这些因子,因为他们会让问题变得更难处理,后续我们将进一步解决。主要的贡献有:

  • 提出了一种参数化的pv-click-ctr预估模型来描述CTR trends with PV。
  • 设计了一个框架,它会在考虑上每个内容的CTR趋势以及曝光资源限制等约束下的保量下,最大化特定目标,比如:内容的VV、每个内容的公平性(fairness)。
  • 在线和离线实验:验证了pv-click-ctr model和保量分发策略的效果

2.相关工作

2.2 保量分发策略

最优化(Optimization)技术已经成功被应用到解决许多决策问题上,比如:广告分配问题。 通常,一个广告分配问题与一个数学运输问题(mathematical transportation)相似,它可以被建模成一个二部图(bipartite graph),供应节点、需求节点表示观看者类型(viewer types)和广告活动(ad campaigns)。【19】研究了发现对于一个广告的最可能安置组合的问题。该问题被建模成一个整数规划问题(integer program(IP)),目标是:在遵循有限广告预算下,具有最高的rating。【3,4】考虑上了单个广告主的商业计划问题(commercial scheduling problem)。为了满足所有通过自动化进行商业计划的需求,问题被公式化为一个Integer Program问题。【2】研究了在一个可能的slots集合中计划一个商业集合的问题。。。【15】描述了在一个广播公司的一个计划问题,广告主会为广告放置顺序,它们的预定播出时间不固定。。。【22】开发了一个decision support系统来计算对于一个主要TV电视台的周播空间的最佳安排。。。【9】提出了一个差分game model来进行媒介预算和分配。【8】使用层次化线性规划。。。【27】定义了一个Guaranteed Targeted Display Advertising。。。 【1】。。。

3.内容的曝光分配模型

在本节中,首先给出内容的保量分发策略的一些概念关于:内容的保量分发策略、pv-click-ctr预估模型的公式化。接着我们导出PV分配策略,并讨论分配策略的特性。

3.1 前提

我们只考虑需要GD策略的抽屉或者模块(drawers),它被表示为:

\[S = \lbrace s_j, j \in Z_n \rbrace\]

其中:

  • \(Z_n\)表示从1到n的整数集合

在drawer \(s_j\)的位置集合被表示为:

\[D_{s_j}=\lbrace d_{jk}, j \in Z_n, k \in Z_{\Theta(s_j)}\rbrace\]

其中:

  • \(\Theta_{s_j}\)表示在drawer \(s_j\)的位置数目

假设需要考虑在这些drawer的内容集合被表示为:

\[Q=\lbrace q_i, i \in Z_m \rbrace\]

其中:m是内容数目

在每个位置\(d_{jk}\)的整体天级PV限制被表示为\(C(d_{jk})\)。不失一般性,后面章节,我们将PV value表示为x,将CLICK value表示为y

考虑到每个drawer和position的资源容量(resource capacity),以及每个内容的CTR趋势,我们的目标是:为每个内容发现合适的天级PV,它可以最大化整个频道的VV,同时尽可能避免”过曝光(over-exposure)”和“欠曝光(under-exposure)”。因此,GD策略的主要问题是:给定一个内容的PV value x,我们估计它的click value值y。正式的,点击预估模型是一个”mapping”函数,它可以根据历史天级PV和CLICK数据来学到相应的patterns,并能预测一天的click value。

3.2 pv-click-ctr预估模型

每个内容的CTR趋势(trend)涉及到许多因素,很难对这些因素枚举并基于它的历史数据进行模型构建。因而,我们从其它视角对该问题进行研究。

总的来说,点击来自于曝光。在大多数case下,越多的曝光会带来越多点击数。然而,每个内容的目标消费者的总数目是有限的。当曝光量过大时,对同一消费者进行重复曝光在统计上不能带来更多的点击。这种“饱和”现象可以在我们的产品中通过历史数据观察到,这与经济学系统中的人口模型相似。受[13]的启发,我们引入一个参数化模型(parametric model)来捕获以上的观点。

特别的,假设:

  • y(x)表示点击值,它与在一天内某一内容的一个PV value x一一对应
  • \(\Delta x\)是PV增量
  • \(\Delta y\)是对应于\(\Delta x\)的点击增量
  • r是相对增长率系数。不同内容的相对增长率是不同的,因为它主要依赖于内容质量

如果PV值x很小,我们可以将CLICK增长率看成是与PV成比例关系,因为越多的曝光通常会带来越多的点击:

\[\frac{y(x+\Delta x) - y(x)}{\Delta x} \approx r * y(x)\]

…(1)

然而,当PV value x很大时,点击会具有“饱和”效应,增长率会递减。正式的,它可以写成:

\[\frac{y(x+\Delta x) - y(x)}{\Delta x} < 0\]

…(2)

与paper[13]相类比,我们使用一个关于y(x)的线性递减函数,来描述“饱和”效应,例如:

\[\frac{y(x+\Delta x) - y(x)}{\Delta x} = r(1 - \frac{y(x)}{y_m}) y(x)\]

…(3)

其中:\(y_m\)被称为中心点击值(pivot CLICK value)。

当PV超过对应于\(y_m\)的PV量时,相对增长率会为负,例如:如果\(y(x) > y_m, 1-\frac{y(x)}{y_m} < 0\)。其中:r和pivot CLICK \(y_m\)是核心content-based参数,表示内容的属性

假设:\(\Delta x \rightarrow 0\),那么等式(3)将是一个在CLICK和PV值间的ODE常微分方程模型:

\[\frac{dy}{dx} = r ( 1 - \frac{y}{y_m}) y\]

…(4)

等式(4)的解为:

\[y = \frac{y_m y_0}{y_0 - (y_0 - y_m) e^{-r(x - x_0)}}\]

…(5)

其中:

  • \(x_0\)和\(y_0\)表示初始PV和初始CLICK。

  • 如果\(y_0 < y_m\),CLICK value会增长,随着\(x \rightarrow \infty\)时会渐近逼近\(y_m\);
  • 如果\(y_0 > y_m\),CLICK value会递减,随着\(x \rightarrow \infty\)仍会渐近逼近\(y_m\)

事实上\(y = y_m\)是等式(4)的平衡点(equilibrium)。

因而,\(y = y_m\)的均衡点(equilibrium)。因而,等式(4)的正均衡点\(y=y_m\)是全局稳定的,也就是说,对等式(4)的y(x)求解\(\lim_{n \rightarrow \infty} y(x) = y_m\),其中任意初始值\(x_0\)。

为了描述每个视频内容的CTR趋势,在等式(5)中的参数r和\(y_m\)需要通过历史PV和CLICK数据来拟合。我们将所有内容相关的因子归属为这些参数,期望它们来表示内容自己的CTR趋势。我们使用least square fitting方法来估计这些参数。

3.3 曝光分配公式

基于3.2节提出的pv-click-ctr预估模型,该子部分目标是,开发一个最优化程序模型来解决PV分配问题。假设:

  • \(x_{ijk}\)表示内容\(q_i\)从位置\(d_{jk}\)获得的PV value
  • \(f(x_{ijk})\)是对应于\(x_{ijk}\)对应的CLICK value,它可以使用等式(5)进行计算

我们的目标是:通过最优化\(x_{ijk}\)来最大化总视频观看数(video views: VV),以及最小化CTR的方差(variance)。通过分析最优化目标和约束,分配问题可以被定义如下:

\[max \sum\limits_{i=1}^m \sum\limits_{j=1}^n r_{ij} f(x_{ijk}), k \in Z_{\Theta(s_j)} \\ min \frac{\sum\limits_{i=1}^m (p_i - P)^2}{m - 1} \\ p_i = \frac{\sum_{j=1}^n f(x_{ijk})}{\sum_{j=1}^n x_{ijk}}, \forall i \in \lbrace 1, 2, \cdots, m \rbrace, \forall k \in Z_{\Theta(s_j)} \\ P = \frac{\sum\limits_{i=1}^m \sum\limits_{j=1}^n f(x_{ijk})}{\sum\limits_{i=1}^m \sum_{j=1}^n x_{ijk}}, \forall k \in Z_{\Theta(s_j)}\]

….(6)(7)(8)(9)

约束条件为:

s.t.

\[\sum\limits_{i=1}^m x_{ijk} < C(s_j), \forall j \in \lbrace 1, 2, \cdots, n \rbrace, \forall k \in Z_{\Theta(s_j)}\]

…(10)

\[\sum\limits_{i=1}^m \sum_{j=1}^n x_{ijk} < R, \forall k \in Z_{\Theta(s_j)}\]

…(11)

\[x_{ijk} < max \lbrace C(d_{jl}), l \in Z_{\Theta(s_j)} \rbrace, \\ \forall i \in \lbrace 1,2, \cdots, m\rbrace, \forall j \in \lbrace 1,2, \cdots, n\rbrace, \forall k \in Z_{\Theta(s_j)}\]

…(12)

\[|C_{jk}| \leq k, C_{jk} = \lbrace x_{ijk} | x_{ijk} \geq C(d_{jk}), 1 \leq i \leq m \rbrace, \\ \forall j \in \lbrace 1, 2, \cdots, n \rbrace, \forall k \in Z_{\Theta(s_j)}\]

…(13)

其中:

  • \(r_{ij}\):是对于内容\(q_i\)在drawer \(s_j\)中CLICK和VV间的正相关系数
  • \(C(s_j)\):是drawer \(s_j\)的总PV资源数
  • R:是drawer set S的总可供资源数

等式(6)的最优化目标是在所有drawers上最大化总VVs。其它最优化目标是,在最小化等式(7)-(9)描述的的不同内容间的CTR variance。

  • 等式(10)描述的约束意味着:内容集合Q在drawer \(s_j\)中的资源分配不能超过它的资源容量(capacity)
  • 等式(11)表示drawer set S的资源约束
  • 等式(12)是位置资源约束,它表示资源分配给在任意drawer中的一个内容,不能超过它的最大位置资源容量
  • 等式(13)可以确保它们必须是一个drawer的一且只有一个位置分配给一个内容,也就是说:我们不能在相同时间展示相同内容给用户。

4.GA-based内容分配算法

为了获得在第3节中建模的分配问题的最优或次优解,提出了一个遗传算法(Genetic Algorithm)GA分配算法,它是一个迭代算法,其中会嵌入pv-click-ctr预测模型。

注意,等式(6)-(13)中表示的PV分配问题,对应于一个多目标约束优化问题(MCOP: Multi-objective Constrained Optimization Problem),它的最优解是很难找出的。通常,一个MCOP可以通过加权法( weighting)被转化成一个单目标最优化问题,接着PV分配问题定义如下:

\[max \ g(X | \lambda) = \sum\limits_{i=1}^m \sum\limits_{j=1}^n r_{ij} f(x_{ij}) + \lambda \frac{1} {\frac{\sum\limits_{i=1}^m (p_i - P)^2}{m-1}} \\ p_i = \frac{\sum\limits_{j=1}^n f(x_{ij})}{\sum\limits_{j=1}^n x_{ij}}, \forall i \in \lbrace 1,2, \cdots, m \rbrace \\ P = \frac{\sum\limits_{i=1}^m \sum\limits_{j=1}^n f(x_{ij})}{\sum\limits_{i=1}^m \sum\limits_{j=1}^n x_{ij}}\]

…(14)(15)(16)

\[s.t. X \in \Omega\]

…(17)

其中:

  • \(\lambda\)表示weight参数
  • \(\Omega\)是等式(10)-(13)描述的决策(变量)空间
  • \(g(X \mid \lambda)\)是目标函数

应该注意的是,通过等式(14)-(17)建模的分配问题是一个组合优化问题,并且它是非线性和非平滑的。组合优化问题是,它的可行解集合是离散的。该问题是NP-hard完全问题,它在多项式时间内全局最优的求解是相当难的。像branch和bound的搜索算法可以退化成完全枚举,并且CPU时间需要求解,可能会在最坏情况下指数级增长。为了实际求解这样的问题,必须合理寻找合适的近似最优解。作为搜索一个近似最优解的经典算法,GA提供了一个可选的方法。不同于通用的GA,我们提出的GA框架包含了以下主要两个部分:

  • coding scheme考虑上ODE约束
  • 局部搜索操作(带elitist策略的选择、交叉和突变)

4.1 Coding Scheme和ODE-based Fitness

根据GA的常用框架,分配问题的解是一个染色体(chromosome)或个体(individual)。特别的,在我们问题中的chromosome是一个矩阵,其中,elements是从drawers的相应位置分配的PV value。chromosome会以两步生成:

  • 1) 对于任意内容\(q_i\),会生成一个关于PV values的排列\(x_i = [x_{i,1}, x_{i,2}, \cdots, x_{i,n}]\),其中\(x_i\)的长度为n (注:n为drawer模块数)
  • 2) 对于不同内容合并所有的排序,是为了形成关于chromosome的最终形式\(X= [x_1, x_2, \cdots, x_m]\). (注:m是内容数目)

在GA中,每个个体(individual)的适应度(fitness)函数的值,例如(fitness),是与生存(survival)概率是高度相关的。高适应度的个体相对于整体人口来说具有一个较高概率的被选中进行交配(mating),而低适应度的个体具有一个较低概率被选中。特别的,在该问题中的个体X的适应度(fitness)函数等于在等式(14)中定义的目标函数。需要注意的是,等式(14)的主要部分是\(f(x_{ij})\)。如上所述,\(f(x_{ij})\)是一个对应于PV value \(x_{ij}\)的CLICK value,它可以通过第3.2节提到的pv-click-ctr模型来获得。假设个体X的fitness函数是F(X),假设:\(U=\lbrace u_1, u_2, \cdots, u_l \rbrace\),以及\(V=\lbrace v_1, v_2, \cdots, v_l\rbrace\)分别表示历史天级PV数据和CLICK数据的集合。由于在等式(4)中定义的两个参数通过使用U和V的数据进行fit,假设\(l \geq 4\)。对于一个PV value \(x_{i,j} \in X\),寻找一个element \(u_k \in U\)如下:

\[u_k = argmin || u_{\bar{k}} - x_{i,j} ||, u_{\bar{k}} \in U\]

…(18)

根据等式(3),我们可以获得\(x_{i,j}\)的一个相应CLICK value:

\[f(x_{i,j}) = v_k + r(1 - \frac{v_k}{v_{max}}) v_k(x_{i,j} - u_k)\]

…(19)

其中,r和\(v_{max}\)是通过将来自U和V的数据作为input来fit的参数。接着根据等式(14),fitness function F(X)可以获得:

\[F(X) = g(X|\lambda)\]

…(20)

4.2 Elitist策略的局部搜索操作

局部搜索操作(local selection operation)涉及到一系列操作,比如:选择(selection)、突变(mutation)、交叉(crossover)。主要目标是,继承高质量基因到下一代中,并进一步提升计算效率以及全局收全敛的概率。

在选择阶段,我们会使用elitism策略来保留“好”基因到下一代中。具体的,假设\(X_u^k\)是在第k代的个体,对应\(X_u^k\)的下一代如下:

\[X_i^k = \begin{cases} X_u^k, & F(X_u^k) \geq F(X_i^{k-1}) \\ X_i^{k-1}, & \text{otherwise} \end{cases}\]

…(21)

这意味着,我们只要保留具有高fitness value的个体到下一代即可。

交叉操作会随机将高质量个体的基因片段进行随机交叉。交叉概率的范围推荐0.4-0.99. 我们使用Order Crossover(OX) strategy。

突变(mutation)操作在GA中具有探索效应,这被期望可以达到大概率的全局最优。通过突变操作,一个新的染色体会通过在交叉之后在染色体中变更某些基因的编码来生成。为了确保人口演进的稳定性,突变概率通常会设得更小的值。本paper使用一种自适应突变概率,如下所示:

\[p_m = \begin{cases} \frac{p_{max} \ (p_{max} \ - p_{min} \ )(F - F_{avg} \ )}{(F_{max} \ - F_{avg}\ )}, & F \geq F_{avg} \\ p_{max}, & F < F_{avg} \end{cases}\]

…(22)

其中\(p_{max}\)和\(p_{min}\)表示最大和最小突变概率,其中在本paper分别采用0.05和0.01. F是fitness function,\(F_{max}\)和\(F_{avg}\)是对于当前人口的fitness function的最大值和平均值。

5.实验

本节中,我们会基于以下的问题开展实验:

  • 提出的pv-click-ctr模型效要会好于在CLICK预测问题中的“smoothing CTR方法”吗?
  • GA中的elitist策略影响是如何的?
  • 曝光分配算法对比SOTA的人工策略效果如何?

为了回答上述问题,我们通过在线、离线实验进行验证。

5.1 实验Settings

为了测试ODE模型和提出的GA分配算法,我们会执行offline/online实验。offline和online实验会在Youku.com的电视剧频道的“最新热门(Latest Hits)”模块进行。对于离线实验,来自“Latest Hits”模块的真实流量日志会进行收集。由于在线数据非常大,我们只用了一个月的数据。对于在线实验(A/B testing),我们在线部署模型服务于30%的PVs,并使用60%的人工分配作为控制组。表1总结了关于配置的统计。

图片名称

表1: 离线和在线实验的基础信息

5.1.1 参数settings

表2展示了所有参数的settings,缺省通过粗体高亮。

图片名称

表2 参数settings

  • R:这里的模块总资源通过R来表示
  • Pop: 表示GA中使用的size
  • \(\theta\)用来控制终止条件
  • \(\lambda\)是GA中的参数,用来平衡两个目标

特别的,参数\(\alpha\)用于最小平方拟合法中,来减少overfitting. 在所有的实验中,我们会调节一个参数,并保持其余参数不变。

5.1.2 评估指标和对比方法

为了评估pv-click-ctr模型的效果,我们会利用Root Mean Square Error(RMSE)、以及绝对百分比误差(APE:)来作为评估指标。

\[RMSE(y, \hat{y}) = \sqrt{\frac{1}{N} \sum_{i=1}^N (y_i - \hat{y_i})^2} \\ APE(y_i, \hat{y_i}) = \frac{|| y_i - \hat{y_i}||}{y_i}\]

…(23)(24)

其中:

  • \(\hat{y_i} \in \hat{y}\):表示一天内一个视频内容的预测PV值 或者 预测CLICK值
  • \(y_i \in y\)是相应的实际PV值 或 CLICK值
  • N:表示测试天的数目

5.2 离线实验结果

5.2.1 pv-click-ctr模型效果

为了回答第1个问题,我们使用表1中的9个在线视频内容来测试pv-click-ctr模型的效果。我们选择[29]中提出的“smoothing CTR方法”作为baseline。这里的“smoothing CTR方法”使用一个empirical Bayes方法来处理层次化的天然数据。实验结果如表3所示。

图片名称

表3 pv-click-ctr模型与smoothing CTR方法在在线数据上的对比

在参数拟合pv-click-ctr模型之前,会预处理历史天级PV和CLICK数据以及参数。

  • (i) 采样过滤(Sample filtering)。我们在天级历史PV和CLICK数据序列中分别选择最大的增量子序列。
  • (ii) 参数预处理(Parameter preprocessing)。由于CLICK的饱和值\(y_m\)的幅度通常很大,相关系数r通常是一个很小的值,为了避免“大数吃掉小数(cecimals)”,需要在两个参数上分别执行数据转换。比如:\(y_m \rightarrow log_{10} y_m, r \rightarrow e^r\)
  • (iii) 样本预处理(Sample preprocessing)。为了避免当执行参数拟合时落入局部最优解,,可以在历史样本上进行数据转换:\(x \rightarrow log_{10} x, y \rightarrow log_{10} y\)

9个内容的点击预测曲线如图1所示,其中“REAL”意味着true value,“MEAN”是从smoothing CTR方法获得的预测结果。我们可以清楚看到,CTR具有与PVs的趋势,我们的模型可以定性捕获该模式。定性评估如表3所示,对比起在给定内容上的smoothing CTR方法,pv-click-ctr会执行更好。

图片名称

图1 9个内容在pv-click-ctr模型与smoothing CTR方法上的点击预测曲线

5.2.2 超参数灵敏度

我们会评估:使用离线数据,根据超参数\(\alpha\)的不同选择来影响pv-click-ctr模型在参数拟合中的效果。这里我们使用初始的5天数据来评估每个内容的初始参数,接着评估接着n天的结果。在该天之前该内容的所有数据会被预测,也会被使用。参数\(\alpha\)的选择为:

\[\alpha \in \lbrace 0.006, 0.008, 0.01, 0.05, 0.1 \rbrace\]

我们可以看到在表4中,RMSE的最佳平均值对于所有测试内容为\(\alpha=0.01\)。

图片名称

表4 超参数敏感度分析结果

5.2.3 GA算法的评估

我们在VV和PV上,对比了GA离线实验结果和在线数据。在线效果如表5所示,其中“REAL”是在线数据。如表5所示,对于5个给定的内容,GA在VV上达到了3.836%的平均APE,这表明在GA中pv-click-ctr模型的功效。

图片名称

表5 在线数据和GA结果对比

5.2.4 GA中elitist策略的影响

为了回答第二个问题,我们开展实验表明了在GA上elitist策略的影响。下面,GA/E指的是没有elitist策略的GA。我们会通过使用在线历史数据来运行提出的算法GA和GA/E各十次。实验结果如表6所示,其中obj、vv和var分别意味着objective function、内容的total VV和CTR variance。从结果中,我们观察到:elitist策略对于GA具有一个重要影响,因为在10次运行中,GA在obj values和vv values上要胜过GA/E。GA也会获得一个比GA/E更好的CTR variance,因为它会在6/10中获得更小的var values。这是合理的,因为elitist策略会保留最好的解给下一代,这会让GA提升到一个更大的扩展上。这也表明elitist策略的潜力,它的效果可以进一步通过更多良好设计的模型而增强。

图片名称

表6 不同搜索策略的实验结果

表6中的index 1的objective value的evolution process如图2给出。从图2中,我们发现,当前最好的解会随着genreations的数目而增加。这在经验上意味着我们的算法会朝着最优解收敛。

图片名称

图2 当前最好解的变化趋势

5.3 在线实验结果

为了回答第3个问题,需进行在线实验。我们部署了pv-click-ctr模型,以及最优化框架到在线系统中,与已存在的GD系统(它可以通过操作专家进行人工操作)并列存在。我们在在线实验中主要关注两个指标:CTR variance和total CTR,它与3.3节中的公式一致,其中total CTR由下式给定:

\[CTR = \frac{\sum_{i=1}^m (click_i)}{\sum_{i=1}^m (pv_i)}\]

…(25)

其中,\(pv_i\)和\(click_i\)分别表示内容\(q_i\)的天级PV和CLICK。该系统会一直运行直到现在,我们只展示了在系统部署后的头7周的在线效果。

为了详细演示对比,表7展示了前30天结果的一个snapshot。出于数据安全性的目的,会使用一些转换来进行数据脱敏,无需影响结果比较。从表7所示,我们观察到GA在CTR variance和total CTR上在30天内要胜过人工策略。注意,GA在total CTR上达到了巨大提升,这表明了pv-click-ctr模型的优点。

图片名称

表7 30天内对于最优化策略和人工策略的A/B test结果

我们也提供了在7周内的统计对比结果,如表8所示。可以观察到,在CTR variance上的提升是巨大的(平均超过50%)。详细结果和整体结果两者都表明,在本paper中提出的内容的GD模型可以帮助我们比现有的GD系统做出更有效的决策,它要比当前解决方案更好。

图片名称

表8 最优化策略与人工策略在7周内的A/B test结果

# 6.结论

参考

1.介绍

最近几年,DNNs已经在推荐任务预测上达到了非常好的效果。然而,大多数这些工作集中在模型本身。只有有限的工作把注意力放到输入的特征方面,而它可以决定模型表现的上界(upper-bound)。在本工作中,我们主要关注于特征方面,特别是在电商推荐中的features。

为了确保offline training与online serving的一致性,我们通常在真实应用的两个enviorments中我们使用相同的features。然而,有一些有区分性的特征(discriminative features)会被忽略(它们只在训练时提供)。以电商环境中的CVR预测(conversion rate)为例,这里我们的目标是:估计当用户点击了该item后购买该item概率。在点击详情页(clicked detail page)上描述用户行为的features(例如:在整个页面上的dwell time)相当有用。然而,这些features不能被用于推荐中的online CVR预测,因为在任意点击发生之前预测过程已经完成。尽管这样的post-event features确实会在offline training记录。为了与使用privildeged information的学习相一致,这里我们将对于预测任务具有区分性(discriminative)、但只在训练时提供的features,称为priviledged features

使用priviledged features的一种简单方法是:multi-task learning,例如:使用一个额外的任务来预测每个feature。然而,在multi-task learning中,每个任务不必满足无害保障原则(no-harm guarantee)(例如:priviledged features可能会伤害原始模型的学习)。更重要的是,由于估计priviledged features比起原始问题[20]更具挑战性,很可能会与no-harm guarantee原则相冲突。从实际角度看,当一次使用数十个priviledged features,对于调整所有任务来说是个大挑战。

受LUPI(learning using priviledged information)【24】的启发,这里我们提出priviledged features distillation(PFD)来使用这些features。我们会训练两个模型:一个student和一个teacher模型。

  • student模型:与original模型相同,它会处理offline training和online serving的features。
  • teacher模型:会处理所有features,它包括:priviledged features。

知识会从teacher中distill出来(例如:在本工作中的soft labels),接着被用于监督student的训练,而original hard labels(例如:{0, 1})它会额外用来提升它的效果。在online serving期间,只有student部分会被抽出,它不依赖priviledged features作为输入,并能保证训练的一致性。对比起MTL,PFD主要有两个优点:

  • 一方面,对于预测任务,priviledged features会以一个更合适的方式来进行组合。通常,添加更多的priviledged features会产生更精准的预测
  • 另一方面,PFD只会引入一个额外的distillation loss,不管priviledged features的数目是多少,很更容易进行平衡

PFD不同于常用的模型萃取(model distillation:MD)[3,13]。

  • 在MD中,teacher和student会处理相同的inputs,teacher会使用比student更强的模型。例如,teachers可以使用更深的network来指导更浅的students。
  • 而在PFD中,teacher和student会使用相同的模型,但会在inputs上不同。PFD与原始的LUPI【24】也不同,在PFD中的teacher network会额外处理regular features。

图1给出了区别。

在本工作中,我们使用PFD到taobao推荐中。我们在两个基础预测任务上,通过使用相应的priviledged features进行实验。主要贡献有4部分:

  • 在taobao推荐中定义了priviledged features,并提出了PFD来使用它们。对比起MTL来独立预测每个priviledged feature,PFD会统一所有的模型,并提供一个一站式(one-stop)的解。
  • 不同于传统的LUPI,teacher PFD会额外使用regular features,它会更好地指导student。PFD与MD互补。通过对两者进行组合,例如:PFD+MD,可以达到更进一步的提升
  • 我们会通过共享公共输入组件(sharing common input components)来同步训练teacher和student。对比起传统的异步使用独立组件进行训练,这样的训练方式可以达到更好的效果,而时间开销会进一步减小。因此,该技术在online learning中是可用的,其中real-time计算需要。
  • 我们会在taobao推荐的两个基础预测任务上进行实验,例如:粗排中的CTR预测,以及粗排中的CVR预测。通过对interacted features(交叉特征)进行distill是不允许的,因为在粗排中的效率问题,以及在精排CVR中的post-event features,我们可以对比baseline达到极大的提升。在on-line A/B tests中,在CTR任务上点击指标可以提升+5%。在CVR任务中,conversion指标可以提升+2.3%。

2.相关distillation技术

在给出我们的PFD的详细描述前,首先介绍下distillation技术。总体上,该技术的目标是,帮助non-convex的student models来更好地训练。对于model distillation,我们通常会按如下方式写出objective function:

\[\underset{W_s}{min} (1-\lambda) * L_s(y, f_s(X; W_s)) + \lambda * L_d (f_t(X; W_t), f_s(X; W_s))\]

…(1)

其中:

  • \(f_t\)和\(f_s\)分别是teacher模型和student模型
  • \(L_s\)表示student pure loss,它具有已知的hard label y
  • \(L_d\)表示使用soft labels的loss,它由teacher产生
  • \(\lambda \in [0, 1]\)是超参数,用于对两个loss进行balance

对比起单独最小化\(L_s\)的original function,我们会期待在等式(1)中的additional loss \(L_d\)会帮助更好地训练\(W_s\),通过从teacher中对knowledge进行distilling得到。在[29]中,Pereyra et.将distillation loss看成是在student model上进行regularization。当单独以最小化\(L_s\)的方式训练\(f_s\)时,它被证明是获得overconfident preditions(过拟合的预测),会对training set过拟合。通过添加distillation loss,\(f_s\)也会逼近来自\(f_t\)的soft predictions。通过对outputs进行softening,\(f_s\)更可能会达到更好的泛化效果。

通常,teacher model会比student model更强大。teachers可以是一些models的ensembles,或者具有比student更多neurons、更多layers、或更广数值精度的DNNs。但也有些例外,比如,在[1]中,两个模型都会使用相同的结构,它们会相互学习,不同之处在于initialization以及处理训练数据的orders。

如等式(1)所示,teacher的参数\(W_t\)会在最小化期间fix住。我们可以将distillation技术划分成两个steps:首先使用已知的labels y训练teacher,接着通过最小化等式(1)来训练student。在一些应用中,模型会花费相当长的时间才收敛,等待teacher像等式(1)一样准备好是不实际的。作为替代,一些工作会尝试同步训练teacher和student【1,38,39】。除了像等式(1)那样从final output进行distilling之外,也可以从middle layer上进行disitll,例如:[30]尝试从intermediate feature maps进行distill,可以帮助训练一个deeper和thinner network。

除了从更复杂模型中对knowledge进行distill外,[24]提出从previledged information \(X^*\)上进行distill,它被认为是使用priviledged information(LUPI)进行学习。loss function接着变为:

\[\underset{W_s}{min} (1-\lambda) * L_s (y, f(X; W_s)) + \lambda * L_d (f(X^*; W_t); f(X; W_s))\]

…(2)

在[37]中,wang et使用LUPI来image tag推荐。除了teacher和student网络外,他们会额外学习一个discriminator,它会确认student更快地学习真实数据分布。Chen 使用LUPI来review-based 推荐。他们也会使用advrsarial training来选择informative reviews。另外,为了达到更好的效果,许多工作会在相对小的数据集上进行验证。但在工业级数据集上,仍有许多未知,这些技术需要在min-max game中达到均衡。

3.taobao推荐中的Priviledged features

图片名称

图2 taobao推荐总览。我们采用一个cascaded learning框架来select/rank items。在粗排中, interacted features(通常也是discriminattive)会被禁止,因为他们会在serving时极大增加时耗。一些有表征性的features会在下面部分演示

为了更好地理解priviledged features,我们首先如图2所示给出taobao推荐的一个总览。在工作推荐中通常这么做,我们采用cascaded 学习框架。在items呈现给用户前,有3个stages来select/rank items:candidate generation、coarse-grained ranking、fine-grained ranking。为了在效率和accuracy间做出一个好的trade-off,越往前的cascaded stage,会采用复杂和高效的模型,对items进行scoring会具有更高的时延。在candidate generation stage,我们会选择\(10^5\)个用户可能会点击或购买的items。总之,candidate genreation会从多个sources进行混合而来,比如:协同过滤、DNN模型等。在candidate generation之后,我们会采用两个stage进行ranking,其中PFD会在这时使用

在coarse-grained ranking stage中,我们主要会通过candidate generation stage来估计所有items的CTRs,它们接着被用来选择top-k个最高的ranked items进入到下一stage。预测模型的input主要包含了三个部分。

  • 第一部分:用户行为,它会记录用户点击/购买items的历史。由于用户行为是有序的,RNNs或self-attention会通常被用来建模用户的long short-term interests。
  • 第二部分:user features,例如:user id、age、gender等。
  • 第三部分:item features,例如:item id、category、brand等。

通过该工作,所有features都会被转换成categorical type,我们可以为每个feature学习一个embedding。

在粗排阶段,prediction model的复杂度会被严格限制,以便让上万候选在ms内完成。这里,我们使用inner product模型来对item scores进行measure:

\[f(X^u, X^i; W^u, W^i) \triangleq <\phi_{W^u}(X^u), \phi_{W^i}(X^i)>\]

…(3)

其中:上标u和i分别表示user和item。

  • \(X^u\):表示user behavior和user features的一个组合
  • \(\phi_W(\cdot)\)表示使用学到参数的非线性映射
  • \(W_{\cdot}<\cdot, \cdot>\)是内积操作

由于user侧和item侧在等式(3)中是独立的。在serving期,我们会事先离线计算关于所有items的mappings \(\phi_{W^i}(\cdot)\)。当一个请求到来时,我们只需要执行一个forward pass来获得user mapping \(\phi_{W^u}(X^u)\),并计算关于所有candidates的inner product,它相当高效。细节如图4所示。

如图2所示,粗排不会使用任何交叉特征,例如:用户在item category上在过去24小时内的点击等。通过实验验证,添加这样的features可能大大提高预测效果。然而,这在serving时会极大地增加时延,因为交叉特征依赖user和指定的item。换句话说,features会随着items或users的不同而不同。如果将它们放到等式(3)中的item或user侧。mappings \(\phi_w(\cdot)\)的inference需要执行和候选数一样多的次数,例如:\(10^5\)次。总之,non-linear mapping \(\phi_W(\cdot)\)的计算开销要比简单的inner product大许多阶。在serving期间使用交叉特征是不实际的。这里,我们将这些交叉特征看成是:在粗排CTR预测的priviledged features

在精排阶段,除了在粗排中也会做的CTR预估外,我们也为所有候选预估CVR,例如:如果用户点击某个item后会购买该item的概率。在电商推荐中,主要目标是最大化GMV(商品交易总量),它可以被解耦成CTR x CVR x Price。一旦为所有items估计CTR和CVR,我们可以通过expected GMVs来对它们进行排序来最大化。在CVR的定义中,很明显,用户在点击item详情页上的行为(例如:停留时长、是否观看评论、是否与卖者进行交流等),对于预测来说相当有用。然而,在任何future click发生前,CVR必须要对ranking进行估计。描述在详情页上用户行为的features在inference期间并没有提供。这里,我们可以将这些features表示成priviledged features来进行CVR预测。为了更好地理解它们,我们给出图3进行演示。

图片名称

图3 描述了clicked item的详情页上的用户行为。包括没有展示的dwell time,这些features对于CVR预测来说是相当有信息量的(informative)。然而,在serving时,如左子图所示,在任意item被点击之前,我们不必使用CVR来对所有candidate items进行rank。对于CVR预测,我们将这些features表示成priviledged features

4.Priviledged Feature Distillation

如等式(2)所示,在原始的LUPI,teacher依赖于priviledged information \(X^*\)。尽管信息量大,在本工作中的priviledged featues只能部分描述用户的偏好。使用这些features的表现要比使用常规特征(regular features)要差。另外,基于priviledged features的预测可能有时会被误导(misleading)。例如,对于顾客来说,通常会在昂贵item上花费更多时间来最终决定,而这些items的转化率相当低。当进行CVR估计时,LUPI的teacher会依赖于priviledged features(例如:停留时间)做出预测,但不考虑regular features(例如:item price),这会导致在昂贵items上做出false positive predictions。为了缓和它,我们会额外将常规features feed给teacher model。等式(2)的原始function可以修改如下:

\[\underset{min}{W_s} (1-\lambda) * L_s (y, f(X; W_s)) + \lambda * L_d( f(X, X^*; W_t), f(X; W_s))\]

…(4)

通常,添加更多信息(例如:更多features),会得到更精准的predictions。teacher \(f(X, X^*; W_t)\)这里期望会比sutdent \(f(X; W_s)\)、或者LUPI \(f(X^*; W_t)\)的teacher更强。在上述场景上,通过考虑上priviledged features和regular features,可以使用停留时长(dwell time)来区分在不同昂贵items上的偏好程度。teacher会有更多的知识来指导student,而非误导它。通过以下实验进行验证,添加regular features到teacher中是non-trivial的,它可以极大提升LUPI的效果。从那以后,我们将该技术表示成PFD来区别LUPI。

如等式(4)所示,teacher \(f(X, X^*; W_t)\)会优先训练。然而,在我们的应用中,单独训练teacher model会花费一个较长时间。使用像等式(4)这样的distillation是相当不实际的。更可行的方式是,像[1,38,39]的方式同步地训练teacher和student。objective function接着被修改如下:

\[\underset{W_s, W_t}{min} (1-\lambda) * L_s(y, f(X;W_s)) + \lambda * L_d(f(X,X^*;W_t), f(X;W_s)) + L_t(y, f(X, X^*; W_t))\]

…(5)

尽管会节省时间,同步训练可能不稳定(un-stable)。在early stage时,teacher模型没有被well-trained,distillation loss \(L_d\)可能会使student分心(distract),并减慢训练。这里我们通过一个warm up scheme来缓和它。在early stage时我们将等式(5)的\(\lambda\)设置为0,从那以后将它固定到一个pre-defined value,其中swapping step可以是个超参数。在我们的大规模数据集上,我们发现,这种简单的scheme可以良好地运转。不同于相互学习(mutual learning),我们只允许student来从teacher那进行学习。否则,teacher会与student相互适应,这会降低效果。当根据teacher参数\(W_t\)分别计算gradient时,我们会触发distillation loss \(L_d\)。算法1使用SGD更新如下。

根据该工作,所有模型都会在parameter server系统上进行训练,其中,所有参数都会存储在servers上,大多数计算会在workers上执行。训练速度主要决取于在workers上的计算负载以及在workers和servers间的通信量。如等式(5)所示,我们会一起训练teacher和student。参数数目和计算会加倍。使用PFD进行训练可能会比在student上单独训练更慢,这在工业界是不实际的。特别是对于在线学习,会要求实时计算,采用distillation会增加预算。这里我们会通过共享在teacher和student的所有公共输入部分来缓和该问题。由于所有features的embeddings会占据在servers上的大多数存储,通过共享通信量可以减小一半。该计算可以通过共享用户点击/购买行为的处理部分来减小,它的开销较大。正如以下实验所验证的,我们可以通过sharing来达到更好的表现。另外,对比起单独训练student,我们只会增加一些额外的时间,对于online learning来说这会使得PFD更适应些(adoptable)。

扩展:PFD+MD

如图1所示,PFD会从priviledged features中distill知识。作为对比,MD会从更复杂的teacher model中distill知识。两个distillation技术是互补的。一个天然扩展是,将它们进行组合来构成一个更复杂的accurate teacher来指导student。

图片名称

图1 MD与PFD。在MD中,knowledge会从更复杂的模型中distill出来。在PFD中,knowledge会同时从previledged和regular features中进行distill。PFD也会与使用priviledged information(LUPI)的original learning有所不同,其中teacher只处理priviledged features

在粗排的CTR prediction中,如等式(3)所示,我们使用inner product模型来在serving上增加效率。事实上,inner product模型会被认为是泛化的MF(gnerelized matrix factorization)。尽管我们正使用非线性映射\(\Phi_W(\cdot)\)来转移user和item inputs,该模型能力天然受限于内积操作的bi-linear结构。DNNs,它可以逼近任意函数,被认为是对于在teacher中的inner product模型的一个替代。事实上,如【22】中的定义1所示,乘积操作可以通过一个two-layers的NN(在hidden layer上只有4个neurons)来逼近任意小。因此,使用DNN的表现被认为是inner-product模型的下界(lower-bounded)。

图片名称

图4

在PFD+MD中,我们也采用DNN模型作为teacher network。事实上,这里的teacher model与我们在精排CTR预测使用的模型相同。本任务中的PFD+MD可以被认为是从精排中distill知识,来提升粗排。为了更好地演示,我们在图4中给出了整个框架。在serving期间,我们会只抽取student部分,它依赖于priviledged features。由于所有items的mappings \(\phi_{W^i} (X^i)\)是与users相互独立的,我们会事先对它们进行离线计算。当一个请求过来时,user mapping \(\phi_{W^u}(X^u)\)会首先计算。这之后,我们会使用所有items的mappings(它们从candidate generation阶段生成)来计算inner-product。top-k得分最高的items接着被选中并被feed给精排。基本上,我们只要执行一个forward pass来获得user mapping,并在user和所有candidates间执行高效地inner product操作,它在计算方面相当友好。

图片名称

图5

5.实验

在taobao推荐上做了实验,目标是回答以下的研究问题:

  • RQ1: PFD在粗排的CTR任务上的表现,以及在精排CVR上的表现?
  • RQ2: 对于独立的PFD,我们可以通过将PFD与MD进行组合来达到额外的提升?
  • RQ3: PFD对于等式(5)中的超参数\(\lambda\)敏感吗?
  • RQ4: 通过共享公共输入部件(),同时训练teacher和student的效果是什么?

5.1 实验setting

5.2 粗排CTR

5.3 精排CVR

5.4 RQ3-4

6.结论

参考

微信在《Deep Feedback Network for Recommendation》提出了DFN。

摘要

显式与隐式反馈可以影响关于items的用户意见,这对于学习用户偏好来说是必要的。然而,大多数当前的推荐算法主要关注于隐式正反馈(implicit positive feedbacks: 例如:click),忽略了其它有信息的用户行为。在本paper中,我们的目标是:联合考虑explicit/implicit以及positive/negative feedbacks来学习用户的无偏偏好。特别的,我们提出了一种新的Deep feedback network(DFN)来建模click、unclick和dislike行为。DFN具有一个内部feedback interaction组件,它可以捕获用户行为间的细粒度交叉(fine-grained interactions),一个额外的feedback interaction组件可以使用精准但相对少的feedbacks(click/dislike)来从丰富但带噪声的feedbacks(unclick)中抽取有用信息。在实验中,我们在wechat top stories的推荐系统上,对数百万用户做了实验。DFN带来了极大的提升。源代码为:https://github.com/qqxiaochongqq/DFN

1.介绍

个性化推荐系统的目标是,为用户根据它们的偏好提供定制的items。它们在视频和电商业被广泛使用。

推荐系统中大量使用user-item interactions来进行个性化。这些重要的信息主要有两大类:显式反馈(explicit feedback)和隐式反馈(implicit feedback):

  • 显式反馈(explicit feedback)来自于用户对items的直接意见(比如:评分、like/dislike等)。它可以很精准地表示用户的真实偏好,而收集这样的feedback相当不容易。
  • 隐式反馈(implicit feedback)主要来自于具有暗示非直接意见的用户行为(例如:click或unclick)。在真实推荐系统中,很容易从大量用户行为中收集这样的隐式反馈。隐式反馈(implicit feedbacks)会混杂着许多其它内在的noises,以及少量的真实负反馈,这会损害学习用户的无偏偏好.

最近,推荐系统通常会将个性化推荐看成是一个CTR预测任务。因此很自然地,大多数推荐算法主要关注于隐式正反馈(点击),这在实际中很容易获取。这些模型会直接使用点击行为和CTR目标进行最优化,它会产生以下的问题:

  • 首先,CTR目标的objectives通常关注于:用户喜欢什么,忽略掉用户不喜欢什么。简单依赖于这些隐式正反馈(implicit positive feedbacks)会使得模型趋向于提供均匀的(homogeneous)、短视(myopic)的结果,这会伤害用户体验。因此,negative feedbacks应在推荐中被考虑
  • 第二,除了被动地接受由模型选中的信息外,用户也需要有效和高效的反馈机制来激活与推荐系统的交互。再者,由于用户的implicit feedbacks与它的真实偏好(点击并不总是意味着喜欢)间存在gap。它也证实了explicit feedbacks的必要性。

多个explicit/implicit和positive/negative feedbacks可以互补,并影响用户的无偏偏好。有一些工作:使用隐式反馈和显式反馈的CF(Liu 2010)、多任务学习(Hadash 2018)。然而,这些工作中,negative feedbacks通常会被忽略,或者只存在显式反馈(这很精准、但量很少)。一些工具会考虑unclick或missing行为作为隐式负反馈来乘上负信号(negative signals)。不幸的是,在这些隐式负反馈(implicit negative feedbacks)中的noises会严格限制效果表现,因此,这些隐式负反馈会由许多除了dislike之外的原因造成。

图片名称

图1

。。。

2.相关工作

。。。

3.方法

我们的目标是,将多个explicit/implicit和positive/negative feedbacks进行联合考虑来学习用户无偏偏好。特别的,我们提出了DFN模型,它会收集用户历史行为中的三种类型的feedbacks:

  • 隐式正反馈(implicit positive feedbacks):implicit positive feedbacks是在大规模推荐中被广泛使用的feedbacks,它在量级和质量上均比较满意。根据大多数conventional模型,我们考虑点击行为序列 \(\lbrace c_1, \cdots, c_{n_1}\rbrace\)作为在DFN中使用的implicit positive feedback。
  • 显式负反馈(explicit negative feedbacks):Explicit feedbacks是高质量的,但在真实推荐中很少。我们会使用与每个item相关的dislike按钮来收集explicit negative feedback序列 \(\lbrace d_1, \cdots, d_{n_2}\rbrace\)
  • 隐式负反馈(implicit negative feedbacks):我们会将曝光未点击(impressed but unclick)的行为序列\(\lbrace u_1, \cdots, u_{n_3}\rbrace\)作为implicit negative feedbacks。这种未点击行为在所有feedbacks类型中占绝大多数,而它会与噪声和false-negative信号相混杂。

CFN尝试使用高质量的click和dislike behaviors作为instructors来从未点击行为中抽取有用信息。在DFN中很容易添加其它类型的feedbacks

3.1 整体架构

Deep feedback network主要包含两个模块,称为:deep feedback interaction模块与feature interaction模块。首先,deep feedback interaction模块会采用多个feedbacks作为inputs,使用内部和外部的feedback interactions来抽取用户无偏的positive和negative偏好。第二,refined feedback features会与其它有信息特征(比如:user profiles、item features以及contexts)进行组合。我们会实现Wide、FM和Deep组件来进行特征聚合(feature aggregation)。最终,feature interaction模块的outputs会feed给full connected和softmax layers来进行positive和negative losses的模型最优化。图2(a)展示了DFN的整体架构。

图片名称

图2

3.2 DFN module

图2(b)中的deep feedback interaction模块会采用对于target item的implicit positive(click),explicit negative(dislike)以及implicit negative(unclick) feedbacks作为inputs。我们会使用两个components来从inside和between不同类型的feedbacks的交叉中进行学习。

Internal Feedback Interaction Component

对于一个特定类型的feedback,该component会关注target item和individual behaviors间的交叉。我们会根据Vaswani[2017]的行为使用一个multi-head self-attention。所有的行为特征包含了它们的item embeddings和position embeddings,会被投影到一个联合语义空间(joint semantic space)中来形成behavior embeddings。以点击行为为例,我们会将target item t与点击序行的behavior embeddings进来组合来形成输入矩阵 \(B_c = \lbrace t, c_1, \cdots, c_{n_1} \rbrace\)。query, key, value矩阵可以通过如下进行计算:

\[Q = W^Q B_c, K=W^K B_c, V=W^V B_c\]

…(1)

其中,\(W^Q, W_K, W^V\)是投影矩阵。我们接着通过下面方式计算self-attention:

\[Attention(Q, K, V) = softmax(\frac{Q^T K}{\sqrt{n_h}}) V\]

…(2)

其中,\(n_h\)是query、key、value的维度。总共h个multi-heads的第i个head可以通过如下进行计算:

\[head_i = Attention(W_i^Q Q, W_i^K K, W_i^V V)\]

…(3)

\(W_i^Q, W_i^K, W_i^V \in R^{n_k \times n_k / h}\)是第i个head的weighting矩阵。self-attention的最终输出矩阵是:

\[F_c = concat(head_1, \cdots, head_h) \cdot W^O\]

…(4)

\(W_O \in R^{n_h \times n_h}\)是投影矩阵。最终,我们通过在\(F_c\)中所有n+1的output embeddings上进行一个average pooling来生成implicit positive feedback embedding \(f_c\):

\[f_c = Average_pooling(F_c), f_c \in R^{n_h}\]

…(5)

我们也会使用相同的带type-specific hyper-params的transformer来生成explicit negative feedback embedding \(f_d\)以及从dislike和unclick behaviors中的implicit negative feedback embedding \(f_u\)。internal feedback interaction component可以很好地捕获在每种类型的feedback序列中target item和behaviors的behavior-level interactions。它可以提供与target item相关的user positive和negative偏好。

External Feedback Interaction Component

隐式负反馈(implicit negative feedbacks)是够多的,但有非常noisy。总之,unclick behaviors看起来暗示着negative signals,而曝露给用户的items则需通过特定策略进行选择,它也会包含来自粗粒度的用户兴趣。external feedback interaction组件的目标是,根据在click和dislike行为上的强反馈,来区别用户在未点击行为(unclick behaviors)上的真实喜欢(like)和不喜欢(dislike)。特别的,我们通过两个vanilla attentions,它会考虑隐式正反馈和隐式负反馈的embeddings \(f_c\)和\(f_d\)作为instructors来指导来自unclick序列\(u_1, \cdots, u_{n_3}\)。我们将unclick-dislike interaction embedding \(f_{ud}\)使用dislike和unclick行为公式化:

\[f_{ud} = \sum\limits_{i=1}^{n_3} \alpha_i u_i, \alpha_i = \frac{f(f_d, u_i)}{\sum_{j=1}^{n_3} f(f_d, u_j)}\]

…(6)

其中,weighting score function \(f(a,b)\)定义如下:

\[f(a, b) = MLP(concat(a, b, a-b, a\odot b))\]

…(7)

我们将\(\odot\)看成是element-wise product,并使用一个2-layer Multi-layer perceptron (MLP)。\(f_d\)包含了user的强的negative偏好,它从与target item相关的显式负反馈(explicit negative feedbacks)进行重定义得到。它会帮助vanilla attention来抽取用户真实dislike和unclick行为的items。我们也会使用隐式正反馈(implicit positive feedback)的embedding \(f_c\)来放大在unclick行为中positive的声音。

\[f_{uc} = \sum\limits_{i=1}^{n_3} \beta_i u_i, \beta = \frac{f(f_c, u_i)}{\sum_{j=1}^{n_3} f(f_c, u_j)}\]

…(8)

最后,我们将所有5种feedback features组合来构建最终的refined feedback feature \(f_{Feed}\):

\[f_{Feed} = \lbrace f_c, f_d, f_u, f_{uc}, f_{ud}\rbrace\]

…(9)

隐式正反馈与显式负反馈\(f_c\)和\(f_d\)被看成是强的positive和negative信号,而其余unclick-related feedbacks则被看成是弱信号(weak signals)。

3.3 Feature Interaction Module

在feature interaction中,我们将refined feedback feature与其它features(包括:user profiles、item features、以及context)进行refined。根据Guo[2017],我们将这些sparse features进行group到m个fields中 \(\lbrace x_1, \cdots, x_m \rbrace\)包括:continuous fields(例如:age)和categorical fields(例如:location)。所有的fields被表示成one-hot embeddings。一个lookup table被用于生成所有fields的dense feature:\(\lbrace f_1, \cdots, f_m \rbrace\)。我们为feature interaction实现了Wide, FM以及Deep components。

Wide Component

Wide component是一个泛化的linear model,它在推荐中被广泛使用。Wide component \(y^{Wide}\)的output是一个m-dimensional的vector,其中,第i个element被计算成:

\[y_i^{Wide} = w_i^T x_i + b_i, w_i, x_i \in R^{n_{f_i}}\]

…(10)

\(w_i\)是第i个one-hot fields embedding \(x_i\)的weighting vector,\(b_i\)是bias,\(n_{f_i}\)是\(x_i\)的维度。

FM Component

FM component会捕获所有features间的二阶交叉。FM的input embeddings是所有dense features的组合,最终的refined feedback feature为:\(F' = \lbrace f_1, \cdots, f_m, f_{Feed}\rbrace\)。我们根据Bi-interaction layer,并根据下面方式生成output embedding \(y^{FM}\):

\[y^{FM} = \sum\limits_{i=1}^{m+5} \sum\limits_{j=i+1}^{m+5} f_i^' \odot f_j^', f_i^', f_j^' \in F'\]

…(11)

Deep component

在Deep component中,我们实现了一个2-layer MLP来学习高阶feature interactions。input是dense features和feedback features的concatenation,可以表示成:\(f^{(0)} = concat(f_1, \cdots, f_m, f_{Feed})\)。我们有:

\[y^{Deep} = f^{(2)}, f^{(i+1)} = ReLU(W^{(i)} f^{(i)} + b^{(i)})\]

…(12)

其中,\(f^{(i)}\)是第i个layer的output embedding。\(W^{(i)}\)是weighting matrix,\(b^{(i)}\)是第i个layer的bias。

最终,我们从三个components中将所有outputs进行concat起来来生成aggregated feature embedding y:

\[y = concat(y^{Wide}, y^{FM}, y^{Deep})\]

…(13)

3.4 Optimization Objective

我们使用click、unclick以及dislike行为来进行监督训练。预测的点击概率与aggregated feature embedding y通过下式计算:

\[p(x) = \sigma(w_p^T y)\]

…(14)

\(w_p\)是weighting vector,\(\sigma(\cdot)\)是sigmoid function。DFN的loss function包含了三个部分:click、unclick、dislike行为:

\[L = -\frac{1}{N} (\lambda_c \sum\limits_{S_c} log p(x) + \lambda_u \sum\limits_{S_u} log(1 - p(x)) + \lambda_d \sum\limits_{S_d} log(1-p(x)))\]

…(15)

该训练集具有N个实例,分组成:click set \(S_c\),dislike set \(S_d\)以及unclick set \(S_u\)。\(\lambda_c, \lambda_d, \lambda_u\)是不同losses的weights来measure不同feedbacks的重要性。

4.实验

参考

JD在《Category-Specific CNN for Visual-aware CTR Prediction at JD.com》提出了CSCNN:

1.介绍

JD领先的广告系统,会服务数百万广告主(advertisers)与数十亿顾客(customers)相连。每天,顾客会访问JD,点击ads并留下数十亿的交互日志。这些数据不仅会反馈给到学到的系统,但也会增强技术演进提升用户体验。

在常见的CPC广告系统中,广告会通过eCPM进行排序,商品的竞价通过advertisers给出,广告系统则会预测CTR。精准的CTR预测对商业效果和用户体验有用。因而,该topic在机器学习界和工业界被广泛关注。

大多数广告会使用图片进行展示,因为它们具有更多的视觉展示,并对于文本描述能传达更丰富的信息。一个有意思的现象是,许多广告通过切换更吸引人的图片会获得更高的CTR。对于CTR预测,这驱使了关于提取更丰富可视化特征的许多研究。这些算法会采用现成的(off-the-shelf)的CNNs来抽取可视化特征,并将它们与非可视化的特征(non-visual features:比如:category, user)进行混合来进行最终CTR预测。有了额外的可视化特征,这些算法在离线实验上可以远胜过无可视化的模型,并可以泛化到冷门和长尾ads上。在实际在线广告系统中使用CNN仍然是non-trival的。使用CNN进行offline end-to-end训练必须足够有效遵循随时间变化(time-varying)的在线分布,online serving需要广告系统的满足低时延要求。

另外,我们注意到,在电商中的可视化特征抽取与图片分类的setting有大不同。在分类任务中,categories会被看成是要预测的target。而在电商系统中,广告的categories会被明显地进行标记,它包含了丰富的可视化先验信息,可以帮助进行可视化建模。一些学术研究通过在CNN embeddings的top之上[7]构建category-specific投影矩阵进行集成,并将可视化features显式解耦成styles和categories。这些研究会共享一个公共的架构:visual和categorical knowledge的late fusion,然而,它对于CTR预测来说是sub-optimal。也就是说,image embedding模块很少会利用categorical knowledge。如果不知道ad category,通过这些CNNs抽取的embedding会包含与该category不相关的不必要features,从而浪费CNN的有限表达能力。相反,如果该ad category被集成其中,CNN只需要关注category-specific patterns,它会减轻训练过程

为了克服工业挑战,我们会同时为有效的end-to-end CNN training和低时延在线服务构建优化的基础设施。基于该有效地基础设施,为了充分利用电商中的labeled category,我们为CTR预测任务特别提出Category-specific CNN (CSCNN)。我们的关键思想是,以一个early-fusion的方式将category知识插入到CNN中。受SE-net、以及CBAM的启发,它会使用一个light-weighted self-attention模块来建模convolutional features间的相互依赖,CSCNN会进一步吸收ad category知识,并执行一个category-specific feature recalibration,如图2所示。更明显地,我们会接着使用category-specific channel和spatial attention modules来强调重要的以及与category相关的features。这些丰富的可视化特征对于CTR预测问题来说有巨大的效果增益。

总之,我们有以下的贡献:

  • 据我们所知,我们是在visual-aware CTR预测中首个对visual和non-visual features的late fusion的负面影响进行强调的。
  • 我们提出了CSCNN,为CTR预测特别设计了一个新的visual embedding模块。关键思想是组织category-specific channel和spatial self-attention来强调重要并且与category相关的特征。
  • 我们通过大量离线实验、以及AB test验证了CSCNN的有效性。我们验证了许多self-attention机制的效果,以及network backbones通过插入CSCNN来进行一致性提升。
  • 我们构建了高度有效地基础设施在real online电商广告系统中来使用CNN。在一天内100亿规模的真实产品数据集上,引入有效加速方法来对CNN完成end-to-end training,并满足在线系统的低时延需求(在CPU上20ms)。CSCNN已经被部署在JD的搜索广告系统中。

2.相关工作

2.1 CTR预测

2.2 CNN中的attention机制

attention机制是一个重要的feature selection方法,它可以帮助CNN来强调feature maps的重要部分,并抑制不重要的部分。spatial attention会告诉你关注where,而channel-wise attention则告诉你focus在what上。

在文献中,许多工作尝试从feature map中学习attention weights,称为“self-attention”。SOTA的算法称为CBAM, SE。除了self attention外,attention weights可以有额外的信息为条件,例如自然语言。成功应用的领域包括:language、image captioning以及可视化问答。

我们的工作受attention机制的启发。而非vision & language,我们设计了新的架构来使用attention机制来解决一个重要但长期忽略的问题:对于vision和non-vision feature的sub-optimal late fusion。我们同时将self-attention和attention conditioned on external information(称为:ad category)两者的优点相结合。作为结果,我们的图片embedding能够强调important和category相关的features。

3. JD中的CTR预测

我们首先review了3.1节中的CTR预测的背景。接着,我们描述了CTR预测系统的架构。我们会进一步挖掘新的visual modeling模块的细节。最终,我们会引入必要的加速策略来进行在线部署。表1中总结了相关概念。

3.1 先决条件

在在线广告工业界,一个ad会在一些contexts下被展示给一个user,该情景被记成一次曝光(impression)。CTR预测的目标是:在发生一次impression(ad, user, contexts)时,预测一次positive feedback(例如:click)的概率。准确的CTR预测直接有益于用户体验和商业效果,这使得该任务对于整个广告工业来说很重要。

CTR预测通常被公式化成二分类问题。特别的,它会从一个training set \(D = \lbrace (x_1, y_1), \cdots, (x_{\mid D \mid}, y_{\mid D \mid} )\rbrace\)中学习一个预测函数f: \(R^d \rightarrow R\),,其中\(x_i \in R^d\)是第i次impression的feature vector,\(y_i \in \lbrace 0,1 \rbrace\)是class label表示一个click是否发生。

目标函数被定义成负的log-likelihood:

\[l(D) = - \frac{1}{|D|} \sum\limits_{i=1}^{|D|} y_i log(\hat{y}_i) + (1-y_i)log(1-\hat{y}_i)\]

…(1)

其中,\(\hat{y}_i\)是predicted CTR,通过sigmoid \(\sigma\)归一化到(0, 1)中:

\[\hat{y}_i = \sigma(f(x_i))\]

…(2)

3.2 CTR预测系统的架构

我们现在描述了我们的CTR预测系统的架构,如图1所示。

图片名称

图1. CTR预测系统的架构。左下角:CSCNN,它会将一个ad image与它的category一起嵌入到一个visual feature vector \(x_v \in R^{150}\)中。注意,CSCNN只在offline下运行。而在online serving系统中,为了满足低时延需求,我们会使用一个高效的lookup table进行替代。右下角:non-visual feature embedding,从(ad, user, contexts)到一个non-visual feature vector \(x_{nv} \in R^{380}\)。TOP:主要架构,一个修改版的DCN,它会采用visual feature \(x_v\)和non-visual feature \(x_nv\)作为inputs。

3.2.1 DCN

DCN网络可以得到可靠的效果,它可以学到有效的特征交叉。这里,我们将DCN修改成两个inputs:

  • 一个non-visual feature vector \(x_{nv} \in R^{380}\)
  • 一个visual feature vector \(x_v \in R^{150}\)

visual feature被包含在deep net中。在layer 1中,我们将non-visual feature转换成1024维,并将它们与visual feature进行concatenate起来:

\[h_1 = [x_v, ReLU-MLP(x_{nv})] \in R^{150 + 1024}\]

…(3)

接着跟两个deep layers:

\[h_{l+1} = ReLU-MLP(h_l), l \in \lbrace 1, 2\rbrace, h_2 \in R^{512}, h_3 \in R^{256}\]

…(4)

cross net用于处理non-visual feature:

\[z_{l+1} = z_0 z_l^T w_l + b_l + z_l\]

…(5)

其中,对于layer \(l \in \lbrace 0, 1, 2\rbrace\),input \(z_0 = x_{nv}\)。

最终,我们会为predicted CTR组合outputs:

\[\hat{y} = \sigma(ReLU-MLP[h_3, z_3])\]

…(6)

3.2.2 Non-visual Feature Embedding

我们现在描述embedding layer会将一次impression(ad, user, contexts)的raw non-visual features转成vector \(x_{nv}\).

我们假设:所有features以categorical的形式进来(例如:binning,预处理后)。通常,一个categorical feature会以one-hot / multi-hot vector \(x_hot \in \lbrace 0,1 \rbrace^v\)的方式编码,其中v是该feature的vocab size。我们以如下方式展示两条样本:

1
2
WeekDay=Web  ==>  [0,0,0,1,0,0,0]
TitleWords=[Summer,Dress] ==> [..., 0,1,0, ..., 0,1,0...]

不幸的是,该one/multi-hot coding不能应用于工业界系统,因为高维稀疏性。我们在我们的系统上采用一个低维的embedding策略:

\[x_{emb} = E_{x_{hot}}\]

…(7)

其中:

  • \(E \in R^{d_e \times v}\)是对于该specific feature的embedding字典
  • \(d_e\)是embedding size

我们接着将\(x_{emb}\)的所有features进行concatenate来构建\(x_{nv}\).

实际上,我们的系统会使用来自用户的95个non-visual features(历史点击/购买,location),ads(category, title, #reviews等)以及rich contexts(query words, visit time等),总共有70亿vocab。设置\(d_e = 4\),总的维度是95 x 4 = 380. 我们将进一步引入features和其它statistics。

3.3 Category-Specific CNN

converntional预测系统大多数使用off-the-shelf CNN来嵌入ad图片。我们将它称为“off-the-shelf”,是因为它原始是用来分类设计的,而不是CTR预测。他们将image category看成是要预测的target,而非inputs。这实际上在电商平台上是一个巨大的浪费,因为:categories会被精准标记,并包含丰富的可视化先验知识,可以用于visual modeling。

我们针对CTR预测通过提出一种新的CNN(Category-Specific CNN)来解决该问题,它会嵌入一个ad图片m,并与ad category \(k \in K\)一起concat到visual feature \(x_v\)上。特别的,category prior knowledge被编码成category embeddings(与CTR模型联合训练),并使用一个conditional attention机制来包含CNN。

理论上,CSCNN可以被用来在任意网络中当做任意的convoluation layer。在我们的系统中,我们插入CSCNN到ResNet18.

3.3.1 单个convolutional layer上的框架

对于每个category k以及每个convolutional layer l,CSCNN会学习一个 tensor \(A_c^k \in R^{1 \times 1 \times C'}\),它会为该layer编码category prior knowledge在channel-wise attention上的影响。我们会出于简洁性,忽略subscript l。框架如图2所示。

图片名称

图2 我们提出的Category-Specific CNN框架。注意CSCNN可以被添加到任意单个convolutional layer上,但出于简单演示,我们只展示了单个layer的细节。TOP:一个将category映射到category prior knowledge的map,它会影响channel-wise & spatial attentions。Bottom:F是当前convolutional layer上的output feature map。通过顺序使用channel-wise和spatial attention进行refined,新的feature map F’‘被当成下一layer的input使用

给定一个intermediate feature map \(F \in R^{H \times W \times C}\),convolutional layer l的output,CSCNN会首先学习一个channel attention map \(M_c \in R^{1 \times 1 \times C}\),它基于当前feature map和category为条件。接着,channel-wise attention会被乘上feature map来获得一个Refined feature map \(F' \in R^{H \times W \times C}\),

\[F' = M_c (F, A_c^k) \odot F\]

…(8)

其中,\(\odot\)表示与\(M_c\)的element-wise product,它沿着spatial维度\(H \times W\)进行广播。

相似的,CSCNN也会学到另一个tensor \(A_s^k \in R^{H \times W \times 1}\),它会为spatial attention \(M_S \in R^{H \times W \times 1}\)对category prior knowledge进行编码。这两个attention模块被顺序用来获得一个3D的refined feature map \(F'' \in R^{H \times W \times C}\):

\[F'' = M_s(F', A_s^k) \odot F'\]

…(9)

其中,spatial attention会在element-wise product之前沿着channel维度进行广播。一个实际的关注点是,在\(A_s^k\)中存在大量参数,尤其是在前几层。为了解决该问题,我们提出只学习一个更小的tensor \(A_s^{'k} \in R^{H' \times W' \times 1}\),其中\(H' << H\)以及\(W' << W\),接着通过线性插件(linear interpolation)将它进行resize到\(A_s^k\)。\(H'\)和\(W'\)的作用会在后面实验结果进行讨论。注意,\(A_s^k\)和\(A_c^k\)会随机初始化并在训练期间学习,除category id外不需要额外的category prior knowledge。

channel-wise和spatial attention两者都被重新定义后,\(F''\)会被fed给下一layer。注意,CSCNN会被添加到任意CNNs上,通过只将input的F替代成next layer的\(F''\)。

3.3.2 category-specific channel-wise Attention

channel-wise attention会告诉要关注”what”。除了之前的inter-channel关系外,我们也会利用category prior knowledge和features间的关系(图3)。

图片名称

图3

为了收集spatial信息,我们首先将F的spatial dimension通过max和average pooling进行挤压(squeeze)。采用两者的优点由CBAM的实验所支持验证。两个squeezed feature maps接着与category prior knowledge \(A_c^k\)进行concatenated一起,并通过一个共享的two layer MLP进行forward传递,将维度从\(1 \times 1 \times (C + C')\)减小到\(1 \times 1 \times C\)上。最终,我们通过element-wise summation进行合并。

\[M_c(F, A_c^k) = \sigma(MLP[Avg P(F), A_c^k] + MLP[MaxP(F), A_c^k])\]

…(10)

3.3.3 Category-specific Spatial Attention

我们的spatial attention module如图3(bottom)。Spaital attention会通过利用features的inter-spatial关系,告诉需要关注哪里。受CBAM的影响,我们首先通过average pooling和max pooling沿着channel的维度聚合feature map \(F'\)的channel-wise信息。为了包含category prior knowledge,这两者接着与\(A_s^k\)进行concatenate一起来形成一个\(H \times W \times 3\)维度的feature map。最终,该feature map通过一个\(7 \times 7\)的convolutional filter进行传递来获得attention weights。

\[M_s(F', A_s^k) = \sigma(Conv_{7 \times 7}(Max P(F'), Avg P(F'), A_s^k))\]

…(11)

3.3.4 复杂度分析

注意,CSCNN实际上是一个轻量级module。特别的,我们在表2中展示了Baseline、CBAM以及我们的算法在参数数目和giga floating-point operations(GFLOPs)上的对比。

我们设轩\(C \in \lbrace 64, 128, 256, 512 \rbrace, C'=20\),瓶颈下降至4, #categories \(\mid K \mid =3310\)(表7中的real production dataset)。在CBAM中的每个convolutional yer中的“shared FC”中,参数数目是\(2 * C * C / 4\)。对于CSCNN,FC中的参数数目和channel category embedding是\(C * C / 4 + (C + C')*C/ 4 + C' * \mid K \mid\)。在channel attention中,参数数目的增加对比CBAM是1个conv layer为67-69k。另外,\(W' = H' = 6\),在spatial attention中的额外参数数目是\(W' * H' * \mid K \mid + 6 * 6 \approx 120k\)。因此,总参数的增加为(120k + 68k) * 16 layers = 3.0M。额外的参数引入是可接受的,对比CBAM,额外计算只有0.03%。

3.4 系统部署

我们在搜索广告系统部署了CSCNN。图4描述了我们在线模型系统的架构。

图片名称

图4

3.4.1 offline training

CSCNN会与整个CTR prediction系统进行jointly train,最近32天收集的100亿规模的直实数据集。在我们之前的调查中,CNN是训练期间的关键计算瓶颈。采用ResNet18 network,它的input pic size为224 x 224,单机4个P40 GPUs只能每天训练1.77亿图片。这意味着在分布式训练中加速CSCNN,我们需要226 P40 GPUs来计算1天内的100亿曝光,这很昂贵。为了加速,我们采用[2]中的sampling strategy。具有相同的ad的大约25个曝光(impressions)会收集成一个batch。一张图片的image embedding只需要管理一次,并在该batch中传播给多次曝光。有了28张P40 GPUs后,训练可以在1天内完成。

3.4.2 Offline inferring

images和categories会被feed到一个well trained CSCNN中来infer那些visual features。Fearures会传到一个lookup table中,接着在predictor memory中加载来替换CSCNN。在维度减小和频控后,一个20GB的lookup table可以覆盖超过下一天曝光的90%。

3.4.3 Online serving

一旦收到请求,visual features会直接从lookup table根据ad id进行发现。predictor会返回一个estimated CTR。在流量高峰中,每秒有超过3亿的items的吞吐量,我们的CPU online serving系统的tp99 latency会在20ms以下。

4.实验结果

参考

google(google play)《Mixed Negative Sampling for Learning Two-tower Neural Networks in Recommendations》中提出了Mixed Negative Sampling。

3.模型框架

在本节中,我们首先提出:对于retrieval任务的large-corpus推荐系统中的一个数学表示。我们接着提出一个two-tower DNN的建模方法,并描述了如何使用in-batch negative sampling来训练模型。最后,我们介绍了Mixed Negative Sampling (MNS) 技术来解决batch negatives的选择偏差(selection bias)。

3.1 问题公式

在推荐系统中的检索任务,目标是:给定一个query,从整个item corpus中,快速选择数百到上千的候选内容。特别的,一个query可以是一个文本、一个item(比如:一个app)、一个user,或者它们的一个混合形式。这里,queries和items可以被表示成feature vectors,用于捕获多样的信息。我们将检索问题看成是一个多分类问题,从一个large corpus(classes) C中选择一个item的likelihood可以被公式化成一个softmax probability:

\[P(y | x) = \frac{e^{\epsilon(x,y)}}{\sum_{j \in C} e^{\epsilon (x, y_i)}}\]

…(1)

其中:

  • \(\epsilon(x,y)\)表示由retrieval model提供的logits,feature vectors x和y分别表示query和item。

3.2 建模方法

我们采用一个two-tower DNN模型结构来计算logits \(\epsilon(x,y)\)。

图片名称

图1 双塔结构

如图1所示,left tower和right tower会分别学习query和item的latent representations。正式的,我们通过函数\(u(x; \theta)\)和\(v(y; \theta)\)来分别表示两个towers,它们会将query features x和item features y映射到一个共享的embedding space上。这里\(\theta\)表示所有的模型参数。该模型会输出query和item embeddings的内积作为等式(1)中的logits:

\[\epsilon(x, y) = <u(x;\theta), v(y;\theta)>\]

出于简单,我们会:

  • u表示成一个给定query x的的embedding
  • \(v_j\)表示从corpus C中的item j的embedding

对于一个\(\lbrace query(x), item(y_l, postive \ label) \rbrace\)pair的cross-entropy loss变为:

\[L = - log(P(y_l | x)) = - log(\frac{e^{<u, v_l>}}{\sum_{j \in C} e^{<u, v_j>}})\]

…(3)

对等式(2)根据参数\(\theta\)做梯度,给出:

\[\nabla_{\theta} (- log P(y_l | x)) \\ = - \Delta_{\theta}(<u, v_l>) + \sum\limits \frac{e^{<u,v_j>}}{\sum_{j \in C} e^{<u, v_j>}} \nabla_{\theta}(<u, v_j>) \\ = - \nabla_{\theta}(<u, v_l>) + \sum\limits_{j \in C} P(y_j | x) \Delta_{\theta}(<u, v_j>)\]

第二项表示:\(\nabla_{\theta}(<u, v_j>)\)是对于\(P(\cdot \mid x)\)(指的是target分布)的期望(expectation)。通常在大的corpus上对所有items计算第二项是不实际的。因此,我们会通过使用importance sampling的方式抽样少量items来逼近该期望(expectation)。

特别的,我们会从corpus中使用一个预定义分布Q来抽样一个items子集\(C'\),其中\(Q_j\)是item j的抽样概率(sampling probability),并用来估计等式(3)中的第二项:

\[E_P [\nabla_{\theta}(<u, v_j>)] \approx_{j \in C'} \frac{w_j}{\sum_{j' \in C'} w_{j'}} \nabla_{\theta}(<u, v_j>)\]

…(4)

其中,\(w_j = e^{<u, v_j> - log(Q_j)}\)会包含用于sampled softmax中的logQ correction。

双塔DNN模型的一个常用sampling策略是:batch negative sampling。特别的,batch negative sampling会将在相同training batch中的其它items看成是抽样负样本(sampled negatives),因此sampling分布Q会遵循基于item频次的unigram分布。它可以避免feed额外的负样本到右塔,从而节约计算成本。图2展示了在一个training batch上的计算过程。给定在一个batch中有B个{query, iitem} pair,B个queries和B个items的features会分别经过该模型的左塔和右塔。产生\(B X K\)(K是embedding维度)的embedding matrix U和V。接着,logits matrix可以被计算为\(L = U V^T\)。由于batch negative sampling会极大提升训练速度,我们会在下节中讨论它的问题,并提出一个可选的sampling策略。

图片名称

图2

3.3 Mixed Negative Sampling

控制梯度估计的bias和variance对于模型质量来说很重要。有两种方式来减小bias和variance:

  • (1) 增加sample size
  • (2) 减少在Q分布和target分布P间的差异

在训练两塔DNN模型的情况下,batch negative sampling会隐式设置采样分布Q为unigram item frequency分布。它在推荐场景下有两个问题:

  • (1) 选择偏差:例如,一个没有任何用户反馈的item不会包含在训练数据中作为一个candidate app。因而,它不会被batch negative sampling抽样成一个负样本。因此,该模型不能有效区分具有稀疏反馈的items 与 其它items。
  • (2) 缺乏调整抽样分布的灵活性:隐式采样分布Q由训练样本决定,不能被进一步调整。Q与target分布P偏离,会导致巨大bias。

我们提出了Mixed Negative Sampling (MNS) 来解决该问题。它会从另一个数据流中均匀抽样\(B'\)个items。我们将这额外数据流称为index data,它是一个由来自整个corpus的items组成的集合。这些items对于每个batch来说会当成额外负样本使用。图3展示了一个training batch的计算过程。

图片名称

图3

除了\(B \times K\)的query embedding matrix \(U_B\)外,\(B \times K\) candidate item embedding matrix \(V_B\),均匀从index data中抽样的\(B'\)个candidate items会被feed到右塔来生成一个\(B' \times K\)个candidate item embedding matrix \(V_B'\)。我们将\(V_B\)和\(V_B'\)进行拼接来获得一个\((B + B') \times K\)个candidate item embedding matrix V。事实上,我们具有\(B \times (B + B')\)个logits matrix \(L = U V^T\)。label matrix因此变成\(B \times (B + B')\),具有一个所有都为0的\(B \times B'\)的matrix会append到原始的\(B \times B\)的对角矩阵上。相应的,一个training batch的loss function:

\[L_B \approx - \frac{1}{B} \sum\limits_{i \in [B]} log(\frac{e^{<u_i, v_i>}}{e^{<u_i, v_i>} + \sum\limits_{j \in [B+B'], j \neq i} w_{ij}})\]

…(5)

其中:

\(w_{ij} = e^{<u_i, v_j> - log(Q_j^*)}\),\(u_i\)是U的第i行,\(v_j\)表示V的第j行。这里的抽样分布\(Q^*\)变成是一个关于基于unigram sampling的item frequency和uniform sampling的混合形式,有一个关于batch size B和\(B'\)间的ratio。

MNS会解决以上与batch softmax有关的两个问题:

  • (1) 减少选择偏差(selection bias):在corpus中的所有items具有一个机会作为负样本,以便retrieval model可以更好分辩新鲜和长尾的items
  • (2) 在控制sampling分布时使得更灵活:有效采样分布Q是一个来自training data基于unigram分布的item freqeuncy和来自index data的uniform分布的mixture。对于一个固定的batch size B,我们可以通过调节\(B'\)来实验不同的Q。这里的\(B'\)可以作为一个超参数进行调节。

参考