阿里在《CAN: Feature Co-Action for Click-Through Rate Prediction》中提出了CAN模型:

3.CTR预估中的特征交叉

在广告系统中,一个user u在一个ad m上的点击的predicted CTR \(\hat{y}\)计算如下:

\[\hat{y} = DNN(E(u_1), \cdots, E(u_I), E(m_1), \cdots, E(m_J))\]

…(1)

其中:

  • \(U= \lbrace u_1, \cdots, u_I\rbrace\)是包含了user features的集合,包含了:浏览历史、点击历史、user profile feature等。
  • \(M=\lbrace m_1, \cdots, m_J \rbrace\)是:items features的集合
  • User和Item features通常是unique IDs
  • \(E(\cdot) \in R^d\)表示size d的embedding,它会将sparse IDs映射到可学习的dense vectors上作为inputs DNNs。

除了这些一元项(unary terms)外,之前的工作会将feture interaction建模成二元项(binary terms)

\[\hat{y} = DNN(E(u_1), \cdots, E(u_I), E(m_1), \cdots, E(m_J), \lbrace F(u_i, m_j)\rbrace_{i \in [1,\cdots, I], j \in [1, \cdots, J]})\]

…(2)

其中:

  • \(F(u_i, m_j) \in R^d\)表示了user feature \(u_i\)和item feature \(m_j\)之前的交叉。

模型可以从feature interaction受益,因为会存在feature共现性,如之前的示例:“啤酒与尿布”。因此,如何有效建模feature interaction对提升效性非常重要。

在仔细回顾之前方法,可以发现:不管是将feature interaction可以作为weights,还是同时学习隐式相关性和其它目标(满意度等),都会产生不满意的结果。学习feature interaction的最直接方式是:将特征组合(feature combinations)作为新特征,并为每个特征组合直接学习一个embedding,例如:笛卡尔积(catesian product)。笛卡尔积可以提供独立的参数空间,因此对于学习co-action信息来提升预估能力来说足够灵活。

然而,存在一些严重缺点。

  • 首先:存在参数爆炸问题。笛卡尔积的参数空间会产生size N的两个features,可以从\(O(N \times D)\)展开成\(O(N^2 \times D)\),其中:D是embeddings的维度,它会对在线系统带来主要开销。
  • 另外,由于笛卡尔积会将<A,B>和<A,C>看成是完全不同的features,在两个组合间没有信息共享,这也会限制representation的能力。

考虑到笛卡尔积和计算的服务有效性,我们会引入一种新方式来建模feature interaction。如图2(a)所示,对于每个feature pair,它的笛卡尔积会产生一个新的feature和相应的embedding。由于不同的feature pairs会共享相同的feature,在两个feature pairs间存在一个隐式相似度,这在笛卡尔积下会被忽略。如果隐式相似度可以被有效处理,在这些pairs间的feature interaction可以使用更小的参数规模进行有效和高效建模。受笛卡尔积的独立编码的启发,我们首先会将embedding的参数和feature interaction进行区分,以便避免相互干扰。考虑DNNs具有强大的拟合能力,我们会设计一个co-action unit,它可以以一个micro-network的形式对feature embeddings进行参数化。由于不同的feature pairs会共享相同的micro-network,相似度信息会被学到,并自然地存储到micro-network中,如图2(b)所示。

图片名称

图2 从cartesian product到co-action network的演进,其中,A,B,C与D表示4种feature。\(N_A, N_B, N_C, N_D\)分别表示A,B,C,D的特征数目。h是feature embedding的维度,d是从co-action unit的output的维度。在图中,我们使用A与其它3个features进行交叉

4.Co-Action Network

在本节中,我们提出了CAN来有效捕获feature interaction,它会首先引入一个可插入的模块,co-action unit。该unit对于embedding和feature interaction learning的参数会进行区别。特别的,它会由来自raw features的两个side info组成,例如:induction side和feed side。induction side被用于构建一个micro-MLP,而feed side为它提供input。另外,为了提升更多非线性,以及深度挖掘特征交叉,多阶增强和multi-level独立性会被引入。

4.1 结构总览

CAN的整个结构如图3所示。

图片名称

图3 Co-Action Network的整体框架。给定target item和user features,embedding layer会将sparse features编码成dense embeddings。一些选中的features会被划分成两部分:\(P_{induction}, P_{feed}\),它它是co-action unit的组成部分。\(P_{induction}\)会将micro MLP进行参数化,\(P_{feed}\)则作为input使用。co-action unit的output,会与公共feature embeddings一起,被用来做出最终的CTR预估

一个user和target item的features U和M被会以两种方式feed到CAN中。

  • 第一种方式下,他们会使用embedding layer被编码成dense vectors \(\lbrace E(u_1), \cdots, E(u_I)\rbrace\) 和 \(\lbrace E(m_1), \cdots, E(m_J) \rbrace\),并分别进一步cancatenated成\(e_{item}\)和\(e_{user}\)。
  • 第二种方式下,我们会从U和M中选择一个subset \(U_{feed}\)和\(M_{induction}\),使用co-action unit来建模特征交叉:\(\lbrace F(u_i, m_j) \rbrace_{u_i \in U_{feed}, \ m_j \in M_{induction} \ }\)。

co-action unit的详细解释会在下一节详细介绍,CAN的公式如下:

\[\hat{y} = DNN(e_{item}, e_{user}, \lbrace F(u_i, m_j)\rbrace_{u_i \in U_{feed}, \ m_j \in M_{induction} \ }| \theta)\]

…(3)

其中:

  • \(\theta\)表示在模型中的参数,
  • \(\hat{y} \in [0, 1]\)是点击行为的预估概率

click信息的ground truth被表示为\(y \in \lbrace 0, 1 \rbrace\)。我们最终对prediction\(\hat{y}\)和label \(y\)间的cross-entropy loss function进行最小化:

\[\underset{\theta}{min} -y log(\hat{y}) - (1-y) log(1-\hat{y})\]

…(4)

4.2 Co-Action Unit

总的来说,co-action unit为每个feature pair提供一个独立MLP,称为micro-MLP,它的输入有:由feature pair提供的带weight、bias、MLP的input。

  • 对于一个指定的user feature ID \(u_{o'} \in U_{feed}\),我们使用参数查询(parameter lookup)来获得可学习参数 \(P_{induction} \in R^{D'}\),
  • 而对于item feature ID \(m_o \in M_{induction}\)对应获取的是\(P_{feed} \in R^D (D < D')\)

接着,\(P_{indction}\)会被reshape,为micro-MLP划分成weight matrix和bias vector。该process可以公式化成:

\[||_{i=0}^{L-1} (w_i \| b_i) = P_{induction} \\ \sum\limits_{i=0}^{L-1} (|w_i| + |b_i| = |P_{induction}| = D')\]

…(5)(6)

其中:

  • \(w_i\)和\(b_i\)表示micro-MLP的第i个layer的weight和bias
  • \(\|\)表示concatenation操作
  • L决定了micro-MLP的深度
  • \(\mid \cdot \mid\)则可以获得变量的size

该过程的可视化如图3左侧所示。

图片名称

图3左

\(P_{feed}\)接着被feed到micro-MLP,特征交叉可以通过每个layer的output的concatentation来实现

\[h_0 = P_{feed} \\ h_i = \sigma(w_{i-1} \bigotimes h_{i-1} + b_{i-1}), i=1,2,\cdots, L \\ F(u_{o'}, m_o) = H(P_{induction}, P_{feed}) = ||_{i=1}^L h_i\]

…(7)(8)(9)

其中:

  • \(\bigotimes\)表示了矩阵乘法
  • \(\sigma\)表示activation function
  • H表示co-cation unit,它具有vector input \(P_{induction}\)和\(P_{feed}\),而非使用原始符法F,它的inputs是features \(u_{o'}\)和\(m_o\)。

对于序列features,比如:用户行为历史 \(P_{seq} = \lbrace P_{b(t)} \rbrace_{t=1}^T\),co-action unit会被应用到每个点击行为上,在序列后跟着一个sum-pooling

\[H(P_{induction}, P_{seq}) = H(P_{induction}, \sum\limits_{t=1}^T P_{b(t)})\]

…(10)

在我们的实现中,\(P_{induction}\)会获得来自item features的信息,而\(P_{feed}\)则来自user features。然而,\(P_{feed}\)可以充当micro-MLP的参数,\(P_{induction}\)也一样。经验上,在广告系统中,candidate items是所有items的很小一部分,他们的数目要小于在用户点击历史中的items。这里,我们选择\(P_{induction}\)作为micro-MLP参数来减小总参数量,它使得学习过程更容易且稳定

注意:micro-MLP layers的数目依赖于学习的难度。经验上,一个更大的feature size通常需要更深的MLP。实际上,FM可以被看成是CAN的一个特殊case,其中:micro-MLP是一层的1xD matrix,没有bias和activation function。

对比其它方法,提出的co-action unit具有至少三个优点:

  • 首先,之前的工作使用的都是关于inter-field交叉的相同的latent vectors,而co-action unit则使用micro-MLP的计算能力,将两个组成特征\(P_{induction}\)和\(P_{feed}\)进行动态解耦,而非使用一个固定的模型,这提供了更多的能力来保证:两个field features的分开更新。
  • 第二,可以学习一个更小规模的参数。例如:考虑上具有N个IDs的两个features,笛卡尔积的参数规模可以是:\(O(N^2 \times D)\),其中,D是embeddings的维度。然而,通过使用co-action unit,该scale会递减到\(O(N \times (D' + D))\)上,而\(D'\)是在co-aciton unit中的\(P_{induction}\)的维度。更少参数不仅有助于学习,也可以有效减小在线系统的开销。
  • 第三,对比起笛卡尔积,co-action unit对于新的特征组合具有一个更好的泛化。对比起笛卡尔积,给定一个新的特征组合(feature combination),只有在这之前,只要两侧embeddings在这之前被训练,co-action unit仍能工作。

4.3 多阶增强

之前的feature基于1阶features形成。然而,特征交叉可以通过高阶进行估计。考虑到micro-MLP的非线性,尽管co-action unit可以隐式学习高阶特征交叉,因为特征交叉的稀疏性导致学习过程很难。结尾处,我们会显式引入高阶信息来获得一个多项式输入。可以通过使用micro-MLP到\(P_{feed}\)的 不同阶上来实现

\[H_{Multi-order}(P_{induction}, P_{feed}) = \sum\limits_{c=1}^C H(P_{induction}, (P_{feed})^C)\]

…(11)

其中:

  • C是orders的数目

我们使用tanh来避免由高阶项带来的数目问题。多阶增强可以有效提升模型的非线性拟合能力,没需带来额外的计算和存储开销

4.4 Multi-Level独立性

学习独立性是特征交叉建模的一个主要关注点。为了确保学习的独立性,我们提出了一种基于不同角度的3-level策略。

第一层,参数独立性,它是必需的。如4.2节所示,我们的方法会解决representation learning的更新和特征交叉建模。参数独立性是CAN的基础。

第二层,组合独立性,推荐使用。特征交叉会随着特征组合数目的增加而线性增长。经验上,target item features,如:“item_id”和”category_id”会被选中作为induction side,而user features则作为feed side。由于一个induction side micro-MLP可以使用多个feed sides进行组合,并且反之亦然,我们的方法可以轻易扩大模型指数的表达能力。

图片名称

图4 组合独立性的演示

如图4所示,正式的,如果induction和feed sides具有Q和S个分组,特征交叉组合应满足:

\[|P_{induction}| = \sum\limits_{s=1}^S \sum\limits_{i=0}^{L_s - 1} (| w_i(s) | + | b_i(s) | ) \\ |P_{feed}| = \sum\limits_{q=1}^Q | x(q) |\]

…(12)(13)

其中,\(\mid x(q) \mid\)是第q个micro-MLP的input维度。在forward pass中,特征交叉被划分成几个部分来满足每个micro-MLP。

第3个level,阶数独立性,它是可选的。为了进一步提升特征交叉建模在多阶输入的灵活性,我们的方法会为不同orders做出不同的induction side embedding。然而,与等式(12)相似这些embedding的维度对于增加C倍。

multi-level独立性帮助特征交叉建模,同时,会带来额外的内存访问和开销。这需要在independence level和部署开销间进行tradeoff。经验上,模型使用越高的independence level,需要训练更多训练数据。在我们的实际系统中,independence的3个levels会被使用;而在公共数据集中,由于缺少训练样本,只有参数独立性会使用。

5. 实验

美团在《AutoFAS: Automatic Feature and Architecture Selection for Pre-Ranking System》中提出了AutoFAS的做法:

1.摘要

工业界搜索和推荐系统大多数遵循经典的multi-stage IR范式:matching、preranking、ranking和reranking stages。为了对系统效率负责,简单的vector-product based模型常被部署到preranking stage中。大多数工作会考虑将大的ranking模型的知识蒸馏到小的preranking模型中以便得到更好的效果。然而,在preranking系统中存在两个主要挑战:

  • i) 无法显式建模效果增益 vs. 计算开销,预定义的延迟限制会导致次优解
  • ii) ,将ranking teacher的知识转移一个预先手工制作的结构到的preranking student中,仍会有模型效果的损失

在本工作中,提出了一个新的框架AutoFAS,它会联合优化preranking模型的效率和效果:

  • i) AutoFAS首先同步选择大多数有价值的features,网络结构使用NAS技术(Neural Architecture Search)
  • ii) 在NAS过程中使用ranking model进行指导收益,对于一个给定的ranking teacher,AutoFAS可以选择最好的preranking架构,无需任何计算开销

在真实世界搜索系统中的实验结果,展示了AutoFAS的效果要比SOTA的方法更好,并且开销更低。注意,我们的模型已经在美团的搜索系统的preranking模块上使用,取得了巨大提升。

1.介绍

2.相关工作

3.方法

我们的工作构建在NAS(neural architecture search)之上,因而我们首先介绍下该主题。接着给出preranking的介绍以及详细介绍我们的方法。

Neural network设计通常需要人工专家们的大量经验。在最近几年,在研究算法NAS解决方案来将结构设计过程由人工转向自动化上取得了大量关注【1,15,37】。一些工作【1,22】尝试通过共享跨模型权重来提升搜索空间,它会进一步划分成两类:

  • continuous relaxation方法【3,17】
  • One-Shot方法 【2,8】

基本上,我们遵循weight sharing方法,它包含了三个steps:

  • (1) 设计一个过参数化网络(overparameterized network),因为搜索空间包含了每个候选结构
  • (2) 在training set或held-out validation set上直接作出结构决策
  • (3) 对大多数有希望的结构从头到尾进行retrain,并在test set上验证它们的效果;

注意,在我们的场景和之前的结果间有一个大的不同之处是:我们需要同时联合搜索特征和结构

3.2 搜索和推荐系统介绍

搜索和推荐系统的整体结构如图1所示。基本上,matching stage会从用户的动作历史、以及当前query中取出事件(如果存在)作为input,并从一个大的corpus(上百万)检索出一个小的items子集(上千)。这些与用户相关的候选通常具有适度准确性。接着,preranking stage会提供更大的个性化,过滤出具有高precision和高recall的近千个top items。一些公司会选择组合matching和preranking stages,比如Youtube【6】。接着,复杂的ranking network会根据期望的objective function,使用丰富的特征,为每个item分配一个score。在没有reranking的情况下,具有最高得分的items会根据得分排序展示给用户。通常,preranking会共享相似的ranking功能。最大不同点依赖于问题的scale。直接在preranking系统中使用ranking模型会面临计算开销问题。如何对模型效果和计算开销进行权衡是设计preranking的核心问题。

图片名称

图1

3.3 美团Preranking的历史

之前提到,preranking模块可以被看成是一个在matching和ranking间的transition stage。在Meituan的主搜索上,它会接受来自matching阶段的上万个候选,并过滤出数百个结果给到ranking阶段。我们的底层preranking架构的演进:双塔模型、GBDT、当前的DNN模型。随着效果提升,大量的计算复杂度和大量存储使得它面临着更大的挑战。我们的online inference engine的瓶颈主要面临两部分:

  • 从database的特征检索(feature retrieve)
  • DNN inference

特征选择和神经网络结构选择对于成功部署高效且有效的preranking模型来说非常重要。

3.4 在Preranking中的特征选择和结构选择

我们的方法背后的一个关键动机是:我们应该联合构建preranking model以及ranking model,以便ranking model的知识可以自动指导我们为preranking model去发现最有价值的features和architechtures。因而,我们不会采用独立训练preranking models,而是会联合构建preranking model和常规的ranking model。我们首先描述了search space的构建,接着介绍:如何利用feature和architecture参数来搜索最有价值的features和architectures。

最终,我们会展示我们的技术来处理延迟以及KD-guided reward。

搜索空间

如图2所示,图的左半边是我们的ranking网络,而右半边是过参数化网络,它包含了所有的候选preranking models。这两部分会共享相同的input features \(F = \lbrace f_1, f_2, \cdots, f_M \rbrace\)。在我们的setup中,F主要包含了user features、item features以及interactive features。我们会使用所有的M个feature inputs来训练ranking model,接着将ranking model的大部分features进行归零(zero out)来评估它们的重要性,从而选出最好的特征组合

图片名称

图2 AutoFAS框架的网络结构。AutoFAS由两部分组成。左边子网络是:我们的具有feature mask module的常规ranking network。由于Meituan的搜索引擎会服务多个业务,它们具有重合的user groups和items,我们的ranking model具有multi-partition结构。右边子网络包含了L个Mixops,它包含了所有候选preranking结构。在每个Mixop中的最强operator会以黑色标注,构成了preranking model的最终结构。

与feature selection并行的是,我们需要搜索最优结构。假设O是一个building block,它包含了N个不同的候选操作符:\(O= \lbrace O_1, O_2, \cdots, O_N \rbrace\)。在所有case中,\(O\)包含了零操作符(zero operator)或具有多个hidden units的MLP。零操作符(zero operator)会保持input与output相同。一些参考里也将它称为等同操作符(identity operator)。注意,零操作符允许layers数目的减少。其它操作符比如外积、点乘可以被相似抽象并集成到框架中,这留给后续探讨。为了构建over-parameterzied network(它包含了每个候选结构),而非设置每个edge(网络连接)是一个明确的原始操作(definite primitive operation),我们设置每个edge(网络连接)是一个具有N个并行路径(paralled paths)的mixed operation(Mixop),表示为\(m_O\)。接着,我们的over-parameterzied network可以被表示为\(N(e_1 = m_O^1, \cdots, e_L = m_O^L)\),其中L是Mixops的总数。

Feature和Architecture参数

为了选择大部分有效的features,我们会引入M个real-valued mask参数\(\lbrace \theta_i \rbrace_{i=1}^M\),其中M是涉及的features数目。不像[5]中会对每个weights进行二值化(binairzes),我们会将整个feature embedding进行二值化。这里,每个feature \(f_i\)的独立的mask \(g_i\)会被定义成以下的Bernoulli分布:

\[g_i = \begin{cases} [1, \cdots, 1], & \text{with probability $\theta_i$} \\ [0, \cdots, 0], & \text{with probability $1-\theta_i$} \end{cases}\]

…(1)

其中:1s和0s的维度通过\(f_i\)的embedding维度来决定。会为样本的每个batch抽样M个独立Bernoulli分布结果。由于binary masks \(\lbrace g_i \rbrace_{i=1}^M\)会涉及计算图,feature参数\(\lbrace \theta_i \rbrace_{i=1}^M\)可以通过BP进行更新。

根据结构参数,我们会展示:在给定Mixop i的N个路径的outputs下,如何获得Mixop \(i+1\)的N个outputs?

图片名称

图3 一个示例:通过递归方式计算每个Mixop的期望延迟。以上式中的\(T_{1024 \times 1024}\)为例。它意味着,一个multi-layer perceptron的延迟,具有输入维度1024和输出维度1024。它通过对我们的搜索引擎的真实请求进行回放(replay)到该特定网络结构中进行统计。图中的每个p是由等式(2)的operator strength

如图3所示,Mixop i的路径表示为\(m_O^i = \lbrace O_1^i, O_2^i, \cdots, O_N^i\rbrace\),我们会介绍N个real-valued结构参数\(\lbrace \alpha_j^{i+1} \rbrace_{j=1}^N\)。接着,Mixop \(i+1\)的第k个output计算如下:

\[O_k^{i+1} = \sum_{j=1}^N p_j^{i+1} MLP_j^k(O_j^i) \\ = \sum\limits_{j=1}^N \frac{exp(\alpha_j^{i+1})}{\sum_{m=1}^N exp(\alpha_m^{i+1})} MLP_j^k(O_j^i)\]

…(2)

其中:

  • multi-layer perceptron \(MLP^k\)具有相同的units数目\(O_k^{i+1}\)
  • \(p_j^{i+1} := \frac{exp(\alpha_j^{k+1})}{\sum_{m=1}^N exp(\alpha_m^{i+1})}\)可以被看成是在Mixop i+1中的第j个operator

在这种continuous relaxation后,我们的目标是:在所有mixed op中联合学习结构参数以及weight参数。

Latencey Constraint

除accuracy外,当设计preranking系统时,latency(not FLOPs或embedding维度)是另一个非常重要的目标。为了让latency不同,我们会将一个网络的latency建模为一个关于neural network结构的continous function。在我们的场景中,存在两个因子:feature相关的latency和结构相关的latency。features可以被进一步从latency的角度划分成两个类别:从matching stage传来过的、以及从in-memory dataset中检索过来的,分别表示成 \(F_1\)和\(F_2\)。如上,我们有关于一个指定特征\(f_i\)的期望latency

\[E[latency_i] = \theta_i \times L_i\]

…(3)

其中:

  • \(L_i\)是返回时间(return time),它可以被服务器记录。

接着,\(E[latency_i]\)的随结构参数的梯度可以给定:\(\frac{\partial E[latency_i]}{ \partial \theta_i} = L_i\)。接着,期望的feature相关latencey可以以如下方式计算:

\[E[latency] = max_{f_i \in F_1, f_j \in F_2} (E[latency_i] + \beta \cdot |F_1|, E[latency_j] + \gamma \cdot |F_2|)\]

…(4)

其中:

  • \(F_k\)表示了在\(F_k, k=1, 2\)的features数目
  • \(\beta, \gamma\)影响着底层系统的不同并发数,可以由经验决定

我们将这种expected feature latency包含到常规loss function中,乘以一个scaling因子\(\lambda\),它会控制着在accuracy和latency间的tradeoff。对于feature selection的最终的loss function为:

\[Loss_1 = Loss_{Ranking} (y, f(X; \theta, W_{Ranking})) + \lambda E[latency]\]

…(5)

其中,f表示ranking network。

相似的,对于Mixop i+1的结构latency,我们可以通过递归来计算它的expected latency \(E[latency^{'i+1}]\),如图3的右图所示。由于这些ops可以在inference期间按顺序执行,preranking network的expected latency可以被表示为last Mixop的expected latency:

\[E[latency'] = E[latency'^{L}]\]

Ranking系统的监督

知识蒸馏(KD),会将teacher model的泛化能力转移给student model,受广泛关注。而在监督学习中的常规的one-hot label被限定在0/1 label内,从teacher model的soft probability output会对student model的知识有贡献。记住,在preranking系统中当前KD方法的一个缺点是:如果它只能将teacher的知识转移给具有确定网络结构的student。受AKD的启发,我们提出添加一个distillation loss给结构搜索过程(architecture search)。特别的,我们会采用由ranking models产生的soft targets作为监督信号来指导每个Mixop的选择。因此对结构选择的final loss function:

\[Loss2 = (1-\lambda_1) Loss_{pre-Ranking}(y, g(X; \theta, \alpha, W_{pre\-Ranking})) + \lambda_1 || r(x) - p(x)||_2^2 + \lambda_2 E[latency']\]

…(7)

其中,g是preranking network,\(Loss_{pre\-Ranking}\)表示使用已知hard labels y的pre-ranking pure loss。r(x)和p(x)分别是关于ranking和preranking network的final softmax activation outputs。

我们会进一步讨论\(\lambda_1\)的效果和第4.5节中的distilation loss。\(\lambda_2\)是scaling factor,它控制着在accuracy和latency间的tradeoff。Loss1和Loss2会一起优化,产生最终的multi-task loss function:

\[Loss = Loss1 + Loss2\]

…(8)

在Loss1和Loss2间的超参数的权衡的缺失来自于:Loss1只会最优化feature mask参数,而Loss2会最优化preranking model中的结构参数和weights。我们选择该策略是因为,它在经验上要好于没有gradient block的模型,如表5所示。Loss1和Loss2相互相关,Loss2的输入是masked embedding,其中:mask参数会通过Loss1在训练期间持续优化。为了获得最终的preranking结构,我们会保留在每个Mixop中的最强的features和operators,从头到尾都保留它。AutoFAS的整个训练过程如算法1所示。

图片名称

算法1

4.实验

对focal loss又有一些loss方法,在《Gradient Harmonized Single-stage Detector》提出了GHM loss。

3.梯度协调机制(Gradient Harmonizing Mechanism)

3.1 问题描述

与(Lin et 2017b)相似,这里主要关注one-stage object detection分类:它的样本(forgeground/background)的分类是相当不均衡的(imbalanced)。对于一个候选方框(candidate box), 假设:

  • \(p \in [0, 1]\)是由模型预估的概率
  • \(p^* \in \lbrace 0, 1 \rbrace\)是对于一个指定class的ground truth label

考虑二元cross entropy loss:

\[L_{CE}(p, p^*) = \begin{cases} -log(p), & \text{if $p^*=1$} \\ -log(p-1), & \text{if $p^*=0$} \end{cases}\]

假设x是模型的直接输出,比如:sigmoid(x),我们有随x的梯度:

\[\frac{\partial{L_{CE}}}{\partial{x}} = \begin{cases} p - 1, & \text{if $p^*=1$} \\ p, & \text{if $p^*=0$} \end{cases} \\ = p - p^*\]

…(2)

我们如下定义g:

\[g = | p - p^* | = \begin{cases} 1 - p, & \text{if $p^*=1$} \\ p, & \text{if $p^*=0$} \end{cases}\]

…(3)

g等于梯度w.r.t x的范数(norm)。g的值表示一个样本的属性(例如:easy或hard),并隐含表示了样本在全局梯度上的影响。尽管梯度的严格定义是在整个参数空间上的,它意味着g是一个关于样本梯度的相对范数,出于便利,我们称g为gradient norm.

图2展示了来自一个收敛的one-stage detection model的g分布。由于easy negatives占据绝大多数,我们使用log axis来展示样本比例,来演示具有不同属性的样本变种的详情。它可以被看成是:very easy examples的数目是相当大的,对全局梯度具有一个很大影响。再者,我们可以看到,一个收敛模型仍不能处理一些very hard examples:它们的数目要比中等困难的样本还要更大。这些very hard examples可以被看成是异类(outliers),因为它们的梯度方向趋势与大量其它样本的梯度方向非常不同。也就是说,如果收敛模型会被强制学习对这些异类更好的分类,大量其它样本的分类趋向于更少的精准度(accurate)。

图片名称

图2 来自一个收敛的one-stage detection模型的gradient norm g分布。注意,y轴使用log scale,因为具有不同gradient norm的样本数,可以通过幅值的阶数进行区分

梯度密度(Gradient Density)

为了处理梯度范数分布的不一致问题,我们介绍了一种会考虑Gradient Density的协调方案。训练样本的Gradient Density function被公式化成等式(4):

\[GD(g) = \frac{1}{l_{epsilon}(g)} \sum\limits_{k=1}^N \delta_{epsilon} (g_k, g)\]

…(4)

其中,\(g_k\)是第k个样本的gradient norm。并且:

\(\delta_{\epsilon}(x, y) = \begin{cases} 1, & \text{if $y - \frac{\epsilon}{2} <= x < y + \frac{\epsilon}{2} $} \\ p, & \text{otherwise} \end{cases}\) …(5)

\[l_{epsilon}(g) = min(g + \frac{\epsilon}{2}, 1) - max(g - \frac{\epsilon}{2}, 0)\]

…(6)

g的gradient density表示了位于以g区域中心、长度为\(\epsilon\)、通过区域合法长度进行归一化的样本数目。

现在,我们定义了梯度密度协调参数(gradient density harmonizing parameter)为:

\[\beta_i = \frac{N}{GD(g_i)}\]

…(7)

其中,N是样本总数。为了更好理解梯度密度协调参数,我们可以将它重写成:\(\beta_i = \frac{1}{GD(g_i)/N}\)。其中:

  • \({GD(g_i)/N}\):是一个normalizer,它表示与第i个样本有邻近梯度的样本比例。如果样本随梯度被均匀分布,则对于任意\(g_i\),有\(GD(g_i) = N\),每个样本具有相同的\(\beta_i = 1\),它意味着无需任何改变。否则,具有大密度的样本会通过normalizer被相对地进行down-weighted。

GHM-C Loss

通过将\(\beta_i\)看成是第i个样本的loss weight,我们将GHM嵌入到分类loss,loss function的gradient density harmonized形式如下:

\[L_{GHM\-C}=\frac{1}{N} \sum\limits_{i=1}^N \beta_i L_{CE} (p_i, p_i^*) \\ = \sum\limits_{i=1}^N \frac{L_{CE}(p_i, p_i^*)}{GD(g_i)}\]

…(8)

图3展示了不同loss的重新公式化后的gradient norm。这里我们采用CE的原始gradient norm(例如:\(g = \| p - p^* \|\))作为convenient view的x轴,因为该density会根据g进行计算。我们可以看到,Focal Loss和GHM-C loss的曲线具有相似的趋势,它暗示着具有最好参数的Focal Loss与均匀梯度协调(uniform gradient harmonizing)是相似的。更进一步,GHM-C具有Focal loss所没有的多个优点:对异常点的梯度贡献做down-weighting。

图片名称

图3 不同loss function的 reformulated gradient norm w.r.t 原始gradient norm g。y轴使用log scale来更好展示FL与GHM-C的细节

有了GHM-C loss,大量very easy examples可以被down-weighted,异常点也会被轻微down-weighted,这可以同时解决属性不平衡(attribute imbalance)问题以及异常点问题(outliers problem)。从图1的右图所示,我们可以更好看到:GHM-C可以使得不同group的examples的总梯度贡献很好协调。由于gradient density会在每轮迭代被计算,examples的weights会像focal loss那边随g(或x)不固定,但会适配模型的当前状态和mini-batch。GHM-C loss的动态特性会让训练更高效和健壮。

图片名称

图1

#

facebook在《Focal Loss for Dense Object Detection》提出了focal loss。

3.Focal loss

focal loss被设计用来解决one-stage object detection场景,该场景在训练期间在foreground和backgroud classes间是极不平衡的(extreme imbalance)(例如:1:1000)。我们会从二分类的cross entropy(CE)开始来介绍focal loss:

\[CE(p, y) = \begin{cases} -log(p), & \text{if $y=1$} \\ -log(p-1), & \text{otherwise.} \end{cases}\]

…(1)

其中:

  • \(y \in \lbrace \pm \rbrace\):表示ground-truth class
  • \(p \in [0, 1]\):是对于label y=1的class的模型估计概率

对于简洁性,我们定义了\(p_t\):

\[p_t = \begin{cases} p, & \text{if $y=1$} \\ 1-p, & \text{otherwise.} \end{cases}\]

并重写为:\(CE(p, y) = CE(p_t) = - log(p_t)\)。

CE loss可以被看成是图1中的蓝色曲线(top)。在该图中可以发现,该loss的一个重要属性是,即便是易分类样本(easy classified examples)(\(p_t \gg 0.5\)),也会带来一个具有non-trivial规模的loss。当我们在大量easy样本(easy examples)之上进行求和时,这些小的loss values会淹没掉稀有类(rare class)

图片名称

图1 我们提出了一种新的loss:Focal Loss,它会添加一个因子\((1 - p_t)^{\gamma}\)到标准的cross entropy criterion中。设置\(\gamma > 0\)可以减小对于well-classified样本(\(p_t > 0.5\))的相对loss,从而更多关注hard、misclassified样本。如实验所示,提出的focal loss可以使训练:在出现许多easy background examples下的高度精准的dense object detector.

3.1 Balanced Cross Entropy

解决class imbalance的一个常用方法是:为class为1引入一个weighting因子\(\alpha \in [0, 1]\),为class为-1引入\((1 - \alpha)\)。惯例上,\(\alpha\)可以通过逆分类频次(inverse class frequency)来设置,或者被看成是通过cross validation设置的一个超参数。对于简洁性,我们定义了:

\[CE(p_t) = -\alpha_t log(p_t)\]

…(3)

该loss是对CE的一个简单扩展,我们会作为一个实验baseline进行对比。

3.2 Focal Loss定义

如实验所示,在dense detectors的训练期间遇到大类不均衡(large class imbalance)会淹没掉cross entropy loss。易分类负样本(Easily classified negatives)构成了loss的绝大多数,会主宰gradient。而\(\alpha\)会平衡正样本/负样本的importance,它不会区分easy/hard样本。作为替代,我们提出:将loss function变形为:对easy examples进行down-weight,从而使得在训练时更关注hard negatives

更正式的,我们提出了增加一个modulating factor \((1 - p_t)^{\gamma}\)到cross entropy loss中,可调参数为\(\gamma \geq 0\),我们定义focal loss为:

\[FL(p_t) = -(1-p_t)^{\gamma} log(p_t)\]

…(4)

该focal loss在图1中根据\(\gamma \in [0, 5]\)的多个值进行可视化。我们注意到focal loss的两个特性

  • (1) 当一个样本被误分类时,\(p_t\)会很小,调节因子(modulating factor)接近1,loss不受影响。随着\(p_t \rightarrow 1\),该因子会趋向为0,对于well-classified的样本的loss会down-weighted。
  • (2) focusing参数\(\gamma\)会平滑地调节easy样本被down-weighted的rate。当\(\gamma=0\)时,FL接近于CE,随着\(\gamma\)的增加,调节因子的影响也可能增加(我们发现\(\gamma=2\)在实验中表现最好)

直觉上,调节因子会减小来自easy examples的loss贡献,并拓宽一个样本接收到low loss的范围。例如:

  • 在\(\gamma=2\),使用\(p_t=0.9\)分类的easy样本会比CE低100倍loss,而使用\(p_t \approx 0.968\)则具有1000倍的更低loss。
  • 对于\(p_t \leq 0.5\)和\(\gamma=2\),它的loss会被缩放到至多4倍,这会增加纠正误分类样本(mis-classified examples)的importance。

惯例上,我们使用一个focal loss的\(\alpha\)-balanced变种:

\[FL(p_t) = -\alpha_t (1 - p_t)^{\gamma} log(p_t)\]

…(5)

我们在实验中采用该格式,因为它对比non-\(\alpha\)-balanced形式在accuracy上有微小提升。最终,我们注意到,该loss layer的实现在计算loss时会组合上sigmoid操作来计算p,产生更好的数值稳定性

而在我们的实验结果中,我们使用focal loss定义。在附录中,我们考虑focal loss的其它实例,并演示相同的效果。

3.3 类不平衡和模型初始化

二分类模型缺省被初始化为:对于y=1或-1具有相等的输出概率。在这样的初始化下,出现了Class Imbalance,loss会由于高频分类(frequent class)主导了total loss,造成在early training中的不稳定。为了消除它,对于rare class(foreground)在训练早期由模型估计的p值,我们引入一个“先验(prior)”概念。我们将prior通过\(\pi\)表示,并将它设置成:对于rare class的样本,以便模型的估计p很低,例如:0.01。我们注意到,在模型初始化时,这是个变化,而在loss function上并不是。我们发现,这对于cross entropy和focal loss来说,对于heavy class imbalance的case,可以提升训练稳定性。

#

weibo在《MaskNet: Introducing Feature-Wise Multiplication to CTR Ranking Models by Instance-Guided Mask》中抽出了MaskNet。

摘要

点击率(CTR)预估已成为许多现实世界应用中最基本的任务之一,对于排序模型来说,有效捕捉复杂的高阶特征非常重要。浅层前馈网络在许多最先进的深度神经网络(DNN)模型中被广泛使用,例如FNN、DeepFM和xDeepFM,以隐式捕捉高阶特征交互。然而,一些研究已经证明,成瘾性特征交互(addictive feature interaction),特别是前馈神经网络,在捕捉常见特征交互方面是低效的。

为了解决这个问题,我们通过提出实例引导掩码(instance-guided mask),它引入了特定的乘法操作到DNN排序系统中,该掩码在特征嵌入和前馈层上执行逐元素乘积(element-wise product),由输入实例引导。

我们还通过在本文中提出MaskBlock,将DNN模型中的前馈层转变为成瘾性(addictive)和乘法特征交互的混合体。MaskBlock结合了层归一化(layer normalization)、实例引导掩码(instance-guided mask)和前馈层,并且是设计新排序模型的基本构建块,可在不同配置下使用。本文中由MaskBlock组成的模型称为MaskNet,提出了两种新的MaskNet模型,以展示MaskBlock作为组成高性能排序系统的基本构建块的有效性。

在三个真实世界数据集上的实验结果表明,我们提出的MaskNet模型显著优于DeepFM和xDeepFM等最先进的模型,这意味着MaskBlock是组成新的高性能排序系统的有效基本构建单元。

1 引言

点击率(CTR)预测是预测用户点击推荐item的概率。它在个性化广告和推荐系统中扮演着重要角色。许多模型已被提出来解决这个问题,例如逻辑回归(LR)[16]、多项式-2(Poly2)[17]、基于树的模型[7]、基于张量的模型[12]、贝叶斯模型[5]和领域感知分解机(FFMs)[11]。近年来,使用深度神经网络(DNN)进行CTR估计也成为该领域的研究趋势,一些基于深度学习的模型被引入,如分解机支持的神经网络(FNN)[24]、注意力分解机(AFM)[3]、宽与深(W&D)[22]、DeepFM[6]、xDeepFM[13]等。

特征交叉对于CTR任务至关重要,对于排序模型来说,有效捕捉这些复杂特征非常重要。大多数DNN排序模型,如FNN、W&D、DeepFM和xDeepFM,使用浅层MLP层以隐式方式建模高阶交互,并且它是当前最先进的排序系统的重要组成部分。

然而,Alex Beutel等人[2]已经证明,成瘾性特征交互,特别是前馈神经网络,在捕捉常见特征交叉方面是低效的。他们提出了一种简单但有效的方法,称为”隐式交叉(latent cross)“,这是RNN模型中上下文嵌入和神经网络隐藏状态之间的一种乘法交叉。最近,Rendle等人的工作[18]也表明,一个精心配置的点积基线在协同过滤中大大优于MLP层。虽然MLP理论上可以近似任何函数,但他们表明,使用MLP学习点积并非易事,并且对于一个相当大的嵌入维度,以高准确度学习点积需要大量的模型容量和许多训练数据。他们的工作还证明了MLP层在建模复杂特征交互方面的低效性

受到”隐式交叉”[2]和Rendle的工作[18]的启发,我们关注以下问题:我们能否通过引入特定的乘法操作来改进DNN排序系统,使其有效地捕捉复杂的特征交互?

为了克服前馈层捕捉复杂特征交叉的低效性问题,我们在本文中引入了一种特殊的乘法操作到DNN排序系统中。首先,我们提出了一个实例引导掩码,在特征嵌入和前馈层上执行逐元素乘(element-wise product)。实例引导掩码利用从输入实例收集的全局信息,以统一的方式动态突出特征嵌入和隐藏层中的信息元素。

采用实例引导掩码有两个主要优点:

  • 首先,掩码和隐藏层或特征嵌入层之间的逐元素乘积以统一的方式将乘法操作引入DNN排序系统,更有效地捕捉复杂特征交叉。
  • 其次,这是一种由输入实例引导的细粒度位级注意力(finegained b bitwise attention),既可以减弱特征嵌入和MLP层中的噪声影响,同时突出DNN排序系统中的信息信号。

通过结合实例引导掩码、前馈层和层归一化(layer norm),我们提出了MaskBlock,将通常使用的前馈层转变为成瘾性和乘法特征交互的混合体。

  • 实例引导掩码(instance-guided mask)引入了乘法交叉,
  • 前馈层(feed-forward layers)聚合了掩蔽信息,以更好地捕捉重要的特征交互
  • 层归一化(layer normalization)可以简化网络的优化

MaskBlock可以被视为在某些配置下设计新排序模型的基本构建块。本文中由MaskBlock组成的模型称为MaskNet,提出了两种新的MaskNet模型,以展示MaskBlock作为组成高性能排序系统的基本构建块的有效性。

我们工作的成果总结如下:

  • (1) 在这项工作中,我们提出了一个实例引导掩码,在DNN模型的特征嵌入和前馈层上执行逐元素乘积。实例引导掩码中包含的全局上下文信息被动态地整合到特征嵌入和前馈层中,以突出重要元素。
  • (2) 我们提出了一个名为MaskBlock的基本构建块,它由三个关键组件组成:实例引导掩码、前馈层和层归一化模块。通过这种方式,我们将标准DNN模型中广泛使用的前馈层转变为成瘾性和乘法特征交互的混合体。
  • (3) 我们还提出了一个新的排序框架,名为MaskNet,利用MaskBlock作为基本构建单元来组成新的排序系统。更具体地说,本文设计了基于MaskBlock的串行MaskNet模型和并行MaskNet模型。串行排序模型逐块堆叠MaskBlock,而并行排序模型在共享特征嵌入层上并行放置多个MaskBlocks。
  • (4) 在三个真实世界数据集上进行了广泛的实验,实验结果表明我们提出的两个MaskNet模型显著优于现有最先进模型。结果暗示MaskBlock确实通过实例引导掩码将乘法操作引入DNN模型,从而增强了DNN模型捕捉复杂特征交互的能力。

本文的其余部分组织如下。第2节介绍了与我们提出的模型相关的一些相关工作。第3节详细介绍了我们提出的模型。第4节展示了三个真实世界数据集上的实验结果并进行了讨论。第5节总结了本文的工作。

2.相关工作

3 我们提出的模型

在本节中,我们首先描述特征嵌入层。然后,将介绍我们提出的实例引导掩码、MaskBlock和MaskNet结构的细节。最后,将介绍作为损失函数的对数损失函数(log loss)。

3.1 嵌入层

CTR任务的输入数据通常包括稀疏和密集特征,其中稀疏特征大多是分类类型。这些特征被编码为one-hot向量,这通常会导致对于大词汇量来说特征空间维度过高。解决这个问题的常见方法是引入嵌入层。通常,稀疏输入可以表述为:

\[x = [x_1, x_2, ..., x_f] \quad (1)\]

其中:

  • f表示fields的数量
  • $ x_i \in \mathbb{R}^n $ 表示一个具有n个特征的categorical field的one-hot向量;对于一个numerical field,它是只有一个值的向量

我们可以通过以下方式为one-hot向量$x_i$获得特征嵌入$e_i$:

\[e_i = W_e x_i \quad (2)\]

其中:

  • $W_e \in \mathbb{R}^{k \times n} $ 是n个特征的嵌入矩阵,k是字段嵌入的维度。

数值特征 $x_j$ 也可以通过以下方式转换到相同的低维空间:

\[e_j = V_j x_j \quad (3)\]

其中:

  • $ V_j \in \mathbb{R}^k $是对应字段嵌入,大小为k。

通过上述方法,嵌入层应用于原始特征输入,将其压缩到低维、dense的实值向量。嵌入层的结果是宽连接向量:

\[V_{emb} = \text{concat}(e_1, e_2, ..., e_i, ..., e_f) \quad (4)\]

其中:

  • f 表示fields数量
  • $ e_i \in \mathbb{R}^k $表示一个字段的嵌入。

尽管输入实例的特征长度可能不同,但它们的嵌入长度相同,为$ f \times k $,其中k是字段嵌入的维度。

我们使用实例引导掩码将乘法操作引入DNN排序系统,这里的所谓”实例”在本文的后续部分指的是当前输入实例的特征嵌入层。

3.2 实例引导掩码

我们通过实例引导掩码从输入实例中收集全局信息,以动态突出特征嵌入(feature embedding)和前馈层(feed-forward layer)中的有信息的元素。对于特征嵌入,掩码强调具有更多信息的关键元素,以有效表示这一特征。对于隐藏层中的神经元,掩码通过考虑输入实例中的上下文信息,帮助重要的特征交互脱颖而出。除了这一优势外,实例引导掩码还将乘法操作引入DNN排序系统,以更高效地捕获复杂的特征交叉。

如图1所示,实例引导掩码中使用了两个具有恒等函数的全连接(FC)层。请注意,实例引导掩码的输入始终来自输入实例,也就是说,来自特征嵌入层。

图片名称

图1 Instance-Guided Mask的网络结构

第一层FC层称为“聚合层”,与第二层FC层相比,它是一个相对更宽的层,以便更好地收集输入实例中的全局上下文信息。聚合层有参数 $W_{d1}$,这里d表示第d个掩码。对于特征嵌入和不同的MLP层,我们采用具有其参数的不同实例引导掩码,以从输入实例中学习捕获每层的各种信息。

第二层FC层称为“投影层”,它将维度降低到与特征嵌入层$ V_{emb}$ 或隐藏层$V_{hid}$相同的大小,参数为$W_{d2}$。形式上,

\[V_{mask} = W_{d2}(\text{ReLU}(W_{d1} V_{emb} + \beta_{d1})) + \beta_{d2} \quad (5)\]

其中:

  • $ V_{emb} \in \mathbb{R}^{m=f \times k} $:指的是输入实例的嵌入层
  • $ W_{d1} \in \mathbb{R}^{t \times m}$ 和 $ W_{d2} \in \mathbb{R}^{z \times t}$ 是实例引导掩码的参数,
  • t和 z分别表示聚合层和投影层的神经元数量,
  • f表示字段数量,
  • k是字段嵌入的维度。
  • $ \beta_{d1} \in \mathbb{R}^{t \times m} $ 和 $ \beta_{d2} \in \mathbb{R}^{z \times t} $是两个FC层的学习偏置。

请注意,聚合层通常比投影层宽,因为投影层的大小需要与特征嵌入层或MLP层的大小相等。因此,我们定义了大小 $ r = t/z $ 作为缩减比率,这是一个超参数,用于控制两层神经元数量的比率。

逐元素乘积在此工作中被用来将实例引导掩码聚合的全局上下文信息整合到特征嵌入或隐藏层,如下所示:

\(V_{mask_{emb}} = V_{mask} \odot V_{emb} \\ V_{mask_{hid}} = V_{mask} \odot V_{hid}\) …(6)

其中:

  • $ V_{emb} $ 表示嵌入层
  • $ V_{hid} $ 表示DNN模型中的前馈层
  • $ \odot $ 表示两个向量之间的逐元素乘积,

如下所示:

\[V_i \odot V_j = [V_{i1} \cdot V_{j1}, V_{i2} \cdot V_{j2}, ..., V_{iu} \cdot V_{ju}] (7)\]

这里:

  • u 是向量 $V_i$ 和 $ V_j$的大小。

实例引导掩码可以被看作是一种特殊类型的位级注意力或门控机制,它使用输入实例中包含的全局上下文信息来指导训练期间的参数优化。$ V_{mask}$ 中的较大值意味着模型动态识别特征嵌入或隐藏层中的一个重要元素。它被用来增强向量 $ V_{emb}$ 或 $ V_{hid} $ 中的元素。相反,$ V_{mask} $中的较小值将通过减少对应向量 $ V_{emb} $或 $ V_{hid}$中的值来抑制信息较少的元素甚至噪声。

采用实例引导掩码的两个主要优点是:

  • 首先,掩码和隐藏层或特征嵌入层之间的逐元素乘积以统一的方式将乘法操作引入DNN排序系统,更有效地捕捉复杂特征交互。
  • 其次,这种由输入实例引导的细粒度位级注意力可以同时减弱特征嵌入和MLP层中的噪声影响,同时突出DNN排序系统中的信息信号。

3.3 掩码块

为了解决前馈层在深度神经网络(DNN)模型中捕捉复杂特征交互的效率问题,我们在这项工作中提出了一个名为掩码块(MaskBlock)的基本构建模块,用于DNN排序系统,如图2和图3所示。所提出的掩码块由三个关键组件组成:层归一化模块、实例引导掩码和前馈隐藏层。层归一化可以简化网络的优化。实例引导掩码为标准DNN模型的前馈层引入了乘法交互,并使前馈隐藏层聚合掩码信息,以更好地捕捉重要的特征交互。通过这种方式,我们将标准DNN模型中广泛使用的前馈层转变为一种成瘾性和乘法特征交互的混合体。

图片名称

图2

首先,我们简要回顾一下层归一化(LayerNorm)的公式。

层归一化

通常,归一化的目的是确保信号在通过网络传播时具有零均值和单位方差,以减少“协变量偏移”[10]。例如,层归一化(Layer Norm或LN)[1]被提出以简化循环神经网络的优化。具体来说,设 $ \mathbf{x} = (x_1, x_2, …, x_H) $ 表示大小为 H 的输入向量到归一化层。层归一化将输入 $ \mathbf{x} $ 重新中心化和重新缩放,公式如下: \(h = g \odot \mathcal{N}(x) + b, \quad \mathcal{N}(x) = \frac{x - \mu}{\delta}, \\ \mu = \frac{1}{H} \sum_{i=1}^{H} x_i, \quad \delta = \sqrt{\frac{1}{H} \sum_{i=1}^{H} (x_i - \mu)^2}\)

其中:

  • h是层归一化层的输出。
  • $\odot$是逐元素乘法操作。
  • $\mu$ 和 $\delta$ 分别是输入的均值和标准差。
  • 偏置b和增益g是具有相同维度H的参数。

作为掩码块(MaskBlock)的关键组件之一,层归一化可以应用于特征嵌入和前馈层。对于特征嵌入层,我们将每个特征的嵌入视为一个层,以如下方式计算LN的均值、标准差、偏置和增益:

\(\text{LN}_{\text{EMB}}(V_{\text{emb}}) = \text{concat} \left( \text{LN}(e_1), \text{LN}(e_2), ..., \text{LN}(e_i), ..., \text{LN}(e_f) \right)\) …(9)

对于DNN模型中的前馈层,LN的统计数据是在相应隐藏层中包含的神经元之间估计的,如下所示:

\[\text{LN}_{\text{HID}}(V_{\text{hidden}}) = \text{ReLU}(\text{LN}(W_i X))\]

其中:

  • $X \in \mathbb{R}^t$ 指的是前馈层的输入
  • $W_i \in \mathbb{R}^{m \times t}$ 是层的参数,
  • t和m分别表示输入层的大小和前馈层的神经元数量。

请注意,我们在多层感知器(MLP)上有两处可以放置归一化操作:一处是在非线性操作之前,另一处是在非线性操作之后。我们发现,在非线性之前进行归一化的性能始终优于在非线性之后进行归一化的性能。因此,在我们的论文中,MLP部分使用的所有归一化都放在非线性操作之前,如公式(4)所示。

特征嵌入上的掩码块

我们通过结合三个关键元素:层归一化、实例引导掩码和随后的前馈层,提出了掩码块。掩码块可以堆叠形成更深的网络。根据每个掩码块的不同输入,我们有两种掩码块:特征嵌入上的掩码块和掩码块上的掩码块。我们将首先介绍本小节中图2所示的特征嵌入上的掩码块。

特征嵌入 $ V_{\text{emb}} $ 是特征嵌入上掩码块的唯一输入。在对嵌入 $ V_{\text{emb}} $ 进行层归一化操作后,掩码块利用实例引导掩码通过逐元素乘法突出显示 $ V_{\text{emb}} $ 中的信息元素,形式上表示为:

\[V_{\text{maskedEmb}} = V_{\text{mask}} \odot \text{LN}_{\text{EMB}}(V_{\text{emb}})\]

其中:

  • $\odot$ 表示实例引导掩码和归一化向量 $ \text{LN}{\text{EMB}}(V{\text{emb}}) $ 之间的逐元素乘法,
  • $ V_{\text{maskedEmb}} $表示掩码特征嵌入。

请注意,实例引导掩码 $ V_{\text{mask}} $ 的输入也是特征嵌入 $ V_{\text{emb}} $。

我们引入了一个前馈隐藏层以及随后的层归一化操作到掩码块中,通过归一化的非线性变换更好地聚合掩码信息。掩码块的输出可以按以下方式计算:

\[V_{\text{out}} = \text{LN}_{\text{HID}}(W_i V_{\text{maskedEmb}}) = \text{ReLU}(\text{LN}(W_i (V_{\text{mask}} \odot \text{LN}_{\text{EMB}}(V_{\text{emb}})))))\]

其中:

  • $ W_i \in \mathbb{R}^{q \times n} $ 是第 i 个掩码块中前馈层的参数,
  • n表示 $ V_{\text{maskedEmb}} $ 的大小,
  • q表示前馈层的神经元数量。

实例引导掩码将逐元素乘法引入特征嵌入中,作为一种细粒度的注意力机制,而特征嵌入和隐藏层上的归一化都简化了网络优化。掩码块中的这些关键组件帮助前馈层更有效地捕获复杂的特征交叉。

掩码块上的掩码块

图片名称

图3

在这一部分,我们将介绍如图3所示的掩码块上的掩码块。这种掩码块有两种不同的输入:

  • 特征嵌入 $ V_{\text{emb}} $
  • 前一个掩码块的输出 $ V_{\text{out}}^{(p)} $

这种掩码块的实例引导掩码的输入始终是特征嵌入 $V_{\text{emb}}$。掩码块利用实例引导掩码通过逐元素乘法突出前一个掩码块输出 $ V_{\text{out}}^{(p)} $中的重要特征交互,形式上表示为:

\[V_{\text{maskedHid}} = V_{\text{mask}} \odot V_{\text{out}}^{(p)}\]

其中:

  • $ \odot $ 表示实例引导掩码 $ V_{\text{mask}} $ 和前一个掩码块的输出 $ V_{\text{out}}^{(p)} $ 之间的逐元素乘法
  • $ V_{\text{maskedHid}} $ 表示掩码隐藏层。

为了更好地捕获重要的特征交互,掩码块中又引入了另一个前馈隐藏层以及随后的层归一化。通过这种方式,我们将标准DNN模型中广泛使用的前馈层转变为一种成瘾性和乘法特征交互的混合体,以避免那些成瘾性特征交叉模型的无效性。掩码块的输出可以按以下方式计算:

\(V_{\text{out}} = \text{LN}_{\text{HID}}(W_i V_{\text{maskedHid}}) = \text{ReLU}(\text{LN}(W_i (V_{\text{mask}} \odot V_{\text{out}}^{(p)}))))\) …(14)

3.4 掩码网络(MaskNet)

基于掩码块(MaskBlock),根据不同的配置,可以设计出各种新的排序模型。由掩码块组成的排序模型在这项工作中被称为掩码网络(MaskNet)。我们还提出了两种使用掩码块作为基本构建模块的掩码网络模型。

序列掩码网络(Serial MaskNet)

我们可以将一个掩码块堆叠在另一个掩码块之后来构建排序系统,如图4左侧模型所示。第一个块是特征嵌入上的掩码块,所有其他块都是掩码块上的掩码块,形成更深的网络。预测层放置在最终掩码块的输出向量上。我们在论文中将这种序列配置下的掩码网络称为序列掩码网络(SerMaskNet)。每个掩码块中实例引导掩码的所有输入都来自特征嵌入层 $ V_{\text{emb}} $,这使得序列掩码网络模型看起来像是一个在每个时间步共享输入的RNN模型。

并行掩码网络(Parallel MaskNet)

我们提出另一种掩码网络,通过在共享的特征嵌入层上并行放置几个掩码块,如图4右侧模型所示。在这种配置下,每个块的输入仅是共享的特征嵌入 $ V_{\text{emb}} $。我们可以将这种排序模型视为像MMoE[15]那样由多个专家混合而成。每个掩码块关注特定类型的重要特征或特征交互。我们通过连接每个掩码块的输出来收集每个专家的信息,如下所示:

\(V_{\text{merge}} = \text{concatenate}(V_{\text{out},1}, V_{\text{out},2}, ..., V_{\text{out},i}, ..., V_{\text{out},u})\) …(14)

其中:

  • $ V_{\text{out},i} \in \mathbb{R}^q $ 是第i个掩码块的输出
  • q表示掩码块中前馈层的神经元数量
  • u是掩码块的数量。

为了进一步合并每个专家捕获的特征交互,多个前馈层堆叠在连接信息 $ V_{\text{merge}} $上。设 $ H_0 = V_{\text{merge}} $ 表示连接层的输出,然后 $H_0$ 被送入深度神经网络,前馈过程为:

\(H_l = \text{ReLU}(W_l H_{l-1} + \beta_l)\) …(16)

其中:

  • l是深度,
  • ReLU是激活函数。
  • $ W_l$,$ \beta_l $,$ H_l $ 分别是第l层的模型权重、偏置和输出。预测层放置在多个前馈网络的最后一层。

在本文的后续部分,我们称这个版本的掩码网络为“并行掩码网络”(ParaMaskNet)。

3.5 预测层

总结来说,我们给出了我们提出的模型输出的总体公式如下:

\(\hat{y} = \delta(w_0 + \sum_{i=1}^{n} w_i x_i)\) …(17)

其中:

  • $ \hat{y} \in (0, 1) $ 是预测的点击率(CTR)值,
  • $ \delta $ 是Sigmoid函数,
  • $ n $ 是最后一个掩码块的输出大小(序列掩码网络SerMaskNet)或前馈层(并行掩码网络ParaMaskNet),
  • $ x_i $ 是前馈层的位值,
  • $ w_i $ 是每个位值学习到的权重。

对于二元分类,损失函数是日志损失:

\(L = -\frac{1}{N} \sum_{i=1}^{N} y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)\) …(18)

其中:

  • $ N $ 是训练实例的总数,
  • $y_i$ 是第i个实例的真实标签,
  • $\hat{y}_i $是预测的CTR。

优化过程是最小化以下目标函数:

\[\mathcal{E} = L + \lambda \| \Theta \|\]

其中:

  • $ \lambda $ 表示正则化项,
  • $ \Theta $ 表示参数集,包括特征嵌入矩阵中的参数、实例引导掩码矩阵中的参数、掩码块中的前馈层参数,以及预测部分的参数。

  • 1.https://arxiv.org/pdf/2102.07619