PLE介绍

Reading time ~3 minutes

tx在《Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized Recommendations》提出了PLE模型:

1.介绍

个性化推荐在在线应用中扮演着重要角色。RS需要包含多种用户反馈来建模用户兴趣,并最大化用户的engagement和satisfaction。然而,由于存在高维问题,用户满意度通常很难通过一个learning算法来直接解决。同时,用户satisfaction和engagement具有许多可以直接学习的主要因素,比如:点击、完成、分享、收藏、评论的概率(click likelihood)。因此,有许多尝试使用MTL多任务学习到RS中来同时建模用户的satisfaction或engagement。实际上,这在工业应用中是主流。

MTL会在单个模型中同时学习多个任务,通过在任务间共享信息来高效地提升学习。然而,在现实推荐系统中,任务经常松散相关或者有冲突,这会导致效果退化(performance deterioration),称为“negative transfer”。在一个真实的大规模视频推荐系统和真实数据集上,我们通过大量实验发现,当任务相关性很复杂时并且有样本依赖时(例如:对比起单任务模型,多个任务不能同时提升,这被称为“跷跷板效应(seesaw phenomenon )”),已存在的MTL模型通常可以提升一些任务,但会牺牲其它任务的效果。

之前的工作主要解决negative transfer,但忽略了seesaw phenomenon,例如:cross-stitch network[16]和sluice network [18]提出,学习静态线性组合 (static linear combinations)来对不同任务的表示进行融合(fuse),这不能捕获样本依赖性(sample dependent)。MMOE[13]应用gating networks来对基于input的bottom experts进行组合来处理任务差异,但忽略了在experts间的差异和交叉。因此,设计一个更强大和高效的模型来处理复杂相关性,并消除seesaw效应很关键。

为了达到该目标,我们提出了一个新的MTL模型,称为渐近层抽取 Progressive Layered Extraction (PLE),它可以很好地利用在shared network设计上的先验知识来捕获复杂的任务相关性(task correlations)。对比起在MMOE中的粗糙共享参数,PLE会显式地将shared experts和task-specific experts进行分离来缓和有害参数干扰(harmful)。再者,PLE会引入multi-level experts和gating networks,并应用progressive separation routing来从lower-layer expert抽取更深的knowledge,并在更高levels上逐渐将task-specific parameters给分离出来。

为了评估PLE的效果,我们在真实工业界推荐dataset以及主要的公开数据集上(包括census-income[5]、synthetic data[13]、以及Ali-CCP)开展了大量实验。实验结果表明:在所有数据集上,PLE的效果要好于state-of-the-art MTL模型,并展示了一致提升。另外,在tencent的大规模视频推荐系统中在线指标的极大提升,表明PLE的优点。

主要的贡献如下:

  • 在大规模视频推荐系统和公开数据集上,通过大量实验发现,一个有意思的seesaw效应已经被观察到:SOTA的MTL模型经常会提升某些任务,但同时牺牲另一些任务的效果,并不能胜过单任务模型(single-task model),因为存在复杂的内在相关性。
  • 使用新的shared learning架构的PLE模型会提升shared learning效率,并能从joint representation learning和information routing的角度,能解决seesaw现象以及negative transfer。除了推荐应用外,PLE可以灵活地应用于许多场景
  • 我们在工业和公开datasets上的大量离线实验评估了PLE的效果。在tencent的大内容推荐平台上的在线A/B test结果也显示了,PLE在SOTA的MTL模型上能有极大提升,在view-count上有2.23%的增长,在watch-time上有1.84%的提升,它可以生成极大的商业收益。PEL已经成功部署到推荐系统中,可以应用到许多其它推荐应用上。

2.相关工作

在推荐系统中,高效的多任务学习模型、以及MTL模型的应用是两个研究领域。在本节中,我们简单讨论在这两个领域的相关工作。

2.1 MTL模型

图片名称

图1 MTL模型的network routing。蓝色四边形和圆形分别表示shared layers和gating network,粉色和绿色四边形表示task-specific layers,粉色和绿色圆形表示不同任务的task-specific gating networks

图1 a)中展示的Hard parameter sharing【2】是最基础和常用的MTL结构,但经常存在negative transfer,因为参数会在多个任务间直接共享而存在任务冲突(task conflicts)。为了解决任务冲突,图 1f)的cross-stitch network[16]和图1g)的sluice network[18]同时提出学习对来自不同的tasks的representations进行选择性的线性组合加权。然而,在这些模型中,representations是通过对所有样本使用相同的static weights进行组合的,seesaw效应并没有被解决。在本工作中,提出了PLE(Progressive Layerd Extraction)模型,并使用带gate结构的progressive routing机制来对基于input的knowledge进行融合(fuse),它可以达到适配不同的inputs的组合。

使用gate结构和attention network来进行信息融合(information fusion)已经存在一些研究。MOE【8】首先提出在bottom上共享一些experts,并通过一个gating network来对experts进行组合。MMOE[13]则对MOE进行扩展,并为每个任务使用不同的gates来获取在MTL中的不同融合权重(fusing weights)。相似的,MRAN[24]会应用multi-head self-attention来学习在不同feature sets上的不同的representation子空间。expert和attention module则在所有tasks间共享,在MOE、MMOE和MRAN中不存在task-specific的概念。相反,我们提出的CGC(Customized Gate Control)和PLE模型会对task-common参数和task-specific参数进行显式分离(explicitly),并避免由复杂任务相关性导致的参数冲突。对于MMOE来说,尽管存在理论上的可能性收敛到我们的网络设计,在网络设计上的先验知识(prior knowledge)是很重要的,MMOE在实际上很难发现收敛(convergence)。Liu【10】应用task-specific attention networks来对选择性地对shared features进行融合(fuse),但不同的任务在attention network中的融合(fusion)之前仍会共享相同的representation。之前的network的研究都没有显式地解决representation learning和routing的joint optimization问题,特别是在一个 inseparable joint(非独立联合)方式,而该工作会首次在joint learning和routing的通用框架上提出一个新的progressive separation方式

存在一些工作,使用AutoML的方式来寻找一个好的network结构。SNR framework【12】通过二元随机变量来控制在sub-networks间的connections,并使用NAS来搜索最优的结构。相似的,Gumbel-matrix routing框架【15】则学习MTL模型的routing并将它公式化成一个使用Gumbel-Softmax trick的二元matrix。像MDP的Modeling routing process,会使用MARL[19]来训练routing network。在这些工作的network结构使用特定的简化猜想而设计的,不够通用。在[17]中的routing network会为每个任务在每个depth选择不超过一个function block,这会减小模型的表现力。Gumbel-matrix routing network[15]则提出在representation learning上进行constraint,因为每个任务的input需要对每个layer上的representation进行merge。另外,在这些frameworks中的fusing weights不适合对不同的inputs,对于这些方法来说寻找最优的结果带来的昂贵搜索开销是另一个挑战。

2.2 RS中的MTL

为了更好地利用多种用户行为,MTL learning已经被广泛应用到推荐系统中,并达到了大量提升。一些研究则会集成传统的推荐算法:比如:在MTL中集成CF和MF。Lu[11]和Wang[23]则引入regularization在隐表示上。

。。。

3.推荐中的seesaw效应

negative transfer是在MTL中的一个常见现象,特别是对于松散相关的任务【21】。对于复杂的任务相关性,特别是样本依赖相关模式,我们也观察到:当提升shared learning效率并达到比相应的single-task模型的极大提升时,会有seesaw现象。(对于当前MTL模型来说,在所有任务上获得提升是很难的)。在本节中,我们基于tencent的大规模视频推荐系统,介绍和调查了seesaw效应。

3.1 视频推荐的MTL ranking系统

图片名称

图2 视频推荐的一个MTL ranking系统

在本节中,我们简单引入服务tencent news的MTL ranking系统,它是世界最大的内容平台,基于用户的多样化反馈来推荐新闻和视频给用户。如图2所示,有多个目标来建模不同的用户行为:比如:在MTL ranking系统中的click、share、comment。在offline的训练过程, 我们会基于从user logs中抽取的用户行为来训练MTL ranking模型。接着,对于每个任务,基于ranking module的weighted-multiplication会将这些预测分(predicted scores)进行组合到一个最终分,通过等式1的组合函数,最终推荐top-ranked videos给用户。

\[score={p_{VTR}}^{w_{VTR}} \times {p_{VCR}}^{w_{VCR}} \times {p_{SHR}}^{W_{SHR}} \times \cdots \times {p_{CMR}}^{W_{CMR}} \times f(video\_len)\]

…(1)

其中:

  • 每个w:决定了每个predicted score的相对重要性
  • \(f(video\_len)\):是一个非线性变换函数,比如:在视频长度(video duration)上的sigmoid或log函数
  • \(w_{VTR}, w_{VCR}, w_{SHR}, w_{CMR}\):是通过在线实验搜索优化的超参数,用来最大化online metrics。(注:SHR(SHare Rate)、CMR(Comment Rate))

在所有任务之外,播放完成度VCR(View Completion Ratio)播放通过率VTR(View-Through Rate)是分别是两个重要目标建模关键在线指标:观看数(view-count)和观看时长(watch-time)。特别的:

  • VCR预测是一个回归任务(regression task),它使用MSE loss来预测每次view的完成度。
  • VTR预测是一个二分类任务,它使用cross-entropy loss来预测一个valid view的概率,它被定义成:超过一定观看时间阈值的一次播放行为

在VCR和VTR间的相关模式(correlation pattern)很复杂。

  • 首先,VTR的label是一个关于播放动作(play action)和VCR的组合因子,只有watch time超过阈值的一个play action会被看成是一个有效观看(view)
  • 第二,play action的分布也复杂,因为在wifi下来自auto-play场景的样本会高于play的平均概率,而来自显式点击场景(没有auto-play)的其它样本会具有更低的play概率

由于复杂和强样本依赖的相关性,当联合建模VCR和VTR会观察到一个seesaw效应。

3.2 在MTL中的Seesaw效应

为了更好地理解seesaw效应,我们会使用single-task模型和SOTA MTL模型来执行实验分析,在复杂相关的VCR和VTR任务组上。除了hard parameter sharing、cross-stitch、sluice network、mmoe外,我们也评估了两个独创的结构:非对称共享(asymmetric sharing)和定制共享(customized sharing)。

  • 非对称共享(asymmetric sharing):是一种新的sharing机制,用来捕获在任务间的非对称关系。根据图1b,bottom layers会在任务间的非对称共享,具体某个任务的表示需要共享依赖于任务间的关系。公共融合操作(fusion)(比如:concatenation、sum-pooling、average-pooling)可以用来组合不同任务的bottom layers的outputs
  • 定制共享(Customized Sharing):图1c会显式地将shared parameters和task-specific parameters进行分离,以避免内在冲突和negative transfer。对比起single-task模型,customized sharing会添加一个shared bottom layer来抽取sharing信息,并将shared bottom layer与task-specific layer的concatenation后feed给相应task的tower layer。

图3展示了实验结果,其中右上角的泡泡表示具有更好的效果,具有更高的AUC和更低的MSE。AUC或MSE具有0.1%的提升,会对整个系统的在线指标具有极大提升【4,6,14】。可以看到硬参数共享(hard parameter sharing)和cross-stitch network会存在极大的negative transfer问题,在VTR上效果最差。通过独创的共享机制来捕获非对称关系,asymmetric sharing可以达到在VTR上的极大提升,但在VCR上出现极大降低,这与sluice network类似。由于shared layers和task-specific layers的显式分隔,customized sharing可以在single-task模型上提升VCR,而在VTR上只有轻微的损耗。MMOE则会在两个任务上同时对single-task进行提升,但VCR的提升只有:+0.0001. 尽管这些模型会在这两个任务上具有不同的学习效率(learning efficiency),我们可以很明确地观察到seesaw效应:一个任务的提升会导致其它任务的效果退化,因为没有一个baseline MTL模型依完全落在第二象限。在公开的benchmark datasets上的具有SOTA模型的实验,也会具有明显的seesaw效应。细节会在第5.2节中提供。

图片名称

图3 在复杂任务相关性下的Seesaw现象

如前所示,VCR和VRT间的相关模式是很复杂并且样本依赖(sample depedent)的。特别的,VCR和CTR间存在一些偏序关系(partially ordered relations),不同样本表现出不同的相关度。因而:

  • cross-stitch和sluice network会为所有样本使用相同的static weights来共享representations,不能捕获样本依赖,存在seesaw效应。
  • MMOE通过使用gates获得来基于input的fusing weights,在一定程度上会处理任务差异(sample difference)和样本差异(sample difference),这会胜过其它baseline MTL模型。然而,在MMOE中experts会在所有tasks间共享,没有差异,这不能捕获复杂任务相关性,这会对某些tasks带来有害噪音。再者,MMOE会忽略在不同experts间的交叉,这会进一步限制joint optimization的效果。

除了VCR和VTR外,在工业界推荐应用中有许多复杂相关任务,因为人类行为经常微妙且复杂,例如:在在线广告和电商平台中的CTR预测和CVR预测。因此,一个强大的网络需要考虑在experts间的差异(differentiation)和交叉(interactions),这对于消除由复杂任务相关性带来的seesaw效应来说很重要。

在本paper中,我们提出了一个PLE(Progressive Layered Extraction)模型来解决seesaw效应和negative transfer。PLE的关键思想是:

  • 首先,它会显示地将shared experts和task-specific experts进行分离,来避免有害的参数干扰。
  • 第二,multi-level experts和gating networks会被引入来对多个抽象表示(abstract representations)进行融合。
  • 最后,它会采用一个新的progressive separation routing来建模在experts间的交互,并达到在复杂相关任务间更高效的知识迁移。

如图3所示,PLE在多个任务上要比MMOE取得更好的提升。结构设计和实验的细节在第4节。

4.PLE(PROGRESSIVE LAYERED EXTRACTION)

为了解决seesaw效应和negative transfer,我们提出了一个Progressive Layered Extraction(PLE)模型,它使用一个新的sharing结构设计。

  • 首先,一个CGC(Customized Gate Control)模型显式地对提出的shared experts和specific experts进行分离
  • 第二,CGC被扩展到一个通用的PLE模型中,它使用multi-level gating networks和progressive separation routing来进行更高效的信息共享和joint learning。
  • 最终,对于MTL模型来说,loss function会被最优化以便更好地处理joint training的实际挑战。

4.1 CGC(customized Gate Control)

受customized sharing的启发,它在single-task上,通过显式分离shared layers和task-specific layers来达到与single-task模型相似的效果。如图4所示,在bottom有一些experts modules,在顶部有一些task-specific tower networks上。每个expert module由多个称为experts的子网络(sub-networks),在每个module中的experts的数目是一个用来tune的超参数。相似的,一个tower network也是一个multi-layer network,宽和高是超参数。特别的,在CGC中的shared experts负责学习共享模式(shared patterns),而对于specific tasks的模式会由task-specific experts来抽取。每个tower network会从shared experts和它自己的task-specific experts中吸收知识,这意味着shared experts的参数会被所有任务影响,而task-specific experts的参数具受相应specific task的影响。

图片名称

图4 CGC模型(Customized Gate Control)

在CGC中,对于选择性融合(selective fusion),shared experts和task-specifc experts通过一个gating network进行组合。如图4所示,gating network的结构是基于一个使用softmax作为activation function、input会作为selector的single-layer feedforward network,用来计算选中vectors的weighted sum,例如:experts的outputs。更精准的,task k的gating network的output可以公式化为:

\[g^k(x)= w^k(x) S^k(x)\]

…(2)

其中:

  • x是input representation
  • k表示task k
  • \(w^k(x)\)是一个weighting function,通过线性变换和一个Softmax layer来计算task k的weight vector:
\[w^k(x) = Softmax(W_g^k x)\]

…(3)

其中:

  • \(W_g^k \in R^{(m_k + m_s) \times d}\)是参数矩阵
  • \(m_s\)和\(m_k\)分别是shared experts以及第k个specific experts的数目,d是input representation的维度。
  • \(S^k(x)\)是一个selected matrix,它由所有selected vectors组成,包括shared experts和第k个specific experts:
\[S^k(x) = [E_{(k,1)}^T, E_{(k,2)}^T, \cdots, E_{(k,m_k)}^T, E_{(s,1)}^T, E_{(s,2)}^T, \cdots, E_{(s,m_s)}^T ]^T\]

…(4)

最后,第k个任务的prediction是:

\[y^k(x) = t^k (g^k(x))\]

…(5)

其中:

  • 第\(t^k\)表示任务k的tower network。

对比起MMOE,CGC会移除在一个任务的tower network与其它任务的task-specific experts间connections,允许不同类型的experts来集中高效学习不同的知识,无需干扰。结合gating networks的好处,来基于input动态融合representations,CGC会达到在tasks间更灵活的balance,更好处理任务冲突和样本依赖相关性。

4.2 PLE(Progressive Layered Extraction)

CGC会显示对task-specific和shared components进行分离。然而,在deep MTL中,learning会随着越来越深的语义逐渐走形,通常对于立即表示(intermediate representations)是否应该被看成是shared或task-specific来说是不清晰的。为了解决该问题,我们使用PLE将CGC进行泛化。如图5所示,在PLE中有multi-level extraction networks来抽取higher-level的共享信息。除了对task-specific experts的gates外,extraction network也会为shared experts使用一个gating network来组合来自该layer的所有experts的知识。因而,在PLE中不同任务的参数在像CGC这样的early layer上不会完全分离,但会在upper layers上会逐渐分离。在higher-level extraction network中的gating networks会采用gates的融合结果作为selector,而非raw input,这是因为它可以提供更好的信息来选择从更高level experts中抽取到的知识。

图片名称

图5 Progressive Layered Extraction (PLE) Model

在PLE中weighting function、selected matrix、以及gating network的计算与CGC中的相同。特别的,任务k在第j个extraction network中的gating network的公式为:

\[g^{k,j}(x) = w^{k,j}(g^{k,j-1}(x))S^{k,j}(x)\]

…(6)

其中:

  • \(w^{k,j}\):是task k的weight function,它使用\(g^{k,j-1}\)作为input,
  • \(S^{k,j}\):是选中task k在第j个extraction network的matrix。

值得注意的是,在PLE的shared module的selected matrix与task-specific modules非常不一样,因为它在该layer中包括了所有shared experts和task-specific experts。

在计算所有gating networks和experts后,我们可以最终获得在task k的prediction:

\[y^k(x) = t^k(g^{k,N}(x))\]

…(7)

有了multi-level experts和gating networks,PLE可以为每个task抽取和组合更深的语义表示来提升泛化性(generalization)。如图1所示,对于MMOE来说,routing策略是完全连接的,对于CGC来说则是早期分离的(early separation)。不同的是,PLE会采用一个progressive separation routing来从所有更低layer的experts抽取信息,抽到更高level的shared knowledge,并渐近地将task-specific参数分离出来。progressive separation的过程与此类似:从化学药品中为期望产品抽取化合物的抽取过程。在PLE的知识抽取和转换的过程期间,更低level的表示会jointly extracted/aggregated,并在更高level的shared experts上进行routed,获取共享知识和渐进地分发给特定的tower layers,以便达到更高效和灵活的joint representation learning和sharing。尽管MMOE的full connection routing看起来像是CGC和PLE的一个通用设计,在第5.3节中的实际研究表明,MMOE不能收敛到CGC或PLE的结构,尽管存在可能性。

4.3 MTL的joint loss optimization

当设计高效的网络结构时,我们接着关注于以end-to-end的方式联合训练task-specific和shared layers,一种常用的joint loss公式是:对每个单独的task的losses的加权求和:

\[L(\theta_1, \cdots, \theta_K, \theta_s) = \sum\limits_{k=1}^K w_k L_k(\theta_k, \theta_s)\]

…(8)

其中:

  • \(\theta_s\)表示共享参数,K表示任务数
  • \(L_k, w_k, \theta_k\):分别是任务k的loss function、loss weight、task-specific parameters

然而,由于存在许多问题,在实际中对MTL models做出joint optimization很具挑战。在本paper中,我们会对joint loss function进行最优化来解决在真实推荐系统中遇到的两个问题。

第一个问题是:由于顺序的用户动作产生的不同类的样本空间(heterogeneous sample space)。例如,用户在点击一个item后只会分享或评论。这会导致如图6所示的不同样本空间。

图片名称

图6 不同任务的training space

为了联合训练这些任务,我们会考虑所有任务的样本空间的联合(union)作为整个训练集,而当计算每个任务的loss时,会忽略在它之外样本空间的样本:

\[L_k(\theta_k, \theta_s) = \frac{1}{\sum_i \sigma_k^i} \sum\limits_i \sigma_k^i loss_k(\hat{y}_k^i (\theta_k, \theta_s), y_k^i))\]

…(9)

其中:

  • \(loss_k\)是任务k基于prediction \(\hat{y}_k^i\)、以及ground truth \(y_k^i\)的样本i的的loss
  • \(\sigma_k^i \in \lbrace 0, 1 \rbrace\)表示的是:样本i是否位于task k的样本空间

第二个问题是:一个MTL模型的效果对于在训练过程中loss weight的选择是否敏感【9】,因为它决定了在joint loss上每个任务的相对重要性。实际上,这会观察到:每个任务在不同的训练过程会具有不同的重要性。因此,我们会为每个task考虑loss weight作为一个动态权重(dynamic weight),而非一个static权重。首先,我们会为task k设置一个初始的loss weight \(w_{k,0}\),接着在每个step后基于updating ratio \(\gamma_k\)更新它的loss weight:

\[w_k^{(t)} = w_{k,0} \times \gamma_k^t\]

…(10)

其中:

  • t表示training epoch
  • \(w_{k,0}\)和\(\gamma_k\)是模型的超参数

5.实验

在这部分,会在腾讯大规模推荐系统以及公开benchmark datasets上执行大量离线和在线实验来评估提出模型的有效性。我们也在所有gate-based MTL模型上分析了expert的使用,以便理解gating networks的工作机制,并验证CGC和PLE的结构。

5.1 在视频推荐上的评估

在本节中,我们会使用复杂和正常相关的任务组作为在视频推荐系统上的多个任务,来评估提出模型的效果。

5.1.1 Dataset

我们通过在腾讯新闻从视频推荐系统上抽样用户日志,收集了一个工业界dataset,它具有8天连续。它具有4.69亿用户,268w个视频,并在数据集上具有9.95亿样本。如前所述,VCR、CTR、VTR、SHR(share rate)、CMR(comment rate)是在该dataset中建模的任务。

5.1.2 Baseline模型

在该实验中,我们在单任务、asymmetric sharing、customized sharing上对比了CGC和PLE,其中SOTA MTL模型包括:cross-stitch network、sluice network,MMOE。由于multi-level experts会在PLE中共享,我们会将MMOE扩展到ML-MMOE(multi-layer MMOE),如图1所示,通过添加multi-level experts来进行公平对比。在ML-MMOE中,更高level的experts会对来自更低level的experts的representations进行组合,所有gating networks会共享相同的selector。

5.1.3 实验setup

在该实验中,VCR prediction是一个regression task,它使用MSE loss进行训练和评估;在其它动作上的任务建模都是二分类任务,它们使用cross-entropy loss进行训练,并使用AUC进行评估。在首个7天的样本会用来进行训练,其余样本是test set。对于在MTL模型和single-task模型中,对于每个task,我们采用一个3层的MLP network,它使用RELU activation和hidden layer size为[256,128,64]。对于MTL模型,我们实现了expert作为一个single-layer network,并对以下的model-specific超参数进行调参:shared layers的数目、在hard parameter sharing和cross-stitch network上的cross-stitch units,在所有gate-based模型中的experts数目。对于公平比较,我们实现了所有multi-level MTL模型作为two-level models来保持相同深度的模型。

图片名称

表1

基于公平的评估指标(比如:AUC和MSE),对于一个特定任务,我们定义了一个MTL gain的指标来量化评估多任务学习要比单任务模型的好处。如等式11所示,对于一个给定的task group以及一个MTL模型q,在任务A上q的MTL gain被定义成MTL模型q对比相同网络结构和训练样本的single-task model的效果提升。

\[MTL gain = f(n) = \begin{cases} M_{MTL} - M_{single}, & \text{M is a positive metric} \\ M_{single} - M_{MTL}, & \text{M is a negative metric} \end{cases}\]

…(11)

5.1.4 复杂相关性的任务评估

为了更好捕获主要的在线engagement metrics,例如:view count和watch time,我们首先在VCR/VTR的任务组上开展实验。表1展示了实验结果,我们会以粗体表示最好得分,效果下降则以灰色。在VTR上,CGC和PLE可以极大胜过所有其它baseline模型。由于在VTR和VCR间复杂相关系,我们可以很明显地观察到seesaw效应,它使用zigzag灰色分布,一些模型提升VCR但会伤害VTR;而一些则提升VTR但伤害VCR。特别的,MMOE会同时提升在single-task上的任务,但这些提升是不大的,而ML-MMOE则会提升VTR但会伤害VCR。对比MMOE和ML-MMOE,CGC会提升VTR更多,提升VCR很少。最后,PLE会收全省到相同的一步,并在上述模型上达到极大的提升,它具有最好的VCR MSE,以及其中一个最好的VTR AUCs。

图片名称

表2

5.1.5 在正常相关性的任务上评估

由于CGC和PLE在处理真实复杂相关性的任务上表现很好,我们会进一步在具有正常相关性模式的CTR/VCR的一个通用任务组上进行验证。由于CTR和VCR的目标是建模不同的用户动作,在它们间的相关性更简单些。如表2所示,事实上,除了cross-stitch之外的所有模型,在两种任务上都表现出正向的MTL gain,这表明:在CTR和VCR间的相关性模式并不复杂,不会具有seesaw效应。在该场景中,CGC和PLE仍能在两种任务上极大地胜过所有SOTA模型,并具有显著的MTL gain,这验证了CGC和PLE的收益是通用的,可以有效达到更好的共享学习,并能在多个任务场景下一致提供增量的效果提升,不仅仅是那些具有复杂相关性的任务,同时也包括普通相关的任务。

图片名称

表3

5.1.6 online A/B testing

在VTR和VCR的任务组上我们进行仔细的online A/B test,达4周。我们在c++深度学习框架上实现了所有MTL模型,随机分配用户给不同的buckets,并在每个分桶上部署一个模型。最后的ranking score通过多个predicted scores的组合函数来获得(如第3节所示)。表3展示了MTL models在single-task模型上的提升(total view count per user/ total watch time per user)。它表明:对比baseline models,CGC和PLE能在online metrics上能达到极大的提升。另外,在所有在线指标上,PLE都要极大好于CGC,这表明:在MTL中,AUC或MSE上的小提升可以为在线metrics带来极大提升。PLE已经部署在tencent平台上。

5.1.7 多任务上的评估

最后,我们在多个挑战性场景上探索了CGC和PLE的可扩展性。除了VTR和VCR外,我们会引入SHR(share rate)和CMR(comment rate)来建模user feedback actions。可以很灵活地扩展CGC和PLE到多任务cases中,只要为每个task添加一个task-specific expert module、gating network、tower network即可。如表4所示,对比起single-task model,CGC和PLE几乎在所有task group上会达到极大提升。这表明CGC和PLE仍展示了促进任务协同的好处,对于超过2个任务的通用场景,仍可以阻止negative transfer和seesaw效应。PLE的效果在所有cases上都要极大好于CGC。因此,PLE展示了在跨不同sizes的task groups上提升shared learning efficiency的更强的收益。

图片名称

表4

图片名称

图7

5.2 public datasets上的评估

5.3 Expert使用分析

为了探索experts是如何通过不同gates间进行聚合的,我们在工业界dataset上的VTR/VCR task group上,研究了所有gate-based models的expert utilization。出于简洁性和公平对比,我们会考虑将每个expert看成是一个single-layer network,在CGC和PLE的每个expert module上保持一个expert,而在MMOE和ML-MMOE的每个layer则会保持三个experts。图8展示了在所有testing data上每个gate使用的experts的权重分布,其中:bars的高度以及垂直short lines分别表示weights的均值和标准差。它表明:VTR和VCR在CGC中会使用极不同的weights来组合experts,而在MMOE中则使用非常相似的weights,这表明:CGC的良好设计结构可以帮助达到在不同experts间更好的区分度。另外,在MMOE和ML-MMOE中所有experts都有非零权重,这进一步表明:对于MMOE和ML-MMOE来说,在没有先验知识的情况下,很难去收敛CGC和PLE的结构,尽管存在理论可能性。对比起CGC,在PLE中的shard experts对tower networks的input具有更大的影响,特别是在VTR任务上。实际上,PLE的效果要好于CGC,这表明在更高level上共享更深的representations的价值。换句话说,需要在任务间共享的更深语义表示,因此 一个progressive separation routing可以提供一个更好的joint routing和learning scheme。

图片名称

图8

6.

参考

google Titans介绍

google在《Titans: Learning to Memorize at Test Time》提出了区别于Transformer的的一种新架构:Titans。我们来看一下它的实现,是否有前景:# 摘要在过去的十多年里,关于如何有效利用循环模型(recurrent mo...… Continue reading

meta QuickUpdate介绍

Published on January 02, 2025

kuaishou CREAD介绍

Published on August 05, 2024