January 02, 2024d0evi1 Reading time ~2 minutes

Meta Adatt

*— layout: post title: Meta AdaTT介绍 description: modified: 2024-1-2 tags: —

meta在《AdaTT: Adaptive Task-to-Task Fusion Network for Multitask Learning in Recommendations》提出了AdaTT的多任务建模方法。

摘要

多任务学习（MTL）旨在通过同时在多个任务上训练机器学习模型来提高它们的性能和效率。然而，MTL研究面临两个挑战：

1）有效地建模任务之间的关系以便实现知识共享，
2）共同学习任务特定（task-specific）知识和共享知识

本文提出了一种名为自适应任务融合网络（AdaTT：Adaptive Task-to-Task Fusion Network）的新模型，以解决这两个挑战。AdaTT是一个深度融合网络，具有多层的专有任务单元（task-specific unit）和可选共享融合单元。通过利用一个残差机制（residual）和一个门控机制（gating）来进行任务间融合（task-to-task fusion），这些单元可以自适应地同时学习共享知识和专有任务知识。为了评估AdaTT的性能，我们使用各种任务组在公共基准和工业推荐数据集上进行实验。结果表明，AdaTT明显优于现有的最先进基线。此外，我们的端到端实验表明，与替代方案相比，该模型表现更好。

1.引言

在线推荐系统旨在为用户生成个性化的高质量推荐。这些系统的有效性通常取决于它们准确学习用户偏好的能力，这通常需要同时优化多个目标。例如，一个短视频推荐系统应该考虑用户观看视频（watch）的可能性（likelihood）和他们喜欢视频（like）的可能性（likelihood）。多任务学习（MTL）是这些用例的典型解决方案。通过在单个框架内联合训练多个任务，MTL提供了几个好处：

首先，它增加了计算效率，这对于大规模在线推荐系统非常重要
此外，它通过跨任务正则化（cross-task regularization）和知识共享（knowledge sharing），增强了模型表现

然而，MTL也面临着独特的挑战。其中一个主要挑战是建模任务之间的关系。由于每个任务可能与其他任务具有不同程度的相关性，仅仅建模所有任务的一般共性是不够的。这个问题的复杂性随着任务数量的增加而增加。有效的任务关系建模是实现任务自适应知识共享（task-adaptive knowledge sharing）的关键。例如，“分享视频（share）”任务共享的知识可以在类似于“喜欢视频（like）”的任务中得到很大的权重，同时也可以从具有丰富示例的其它任务中吸取不同方面的知识，例如“观看视频（watch）”。另一方面，它会最小化与高度不相关的任务的共享学习(shared learning)。

先前的工作[2、19]通常采用静态共享表示(static shared representations)。
其他工作，如cross-stitch network[24]（如图2（c）所示），学习矩阵来建模多个子网络之间的关系。然而，权重对于所有样本保持不变，子网络只是松散的特定任务。
最近的方法，如MMoE[22]（如图2（b）所示）和PLE[29]（如图2（e）所示），使用专门的门控网络（gating networks）来动态组合共享的子模块以实现灵活的共享，但是这些方法建模的任务之间的关系是模糊和间接的。

图片名称

图2 我们实验中使用的MTL模型。在多级MTL模型中，使用两个融合level来说明它们的设计。模块用不同的颜色表示：共享模块为蓝色，任务A特定模块为黄色，任务B特定模块为紫色

除了共享学习，专有任务学习（task-specific learning）也是多任务学习的一个重要组成部分。在两者之间取得适当的平衡对于解决任务冲突（task conflicts）和实现跨任务正则化（cross-task regularization）非常重要。

一方面，MTL可能会遇到，负迁移（negative transfer）的问题：其中对一个任务的优化会对另一个任务的性能产生负面影响，特别是当任务具有冲突的目标时。在这种情况下，MTL模型应该自适应地强调专有任务学习。
另一方面，专有任务学习过度和共享不足可能会导致过拟合，降低跨任务正则化的效益。每个任务的训练数据的数量和分布也会影响学习的重点：具有更多数据的任务可以更多地依赖于它们的专有学习，而那些具有较少数据或高度倾斜数据的任务可以更多地集中于共享学习。

考虑到样本之间的差异可以使两者之间的权衡更加动态。因此，自动学习平衡这两种类型的学习非常重要。许多软参数共享模型（soft parameter sharing）可以在不需要繁琐的手动调整[2]或学习所有样本的静态结构。然而，进一步的研究是需要理解：如何建模在共享任务学习与专有任务学习间的交互，以便提升效果。

为了共同应对这些挑战，我们提出了一种新颖的MTL模型，自适应任务到任务融合网络（AdaTT）。为了实现共享学习和可解释性，我们提出引入特定任务的专家、共享专家和门控模块，以明确地模拟任务对任务以及所有任务层面的交互。为了协同进行特定任务学习和共享学习，我们将它们区分并在独立的融合模块中进行建模，每个模块应用不同的专家和融合策略。然后通过残差机制[12]结合融合结果。此外，我们采用多级融合，每级针对不同的功能进行专门化处理，以提高学习性能。

为了评估AdaTT的性能，我们在一个真实世界的短视频推荐系统上进行了实验。我们调整实验组以检查其对不同任务关系的适应性。此外，我们还使用了一个公共基准测试进一步展示了其泛化能力。在所有这些实验中，AdaTT在不同数据集和任务组上始终表现优于基线模型。

为了评估AdaTT在大规模上的性能，我们对其超参数进行了研究，特别关注融合层次和专家数量。此外，我们设计了一项消融研究和可视化分析，以深入了解AdaTT的内部机制。消融研究验证了残差设计的有效性，通过分别建模的融合模块实现了互补的任务特定和共享学习。深度和浅层融合层次上专家权重的可视化提供了对不同且具有意义的在不同融合层级、任务以及任务组之间共享所习得的模式。

本文的贡献总结如下：

我们提出了一种新颖的MTL模型，自适应任务间融合网络（AdaTT），它同时实现了自适应任务间的知识共享和稳健的任务特定学习。
通过对真实世界基准数据和大规模视频推荐系统的彻底实验，我们评估了AdaTT与各种基线模型的有效性。
我们通过对其各个融合模块进行消融研究，并探究其融合单元在浅层和深层知识融合中的操作情况，展示了模型的可解释性。

2.相关工作

多任务学习在各个领域都有广泛的应用，包括计算机视觉[16, 19, 24, 34]、自然语言处理[5, 11]、语音识别[6]、机器人学[32]和推荐系统[10, 22, 29, 35]。许多研究都集中在开发创新的MTL架构上。这些模型可以分为两类：硬参数共享和软参数共享。硬参数共享涉及使用预定义的模型架构，在该架构中某些层在所有任务之间共享，而其他层则特定于单个任务。

共享底层模型(Share Bottom Model)[2]是硬参数方法中最广泛使用的模型之一。该模型利用共享的下层进行表示学习，并在其顶部添加特定于任务的层。多线性关系网络[20]通过在对特定任务层的参数施加张量正则化先验来改进这一结构。另一个例子是UberNet[16]，它使用图像金字塔方法联合解决不同层次的低级、中级和高级视觉任务。它使用特定于任务的层和共享层处理金字塔中的每个分辨率。硬参数共享模型通常具有紧凑的结构，但需要大量的人工努力来确定共享什么，并且缺乏适应性。此外，在不相关或冲突的任务之间过度共享可能导致负迁移，这可能对模型性能产生负面影响。

为了更好地应对这些挑战，已经提出了许多软参数共享的迁移学习（MTL）模型。

交叉拼接网络（Cross-stitch network）[24]和闸门网络（sluice network）[26]使用可训练参数线性组合每一层的输出。然而，它们应用的线性组合是固定的，因此不能完全反映单个示例上的任务关系区分。其他工作提出使用注意力或门控模块，并根据输入动态组合或提取每个任务的知识。例如，
MTAN[19]采用注意力模块产生逐元素掩码，从共享表示中提取特定于任务的知識。
MMoE[22]引入了专家混合，并使用门控网络动态融合它们以适应每个任务
PLE[29]被提出来进一步增强知识共享的灵活性。PLE明确引入了特定于任务的专家与共享专家相结合。此外，PLE提出使用门控模块进行渐进式分离路由，以选择性和动态地融合知识。

在这一系列中工作原理中，PLE与我们的工作最为相关。不同之处在于，我们的工作引入了两种互补的融合模块，分别用于模型特定任务学习和共享学习。此外，除了明确引入共享模块以学习所有任务间的共性外，我们还利用基于输入的直接任务对融合，以最大化知识共享的灵活性。

神经架构搜索（NAS）[8, 17, 18, 25, 36]方法已被应用于多任务学习（MTL），以自动学习模型结构。
分支多任务网络[30]通过基于亲和度分数对任务进行聚类，并将不相似的任务分配到不同的分支中来生成树状结构。[9]利用Gumbel-Softmax采样进行分支操作，而不是预先计算的亲和度分数，从而实现端到端的训练。
软层排序技术[23]识别了传统固定顺序共享方法在MTL模型中的局限性，并提出学习特定于任务的比例参数，以实现每个任务共享层的灵活排序。
AdaShare [28]学习一个特定于任务的策略，以选择执行哪些层来处理每个特定任务。
子网络路由（SNR）[21]将共享层分割成子网络，并学习它们与潜在变量的连接。

NAS方法消除了大量手动工作，并提高了MTL模型中共享模式的灵活性。然而，由于对所有可能模型配置的穷举搜索在组合上是复杂的，这些方法通常依赖于简化假设，如分支[9, 30]、路由[21]、层排序[23]、层选择[28]等，以限制搜索空间。此外，生成的结构不会适应个别示例。

除了专注于多任务学习架构设计的工作外，另一条研究路线旨在改进多任务优化。

基于不确定性的加权[15]根据任务的不确定性来学习每个任务的权重。
GradNorm[3]控制不同任务的梯度大小以平衡它们的训练速率。
GradDrop[4]概率性地选择一个符号并移除相反符号的梯度。
梯度手术（PCGrad）[33]将冲突的任务梯度投影到彼此的正交平面上。
RotoGrad[14]操纵任务梯度的大小和方向以缓解冲突。
[27]将多任务学习视为一个多目标优化问题，目标是找到帕累托最优解。
[31]引入了具有欠参数化小塔的自辅助损失，以平衡帕累托效率和跨任务泛化。

虽然这些方法可以带来改进，但仅依赖它们而没有强大的模型架构可能会限制模型性能的上限。

3.模型结构

为了共同学习自适应共享表示并增强专有任务学习，我们提出了一个新模型：自适应任务融合网络（AdaTT）。AdaTT利用门控和残差机制来自适应地融合多个融合层中的专家（experts）。考虑一个具有两个预测任务的多任务学习场景。我们使用两个融合层在图1中说明了AdaTT的架构。AdaTT由多层融合网络（multi-level fusion network）和任务塔（task towers）组成。融合网络（fusion networks）由任务特定和可选共享融合单元构成，而任务塔建立在融合网络之上，并与最终融合层中的任务特定单元相连。我们的框架是通用的，支持灵活选择专家模块、任务塔网络、门控模块和可配置数量的专家和融合层。在接下来的章节中，我们首先介绍AdaTT的一个特殊case：称为AdaTT-sp，它仅使用任务特定融合单元（如图1（a）所示）。然后，我们将描述通用的AdaTT设计，如图1（b）所示。

图片名称

图1 AdaTT-sp和具有2个fusion levels的通用AdaTT。任务A和B的特定和共享模块通过颜色区分：A为黄色，B为紫色，共享为蓝色。为了说明，我们为每个任务特定单元使用了2个专家。在通用AdaTT中，我们添加了一个共享融合单元，其中只有一个专家作为示例。请注意，通用AdaTT中的共享模块并不是必需的，因此使用虚线表示。当不存在共享模块时，通用AdaTT会回退到AdaTT-sp。

3.1 AdaTT-sp

AdaTT-sp的详细设计如下所示。给定输入𝑥用于𝑇个任务，任务𝑡（𝑡=1,2,…,𝑇）的预测被公式化为：

\[y_t=h_t(𝑓_𝑡^L(𝑥))\]

…(1)

其中：

L：是融合层数量
$h_t$：表示任务𝑡的任务塔
$𝑓_t^L$：表示在第𝐿个融合层产生任务𝑡的融合单元的函数

这里，$𝑓_𝑡^L(𝑥)$通过使用等式(2)和(3)，从底部到顶部应用融合层来计算：

\[𝑓_1^0(𝑥)=𝑓_2^0(𝑥)=\cdots=𝑓_T^0(𝑥)=𝑥\]

…(2)

\[𝑓_𝑡^l(𝑥)=𝐹𝑈_𝑡^l(𝑓_1^{(𝑙−1)}(𝑥), 𝑓_2^{𝑙−1}(𝑥), \cdots, 𝑓_𝑇^{l-1}(𝑥)), 𝑙=1 \cdots L\]

…(3)

这里，FU表示融合单元。

3.1.1 融合单元(fusion unit)

下面我们详细介绍引入等式(3)中的$𝐹𝑈_𝑡^l$的构造。对于任务𝑡，在接收到前一个融合层（fusion level）的所有输出后，我们首先会使用函数$e_{𝑡,𝑖}^l$，和输入$𝑓_t^{l-1}(𝑥)$，来为该任务构造$𝑚_𝑡$个本地专家(naive experts)，表示为$𝐸_{𝑡,𝑖}^l$，即:

\[𝐸_{𝑡,𝑖}^l=e_{𝑡,𝑖}^l(f_𝑡^{l-1}(𝑥))\]

…(4)

其中：

$i=1,2,\cdots,𝑚_t$
$𝐸_{𝑡,𝑖}^l \in R^{1×𝑑^𝑙}$

在第𝑙层，每个专家网络(expert network)会产生长度为$𝑑^𝑙$的向量。为了简化表示，在第𝑙层，我们使用：

$𝐸_𝑡^l$：表示属于任务𝑡的experts的所有垂直拼接（vertical concatenation）
$𝐸^𝑙$：表示跨任务的所有experts的所有垂直拼接

具体而言，$𝐸_𝑡^l$ 和$𝐸^𝑙$表示为：

\[𝐸_𝑡^l=[𝐸_{𝑡,1}^l, 𝐸_{𝑡,2}^l,\cdots,𝐸_{𝑡,𝑚_t}^l]\]

…（5）

\[𝐸^𝑙=[𝐸_1^l,𝐸_2^l, \cdots, 𝐸_𝑇^l]\]

…（6）

其中：

$𝐸_𝑡^l \in R^{𝑚_t \times 𝑑^𝑙}$
$𝐸^𝑙 \in R^{(𝑚_1+𝑚_2+…+𝑚_𝑇)×𝑑^𝑙}$

在上述等式中：

$[,]$：表示将向量或子矩阵垂直堆叠成较大矩阵的操作。

由于任务可能与其他任务具有不同的相关性，$𝐹𝑈_𝑡^l$直接使用门控模块$𝐴𝑙𝑙𝐸𝑥𝑝𝑒𝑟𝑡𝐺𝐹_𝑡^l$来结合所有任务的专家$𝐸^𝑙$来模拟任务间的知识融合。此外，我们利用 轻量级线性组合 $𝑁𝑎𝑡𝑖𝑣𝑒𝐸𝑥𝑝𝑒𝑟𝑡𝐿𝐹_𝑡^l$来融合任务𝑡的本地专家，即$𝐸_𝑡^l$。概念上，门控模块模拟共享学习，本地专家的线性组合（linear combination）模拟专有任务学习。具体而言，任务𝑡在第𝑙层的特定单元的输出被公式化为：

\[𝑓_𝑡^l(𝑥) = AllExpertGF_𝑡^l(𝐸^𝑙, 𝐺_𝑡^l) + NativeExpertLF_t^l(𝐸_𝑡^l)\]

…(7)

在公式7中，专家被融合如下：

\[𝑁𝑎𝑡𝑖𝑣𝑒𝐸𝑥𝑝𝑒𝑟𝑡𝐿𝐹_t^l(𝐸_𝑡^l)=(𝑣_𝑡^l)^T 𝐸^{𝑡^l}\]

…（8）

其中：

在𝐴𝑙𝑙𝐸𝑥𝑝𝑒𝑟𝑡𝐺𝐹中，$𝐸^𝑙$ 乘以由一个函数$𝑔_𝑡^l$生成的门控权重$𝐺_𝑡^l \in R^{(𝑚_1+𝑚_2+\cdots+𝑚_𝑇)\times 1}$
在𝑁𝑎𝑡𝑖𝑣𝑒𝐸𝑥𝑝𝑒𝑟𝑡𝐿𝐹中，相似的，$𝐸_𝑡^l$仅由一个可学习的向量$v_𝑡^l \in R^{𝑚_𝑡 \times 1}$组合在一起

当$𝑚_1=𝑚_2=\cdots=𝑚_𝑇=1$时，即所有融合单元仅有一个专家时，为了简化起见，$𝑁𝑎𝑡𝑖𝑣𝑒𝐸𝑥𝑝𝑒𝑟𝑡 𝐿𝐹_𝑡^l(𝐸_t^l)$回退到$𝐸_𝑡^l$，将一个单位权重分配给本地专家。有许多设计选项可用于$𝑔_𝑡^l$。常见的一种是使用由softmax激活的单层MLP：

\[𝑔_𝑡^l(𝑓_𝑡^{𝑙−1}(𝑥))=𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑊_𝑡^l 𝑓_𝑡^{𝑙−1}(𝑥)^T)\]

…（10）

这里：

$𝑊_𝑡^l \in R^{(𝑚_1+𝑚_2+\cdots+𝑚_𝑇)} × 𝑑^{𝑙−1}$是一个学习的矩阵。

3.1.2 简化

为了实现效率，考虑到公式8和公式9，我们实际上可以用零填充$(𝑣_𝑡^l)^T$以匹配$(𝐺_t^l)^T$的大小，加权并执行单个乘法来组合所有专家。因此，公式7可以简化为：

\[𝑓_𝑡^l(𝑥)=(𝑝𝑎𝑑(𝑣_𝑡^{lT} )+𝐺_𝑡^{lT}) 𝐸^𝑙\]

… （11）

正如我们所看到的，包含线性融合模块会导致计算量的最小增加。

3.2 常规版本的AdaTT(General AdaTT)

在其一般形式中，如图1(b)所示，AdaTT采用可选的共享融合单元（shared fusion units）。从概念上讲，专有任务模块pairs间的融合模拟了细粒度共享(fine-grained sharing)，而专有任务模块和共享模块间的融合则传递了适用于所有任务的广泛知识。这导致了高效灵活的任务间知识共享。通用AdaTT的计算方式与AdaTT-sp类似，除了最后一个fusion level，共享融合单元不执行任何融合操作，只为专有任务融合单元产生专家输出进行处理。

总之，AdaTT明确地学习任务特定知识并自适应地与共享知识融合。融合是任务自适应的，因为：

1.门控模块学习与任务本地专家相关的残差
2.每个任务特定单元使用特定的门控模块融合专家，该门控模块以输入为条件（从第二个融合级别开始是唯一的）

通过允许每个任务直接而灵活地从其他任务中学习共享知识，AdaTT相比于仅依赖于共享专家作为媒介的PLE具有更大的灵活性。此外，AdaTT可以选择仅使用任务特定专家。与PLE不同，它在每个融合单元内的不同线性融合模块中单独融合本地专家，而不是在单个门控模块中处理所有选定的专家。这种设计增强了每个融合级别后任务特定学习的鲁棒性。尽管它很简单，但我们的实验表明，它胜过了PLE，后者将选择应用于不同的融合单元中的专家，并使用不同的路由路径来区分这些专家。

4.实验

在本节中，我们提供了全面的实验结果，以突出我们提出的AdaTT模型的有效性，并更好地理解它。

本节分为四个部分。我们：

首先在第4.1节简要描述基线模型。
其次，我们通过在实际工业和公共数据集上的实验评估AdaTT相对于最先进的多任务学习模型的有效性。

对于工业数据集，我们使用三组不同的预测任务来检验这些多任务学习模型在各种场景下的性能。

第4.2节和第4.3节分享了结果。
接下来，我们在第4.4节和第4.5节分别介绍各个组件研究。

我们简化NativeExpertLF模块以验证AdaTT残差设计的重要性，该设计包含分离的模块以融合不同的专家。我们还可视化每个任务特定单元中学习的专家权重，以展示AdaTT如何学习任务之间的适当交互，这对于有效的知识共享至关重要。最后，在第4.6节中，我们对AdaTT的超参数进行研究，以理解融合层级数量与专家数量之间的关系以及AdaTT的性能。

4.1 基线模型

我们采用了Shared-bottom、MMoE、Multi-level MMoE（原始单级MMoE的扩展）、PLE和Cross-stitch Networks作为我们的基线。在这些模型中，MMoE、PLE和Cross-stitch Networks利用了软参数共享技术。

MMoE [22]：该模型为每个任务学习一个专用的门控模块，用于融合多个共享的专家模块。给定𝑛个专家模块𝑒₁, 𝑒₂, …, 𝑒ₙ，任务𝑡的任务塔模块ℎₜ与门控模块𝑔ₜ，任务𝑡的预测结果计算如下：

\[y_t = h_t(f_t(s))\]

…(12)

其中:

\[f_t(x) = g_t(x)[e_1(x), e_2(x), ..., e_n(x)]\]

…(13)

这里：

[ ]表示将向量垂直堆叠成矩阵。
多层MMoE（ML-MMoE）：该模型在原始单层MMoE的基础上引入了多层融合机制。在ML-MMoE中，高层专家以经过不同门控模块融合后的低层专家作为输入。与原始MMoE类似，所有门控模块都基于相同的原始输入进行条件化。
Cross-stitch [24]：该模型引入了交叉拼接单元，通过学习得到的权重对不同任务的隐藏层进行线性组合。
PLE [29]：该模型显式地引入了任务特定专家与共享专家，并采用渐进分离路由策略。门控模块用于融合任务特定单元和共享单元中所选的专家。在PLE中，共享单元可以融合同一层的所有专家，而任务特定单元仅融合其自身的专家及共享专家。该模型与AdaTT最为接近。

上述所有模型如图2所示，以便于对比。

图片名称

图2：我们实验中使用的MTL模型。在多层MTL模型中，使用两个融合层来说明其设计。模块使用不同的颜色表示：共享模块为蓝色，任务A的特定模块为黄色，任务B的特定模块为紫色。

4.2 大规模短视频推荐系统评估

本节我们将展示在短视频推荐系统上的实验结果。该系统展示一个根据多个任务得分排序后生成的推荐视频列表。这些任务大致可以分为两类：

参与度任务（engagement tasks）：即考虑用户显式反馈的任务（例如对视频进行评论）；
消费任务（consumption tasks）：即反映用户隐式反馈的任务（例如视频观看行为）。

4.2.1 任务分组

我们构建了三组任务，以全面评估这些模型在不同任务关系下的表现：

第一组：包含一个参与度任务和一个消费任务，这两个任务预期相关性较低。
第二组：由两个相关性较高的消费任务组成。其中第一个任务与第一组中的消费任务相同，第二个任务的选择使其具有与第一组中参与度任务相当的正样本事件率。第1组和第2组都仅包含二分类任务。
第三组：我们将任务数量增加到五个，并选取了高度多样化的任务。其中三个为消费任务，两个为参与度任务。其中一个消费任务为回归任务，其余四个为二分类任务。从用户情绪角度来看，我们包含了一个反映用户“不喜欢”行为的任务，以及四个关于正反馈的事件任务。其中一个正样本极其稀疏的参与度任务被用作辅助任务。

在汇报所有任务组的结果时，我们首先展示回归任务（如果存在），随后按正样本比例从高到低的顺序展示分类任务。

4.2.2 实验设置

我们收集了约700亿条样本用于模型训练，并在约1000亿条样本的测试集上评估其性能。在特征处理方面，我们将所有稀疏特征转换为稠密嵌入向量，并与稠密特征进行拼接。所有任务使用相同的输入。所有模型均在同一框架下进行训练和测试，采用相同的优化设置，如优化器、学习率和批量大小等。对于训练，我们对二分类任务使用交叉熵损失（Cross Entropy Loss），对回归任务使用均方误差损失（MSE Loss）。所有任务的损失函数求和后以相等权重进行联合优化。在测试阶段，我们对二分类任务使用归一化熵（Normalized Entropy, NE）[13]，对回归任务使用均方误差（MSE）。

4.2.3 模型超参数

在我们的实验中，所有模型都包含 3 个使用 ReLU 激活函数的隐藏层。对于每一组实验，我们进行了两项对比。

首先，我们将 MMoE、PLE 和 AdaTT 与共享底层（shared-bottom）模型进行比较。为了公平起见，PLE、ML-MMoE 和 AdaTT 都具有两级融合。在这两级融合中，我们分别使用单层MLP专家模块，其隐藏层维度分别为256和128。MMoE（多门混合专家）则由两层MLP专家模块构成，其隐藏层维度为[256, 128]。我们还对每一级融合中的专家总数设置了上限。这些模型中的所有门控模块均采用一层带有softmax激活函数的MLP。值得注意的是，与专家模块相比，门控模块所需的计算量要小得多。尽管这两类模块共享相同的输入维度，但门控模块的总输出维度几乎小了两个数量级。所有模型的任务塔（task tower）都包含一个具有64个单元的单一隐藏层。在这种设置下，所有模型的计算量相当，其中任务塔和专家模块占据了主要的计算资源。

在我们的实验中，我们对PLE（渐进式分层专家）和AdaTT模型调节了任务特定专家与共享专家的数量；而对于MMoE，则调节了专家的总数。

在另一项独立实验中，我们将AdaTT与交叉缝合模型（cross-stitch model）在共享底层模型（shared-bottom model）上的表现进行了对比。AdaTT使用了与前述实验相似的超参数，但为了与交叉缝合模型具有可比性，每个任务仅使用1个专家且不设置共享专家。交叉缝合模型包含2个交叉缝合单元，并采用与AdaTT相同的隐藏层结构。

4.2.4 关于参与度（engagement）与消费（consumption）任务组的实验

对于这一组任务，我们在分别使用100亿、300亿和700亿样本进行训练后，展示了各模型相对于共享底层模型在每个任务上的归一化熵（NE）差异结果，并同时提供了测试集上的结果。表1和表2分别展示了消费任务与参与度任务的结果。

图片名称

表1：消费+互动任务组中，消费型任务的表现

图片名称

表2：消费+互动任务组中，参与度任务的表现

结果表明，在这两类任务上，AdaTT的表现均优于其他所有模型，不仅收敛速度更快，而且预测质量更高。在使用100亿样本进行训练后，两个AdaTT模型在这两项任务上均已展现出显著的NE提升。就基线模型而言，PLE在消费任务上的收敛速度明显更慢。而交叉缝合模型与AdaTT相比差距较大，这凸显了在任务关系建模中自适应融合的重要性。

值得注意的是，与消费任务相比，PLE和AdaTT在参与度任务（该任务中正样本事件较少）上展现出了更大的改进幅度。然而，这种趋势在MMoE和ML-MMoE中并不明显，这突显了任务特定学习的重要性。

有趣的是，尽管ML-MMoE通过增加额外的融合操作拥有更高的灵活性，但其在两项任务上的表现却均不如MMoE，说明其在专家融合方面的性能较差。这很可能是由于其设计中缺乏区分性以及未引入先验知识所导致。共享专家高度对称，所有门控模块都会使用这些专家，且没有明确建模的任务特定专家。此外，所有门控模块接收的都是相同的原始输入。融合层数的增加带来了更多的路径选择，使得ML-MMoE更难为预测每一个特定任务学习到不同的权重组合。

4.2.5 关于两项消费任务组的实验

由于多任务学习（MTL）模型的性能可能对任务之间的相关性较为敏感，我们设计了一组实验，用于评估它们在两项相关性较高的消费任务上的表现，与前述任务组1（任务间相关性较低）形成对比。如表3所示，该组中所有模型在两项任务上的改进情况较基线模型更为相近。这并不令人意外，因为当任务之间关联更强时，负迁移现象较轻，两项任务都能从更高程度的共享知识中受益。

图片名称

表3 表3：消费任务组的表现

即使采用较简单共享机制的MTL模型也能取得不错的效果，因此不同模型间的NE差异不那么显著。然而，即便如此，AdaTT仍然在所有MTL模型中展现出了最佳的性能表现。

4.2.6 五项多样化任务实验。

在这一组任务中，我们通过使用五个高度多样化的任务，评估模型处理复杂跨任务关系的能力。我们对四个主要任务进行了调优，并将结果展示在表4中。由于辅助任务中正样本稀疏且噪声较大、性能不稳定，因此未将其纳入比较。结果表明，AdaTT在所有主要任务上均以显著优势超越所有对比模型，显示出其在处理复杂任务关系方面的优越性。

图片名称

表4 表4：模型在5项任务组上的表现

4.3.1 公开数据集评估

4.3.1 数据集描述。我们使用了从1994年和1995年当前人口调查中提取的“人口普查收入”数据集[7]。该数据集包含40个特征和299,285个实例，其中199,523个为训练样本，99,762个为测试样本。我们将测试样本随机等比例划分为验证集与测试集。任务包括：

1）预测收入是否超过5万美元；
2）预测婚姻状态是否为“从未结婚”；
3）预测教育程度是否至少为大学水平。

4.3.2 模型超参数设置。

本实验采用了一个改编自文献[1]的框架，用于训练和测试ML-MMoE、PLE和AdaTT模型。模型结构与第4.2.3节类似，但隐藏层维度和专家数量有所调整。实验分为两组进行，每组融合层中的专家数量分别为6个和9个。对于PLE和AdaTT，共享专家的数量𝑚𝑠经过调优，任务特定专家的数量则分别计算为$6−m_s$和$9−m_s$。为保证公平性，其他所有超参数在各模型间保持一致。在调优$𝑚_𝑠$后，每个模型使用不同初始化训练100次，并报告测试集上的平均AUC值。

4.3.3 实验结果。

结果如表5所示。AdaTT在所有任务上均优于基线模型。

图片名称

表5：UCI人口普查收入数据集上3个任务的性能。我们使用两级融合比较PLE、ML-MMoE和AdaTT。专家网络和任务塔网络是单层多层感知机（MLP），并列出了它们的隐藏维度。仅利用特定于任务的专家的AdaTT-sp设置，使AdaTT能够实现其最佳结果。

4.4 𝑁𝑎𝑡𝑖𝑣𝑒𝐸𝑥𝑝𝑒𝑟𝑡𝐿𝐹 模块的消融实验

本节中，我们研究了融合单元中采用 𝑁𝑎𝑡𝑖𝑣𝑒𝐸𝑥𝑝𝑒𝑟𝑡𝐿𝐹 模块时残差机制的作用。我们通过消融掉 𝑁𝑎𝑡𝑖𝑣𝑒𝐸𝑥𝑝𝑒𝑟𝑡𝐿𝐹 模块，仅使用 𝐴𝑙𝑙𝐸𝑥𝑝𝑒𝑟𝑡𝐺𝐹 模块来融合每个融合单元中所有专家的输出。我们采用了与第4.2.3节类似的模型结构，并设定每个任务固定使用三个专家，且不设置共享专家。两个模型均在700亿个样本上进行训练，在1000亿个样本上进行测试。实验结果如表6所示。

图片名称

表6：NativeExpertLF模块的消融研究。各项任务上的性能下降均表明了残差机制与单独融合的重要性。

尽管从理论上讲，𝐴𝑙𝑙𝐸𝑥𝑝𝑒𝑟𝑡𝐺𝐹 模块能够学习灵活的专家组合方式，但我们的实验仍然表明：将原生专家（即各任务专属专家）单独进行组合，并将 𝐴𝑙𝑙𝐸𝑥𝑝𝑒𝑟𝑡𝐺𝐹 的输出作为残差加回去，这一做法具有重要作用。具体而言，当消融掉 𝑁𝑎𝑡𝑖𝑣𝑒𝐸𝑥𝑝𝑒𝑟𝑡𝐿𝐹 模块时该术语在所有任务中都会导致损失增加，在分类任务中归一化误差（NE）上升了0.107%–0.222%，在回归任务中均方误差（MSE）上升了0.158%。

4.5 门控模块专家权重分布的可视化

在图3中，我们通过将来自𝑁𝑎𝑡𝑖𝑣𝑒𝐸𝑥𝑝𝑒𝑟𝑡𝐿𝐹和𝐴𝑙𝑙𝐸𝑥𝑝𝑒𝑟𝑡𝐺𝐹两个模块的权重进行叠加，可视化了专家权重的分布情况，以探究AdaTT的内部融合机制。为了评估专家的利用情况，我们选取了三个任务：两个消费类任务和一个参与度类任务。具体来说，我们在消费类任务中选择了一个回归任务，并在参与度和消费类任务中选择了两个正事件率最高的分类任务。我们实现了两个层次的融合，每个任务使用一个专家，且不共享专家。这两个融合层次中的专家分别为单层MLP，其隐藏层维度分别为256（第一层融合）和128（第二层融合）。在训练模型后，我们将其应用于测试数据集，计算所有测试样本上的平均权重，并为每个融合层次绘制了一个3×3的权重矩阵。其中有一些值得注意的观察结果：

图片名称

图3：在两级AdaTT-sp任务中，每个融合层学习到的专家权重分布可视化。任务和专家按照消费回归任务、消费分类任务和参与任务的顺序排列。请注意，此图显示了NativeExpertLF和AllExpertGF模块的权重总和。由于每个任务只有一个本地专家，NativeExpertLF模块为它们分配单位权重（映射到图中的对角网格）。

首先，在较低的融合层次（第0层），我们的模型能够识别出任务之间的关系。消费类任务与参与度类任务组之间存在明显区分。此外，在两个消费类任务之间还存在一种非对称的共享模式：分类类的消费任务主要使用专家2，而回归类的消费任务大致平均地使用了专家1和专家2。

在较高的融合层次（第1层），由于监督更紧密且捕捉到了丰富的语义信息，我们的模型通过跨任务的共享模式展示了软参数共享的优势。虽然原生专家在任务特定学习中发挥了重要作用，但所有专家都被灵活使用，共同促进了共享学习。在这一层次上，消费类分类任务通过利用专门用于参与度分类任务的专家3以及专门用于消费类回归任务的专家1，来实现学习的多样化。同时，正信号较少的参与度任务则从两个消费类任务中受益于知识迁移。相比之下，消费类回归任务主要依赖于其原生专家1以及另一个消费类任务所对应的专家。在所有专家中，专家1因其从第0层的专家1和专家2的混合中学到了最多样化的知识，而在所有任务中都获得了较高的权重。

总体而言，我们可以清晰地看到专业化的现象，即在不同任务、任务分组以及融合层次上，模型都学到了不同的权重分布模式。

4.6 超参数研究

我们开展超参数研究，以探究专家数量与融合层数的影响。两项研究均采用与第4.2.6节类似的5个预测任务，使用700亿条样本进行训练，100亿条样本进行测试。在这两项研究中，我们均采用AdaTT-sp作为模型架构。

4.6.1 任务特定专家数量的影响

为了考察任务特定专家数量的影响，为简化起见，我们在所有任务中保持任务特定专家数量一致，并将其在1至4之间变化。这些专家由一层多层感知机（MLP）构成，在两个融合层级上分别使用256维和128维的隐藏层。该分析的结果见表7.

图片名称

表7：AdaTT在不同任务专家数量下的表现。

可以观察到，随着专家数量的增加，所有任务的性能都有所提升。然而，这种提升并不是一致的：在本研究中，当专家数量增加到2时，参与度任务在NE（参与度指标）上相比消费类任务仅表现出轻微的改善。但随着专家数量进一步增加到3和4时，趋势发生了逆转，参与度任务在各项指标上展现出了更为显著的差异。

4.6.2 融合层级的影响

我们还通过为每个任务使用单个专家，研究了不同融合层级的配置。我们逐步增加融合层级的数量，并为每个层级使用单层MLP（多层感知机）。我们在不同融合层级下训练了四个模型，其MLP专家的隐藏维度分别为[256, 128]、[512, 256, 128]、[1024, 512, 256, 128] 和 [2048, 1024, 512, 256, 128]。对于任务塔，每个模型均采用隐藏维度为64的单层MLP。结果如表8所示。正如预期，增加更多的融合层级会带来更大的性能提升。即使将融合层级增加到五层，所有任务仍然都能观察到显著的改进。

图片名称

表8：AdaTT的性能随着融合级别提升的变化情况。我们在第一列中表示每个融合级别的专家隐藏维度。

5 结论

在本工作中，我们提出了一种新的多任务学习模型，称为自适应任务间融合网络（AdaTT）。通过利用其自适应融合机制，AdaTT能够有效建模复杂的任务间关系，并促进任务特定知识与共享知识的联合学习。通过在具有多样化任务组的真实工业数据集以及公共数据集上的全面评估，我们证明了AdaTT的有效性与泛化能力。结果表明，AdaTT在性能上显著优于当前最先进的多任务学习模型。我们希望我们的工作不仅能在多任务学习领域带来益处，也能在需要不同相关专业化模块协同学习的更广泛应用中发挥作用。

https://arxiv.org/pdf/2304.04959.pdf

December 05, 2023d0evi1 Reading time ~1 minute

pinterest的交叉实践

pinterest在《Improving feature interactions at Pinterest under industry constraints》提出了一种特征交叉的新思路。

摘要

在工业环境中采用推荐系统的先进成果常常面临挑战，因为存在独特的约束条件。本文旨在通过特征交互的视角来突出这些约束。特征交互对于准确预测推荐系统和在线广告中的用户行为至关重要。尽管许多新颖的技术在Criteo等基准数据集上显示出优越的性能，但由于模型延迟、GPU内存限制和模型可复制性等约束，它们的直接应用在工业环境中受到阻碍。在本文中，我们分享了在这些约束下改进Pinterest首页排序模型中特征交互的经验。我们提供了遇到的特定挑战、为解决这些挑战而采取的策略以及为平衡性能与实际限制所做的权衡的详细信息。此外，我们展示了一组学习实验，这些实验有助于指导特征交互架构的选择。我们相信这些见解对于有兴趣通过更好的特征交互学习来改进模型的工程师将是有用的。

1 引言

Pinterest是最大的内容分享平台之一，拥有超过5亿的月活跃用户[9]。如图1所示的Homefeed是大多数用户的首要入口点，也是主要的灵感来源，占据了平台上用户参与度的大部分。Pinterest上的用户可以通过保存、放大、隐藏等多样的操作与Pin进行互动。

图片名称

图1

为了增强用户在Homefeed上的体验，我们使用推荐系统确保为用户提供最相关的Pin。我们使用的是基于标准的检索、排名和混合的推荐系统。排序模型负责预测不同用户行为的概率。这是通过多任务建模方法实现的。

我们的排序模型可以分为三个部分：特征预处理、特征交互和任务预测。特征交互是模型的关键部分，对于有效捕捉特征和标签之间的复杂关系至关重要。

近年来[11][14][8][17]，提出了许多架构来高效学习这些关系。然而，这些架构通常在基准数据集的离线设置中进行评估，并没有考虑到工业推荐系统面临的现实世界约束。过多的超参数和高内存使用等限制使得这些技术在工业环境中不切实际。应对这些约束是改进我们的模型并为用户提供价值的关键。

本文的核心贡献总结如下：

我们详细描述了工业环境中面临的约束，并将其与学术研究进行对比。
我们提出了一组学习实验，以帮助指导选择合适的交互架构和超参数。
我们分享了在这些特定行业约束下，通过学习实验改进排序模型中特征交互的经验。本文的其余部分组织如下：第2节回顾相关工作。第3节描述了Homefeed排序模型。我们在第4节详细说明了我们工作的约束。第5节报告了使用不同特征交互层的学习实验和实验结果。最后，我们在第6节总结我们的工作。

2 相关工作

当今大多数工业推荐系统都基于深度神经网络模型，这些模型的大部分关键部分是有效地学习特征交互。像Wide & Deep[1]和DeepFM[5]这样的架构表明，学习低阶和高阶特征交互是有用的。[2]显示，随着更好的特征交互架构的出现，Criteo数据集上的点击率预测逐年变得更好。多层感知机（MLP）允许隐式建模高阶特征交互。DCN[12]及其后继者DCNv2[13]增加了一个显式的特征交叉来学习更好的交互。同样，xDeepFM[7]使用压缩交互网络（CIN）以显式方式学习低阶和高阶特征交互。AutoInt[10]提出了一个基于注意力的机制，在低维空间中显式建模特征交互。

Masknet[14]使用实例引导的掩码来辅助交互学习。FinalMLP[8]表明，一个经过良好调整的双流MLP模型可以胜过显式交叉。GDCN[11]使用门控来过滤掉嘈杂的特征交互，允许更高阶的特征交互。DHEN[16]提出了一个结合多种特征交互的框架。SDCNv3[6]提出使用浅层和深层交叉网络，整合了低阶和高阶特征交互。尽管这些新架构提高了准确性，但它们增加了模型的延迟和内存消耗，这使得在工业环境中更难使用。

DeepLight[3]提出通过使用一种机制来剪枝神经网络，以减少推理时间同时保持模型性能，从而缓解这个问题。然而，剪枝引入了失去可复制性的风险，这在工业环境中很重要。使用多头注意力机制的Transformer架构已被证明在特征交互学习方面是有效的[4]。

3 首页feeds排序模型（HOMEFEED RANKING MODEL）

Homefeed排序模型是一个深度学习模型，负责预测用户参与度概率的点估计。给定一个用户 u 和一个Pin p，模型预测 K 个概率——每个我们关心的用户行为（如保存、放大、隐藏等）都有一个。我们使用dense特征、sparse特征和嵌入特征的组合来表示用户、Pin和上下文。

dense特征被标准化以确保数值稳定性。
我们使用可学习的嵌入来表示sparse特征，并根据特征的基数选择嵌入大小。我们将较大的嵌入特征投影到较小的维度，然后再输入到模型中。
最重要的嵌入特征之一是我们的用户序列嵌入。它是使用基于Transformer的架构[15]学习得到的，输入是用户过去的参与情况。这个Transformer的输出被汇总到一个嵌入特征中

。稀疏和嵌入特征在与dense特征连接成一个单一特征嵌入之前被L2标准化。这个特征嵌入被用作特征交互层的输入。我们使用4个堆叠的全秩DCNv2[13]层来模拟特征交互。我们在将交叉特征嵌入和输入特征嵌入连接后，再传递到MLP层。我们使用一个共享的MLP，它有多个隐藏层，并预测对应于K个任务的K个输出。模型是使用用户过去的参与数据进行训练的，使用加权交叉熵损失。损失中的权重是根据业务需求选择的。我们将图2a中显示的架构作为我们所有实验的基线。

图片名称

图2 Homefeed ranking model

4 约束（CONSTRAINTS）

在迭代工业推荐系统时，考虑排序模型的各种约束至关重要。以下是其中一些约束，特别关注与我们的特征交互实验相关的，并与学术界进行对比。这不是一个详尽的列表，因为它不包括其他重要的考虑因素，如多样性和平衡业务指标。

4.1 内存

为了有效地利用我们的计算资源，我们选择的模型训练batch大小使得模型训练期间分配的最大内存大约是总可用内存的60%。这种分配为系统内存、内存碎片和可能增加内存使用的潜在未来项目留出了空间。尽管我们观察到进一步增加这个比例可以提高我们的模型质量，但如果最大分配内存超过75%，我们在模型重新训练期间会遇到间歇性的内存不足（OOM）错误。为了缓解这个问题，我们可以减少batch大小，但这是以牺牲模型质量和引入实验中的混杂变量为代价的。因此，任何需要大量额外内存的新技术都必须显著提高模型质量，以抵消因减少batch大小而造成的损失。

这通常不是学术研究的考虑因素，在那里batch大小可能被调整以最大化目标指标和训练时间。

4.2 延迟

模型推理延迟是我们整体系统延迟的重要组成部分。任何这种延迟的增加都会降低我们分布式服务系统的吞吐量。因此，我们然后需要增加额外的机器以获得相同的服务吞吐量，导致更高的运营成本。必须确保模型的任何改进都证明这些额外成本是合理的。此外，增加的模型延迟可以延长训练时间，从而影响开发速度。

在学术研究中，5%的延迟增加可能不会有关键影响，但在工业应用中，它会显著增加服务成本。话虽如此，由于可以轻松获得额外的计算资源，这是最容易权衡的约束之一。

4.3 超参数

使用具有众多超参数的模型架构会增加需要训练的模型数量，以确定最优配置。随着我们用户兴趣的变化，我们的数据分布也在变化。这要求我们定期调整这些超参数，以优化模型以适应最新的数据分布。

学术论文通常会进行广泛的超参数调整，以确定表现最佳的变体。由于这是一次性成本，减少模型中的超参数数量通常不是考虑因素。

4.4 可复制性

确保我们的模型可以使用相同的数据重新训练并产生一致的结果至关重要。没有这种一致性，就很难确定观察到的指标变化是给定变化的真实改进，还是模型内的简单变化。因此，任何纳入模型的特征交互都不应降低其可复制性。

我们通过计算使用相同配置的运行中HIT@3/save指标的标准差来衡量可复制性。一个可复制的模型应该有低标准差。

在学术界，可复制性不是一个重要因素。指标通常被报告为使用相同配置的几次运行的指标均值，但标准差通常不被比较。

4.5 稳定性

我们使用分布式训练方法来训练我们的模型，其中数值不稳定性可能导致模型失败。这要求我们从之前的检查点重新开始或完全放弃运行，导致计算资源浪费。任何纳入模型的新特征交互都不应影响其稳定性。

由于我们不断在新数据上重新训练我们的模型，跨不同数据分布的稳定性很重要。学术界通常使用固定的基准数据集来报告指标，所以通常不跟踪稳定性。

5 实验

5.1 指标

我们使用以下指标来评估我们的模型：

HIT@3/save指标[15]：尽管我们的模型预测多种行为，我们使用最重要的动作——保存（save），来进行模型的离线评估。我们根据新的预测结果对每个用户会话记录的结果进行排序，并计算前3个Pin中的保存(save)量。我们将这个指标与基线模型进行比较，并以百分比增益或损失的形式报告。
内存：这是训练期间分配的峰值内存，作为总可用GPU内存的百分比。
延迟：这是与基线模型相比，在大量batch中模型推理时间的增加或减少。

5.2 学习实验

在本节中，我们展示了我们进行的一系列学习实验，以确定哪些架构更改对模型有益。这些学习实验的结果在表1中。

表1

5.2.1 交互的顺序

我们评估了模型对增加交互顺序的反应，通过堆叠额外的特征交互层。在我们的实验中，我们成功地使用了多达8个堆叠的DCNv2层，而没有遇到内存不足（OOM）问题，并观察到了指标的改进。这告诉我们，我们的模型从更高阶的交互中受益。

5.2.2 平行交互

我们检查了模型对设计用来学习相似交互的平行层的反应。例如，平行的DCN层可能分别捕获不同的交互模式。在我们的实验中，同时运行多个堆叠的DCNv2层提高了模型性能。这告诉我们，我们的模型从学习同一阶的多个特征交互中受益。

5.2.3 交互的非线性

DCNv2在其架构中不包含非线性。在DCNv2中添加非线性的一种方式是使用低秩（LR）版本，在两个低秩全连接层之间使用非线性。我们将全秩DCNv2层替换为低秩层作为基线，并使用ReLU层作为非线性进行实验。我们比较了具有不同秩值的模型，并观察到我们的模型随着非线性交互的包含而改进。

5.3 变体（Variants）

我们选择了几种声称比DCNv2表现更好的特征交互架构进行实验。我们提供了以下架构的实现细节，并讨论了它们如何适应我们的约束。我们还提到了学习实验的结果如何指导我们进行最终模型选择。这些实验的结果在表2中。不同架构相对于不同约束的性能总结在表3中。

5.3.1 Transformer

要使用Transformer进行特征交互，我们首先将我们的S 个sparse特征投影到共同的维度 D。我们将我们的dense特征分组，并将其C次投影到维度D。我们将嵌入特征投影到维度D。此外，我们将用户序列Transformer的输出U次投影到维度D。这导致最终特征集包含(S+C+U) 个tokens，每个token的维度为 D。

然后我们应用多个Transformer编码器层进行特征交互。Transformer输出token被连接并使用MLP处理。

在我们的实验中，我们设置 C = 4 和 U = 4。我们使用了不同数量的头、令牌维度和层数，如表2所示。Transformer对内存需求很大，因此我们只能训练一个2层Transformer编码器模型而不会遇到OOM错误。这限制了特征交互的顺序为2，这很糟糕，因为我们的模型更喜欢更高阶的特征交互。我们不能减少batch大小以适应更多层，因为参与度指标与基线相比不够高。延迟和超参数的数量也使我们不再进一步探索这种架构。

5.3.2 FinalMLP

我们进行了实验，重点关注调整超参数，如层数、隐藏层的大小和头的数量，即 k。我们在 k 的较小值时遇到了OOM错误。尽管我们的模型更喜欢平行交互，但我们无法使用FinalMLP获得与基线相同的性能。随着我们增加潜在维度，内存使用和延迟都增加了，而性能却没有超过基线。这使我们得出结论，基线方法在学习特征交互方面比多头双线性融合技术要好得多。

5.3.3 GDCN

我们唯一需要调整的GDCN超参数是层数。我们在每个GDCN层中使用的参数数量大约是DCNv2的两倍。这限制了我们可以学习的交互顺序，因为参数使用的额外内存。我们知道我们的模型从更高阶的特征交互中受益，所以GDCN提供的门控并不有用。

5.3.4 Masknet

我们尝试了两种配置：顺序堆叠MaskNet层和并行运行它们。需要调整的关键超参数包括投影比率、块的数量和输出维度。在我们的实验中，我们使用投影比率 = 2.0 和输出维度 = 512，只调整了块的数量。我们知道我们的模型从平行特征交互和交互中的非线性中受益。两者结合，平行MaskNet层的表现超过了基线。

这带来了3个需要调整的超参数而不是一个，但这并不是很限制。我们使用这种架构大大增加了内存消耗和延迟，但模型质量的提高是值得的。

5.3.5 SDCNv3

我们将特征交互层中的4个堆叠DCNv2层替换为声称性能更好的堆叠SDCNv3层。我们堆叠了$ d \times d/2 $特征交叉层，并尝试改变层数。我们注意到，尽管SDCNv3提高了延迟，但它在我们的数据集上收敛得不好，从而降低了save@3的离线评估。我们相信这些特征交互层，如SDCNv3，需要广泛的超参数调整，以使模型性能与我们的基线模型相似，所以我们没有进一步探索它。

5.3.6 DeepLight

DeepLight使用轻量级交互层。为了使比较公平，我们扩大了DeepLight模型的MLP组件。尽管如此，模型无法像基线那样学习有用的表示。此外，我们注意到，该模型报告的延迟数字是在他们论文中指定的剪枝过程之前。我们没有调整所有所需的超参数进行他们指定的剪枝过程，因为未剪枝的模型性能远低于我们的基线。

5.3.7 DHEN

由于我们的模型更喜欢平行交互和更高阶的交互，我们尝试使用DHEN架构结合多个特征交互层。鉴于涉及的超参数数量庞大，在计算预算内进行广泛的搜索是不可行的。我们需要调整的超参数包括层数、每层中使用的具体交互、每层的输出大小，以及与Transformer中使用的类似的输入转换。表2显示了我们尝试的一些变体。配置呈现为列表的列表，其中第一个列表代表每层，第二个列表代表层内的交互。

我们注意到DCNv2层与平行MaskNet层的结合有很好的参与度指标增益。但是DHEN框架很笨重，因为它涉及在模型的每一层之间进行分割和连接。这导致不必要的GPU内存消耗和延迟。我们还遇到了模型稳定性问题，这使我们不再进一步追求这种架构。

5.4 结果

从表3中我们可以看到，运行多个MaskNet层并行实现了所有约束的良好权衡，除了延迟。为了降低模型的延迟，我们停止了在将特征交互层的输入和输出连接后传递给MLP层之前的操作。我们还减少了MLP中隐藏层的大小。这导致指标增益略有减少，与基线相比延迟总体减少。由于我们知道模型更喜欢更高阶的特征交互，我们在平行MaskNet层之上堆叠了4个DCNv2层。我们调整了MaskNet模型的超参数，以实现延迟不增加和参数数量净零增加，同时只增加5%的绝对内存消耗，使我们能够使用相同的batch大小。我们还使用这种新架构进行了在线A/B测试，结果在表4中。最终配置有3个平行MaskNet块，投影比率为2.0，输出维度为512，如图2b所示。我们确认这种架构不会降低可复制性，并且在我们的任何运行中都没有观察到模型稳定性问题。

https://arxiv.org/pdf/2412.01985

December 04, 2023d0evi1 Reading time ~2 minutes

pinterest的TransAct介绍

pinterest在《TransAct: Transformer-based Realtime User Action Model for Recommendation at Pinterest》提出了它们的排序模型。

摘要

用于预测下一个动作的编码用户活动的序列模型，已成为构建大规模个性化推荐系统的一种流行设计选择。传统的序列推荐方法要么利用实时用户行为的端到端学习，要么以离线批处理生成的方式单独学习用户表示。本文：

（1）介绍了Pinterest的Homefeed排序架构，这是我们的个性化推荐产品和最大的参与度表面；
（2）提出了TransAct，一个从用户实时活动中提取短期偏好的序列模型；
（3）描述了我们的混合排序方法，该方法结合了通过TransAct的端到端序列建模和批生成的用户embedding

混合方法使我们能够结合直接在实时用户活动上学习的反应性优势和批用户表示的成本效益，这些用户表示是在更长时间内学习的。

我们描述了消融研究的结果，在产品化过程中面临的挑战，以及在线A/B实验的结果，这些验证了我们混合排序模型的有效性。我们进一步证明了TransAct在其他表面如上下文推荐和搜索方面的有效性。我们的模型已部署在Pinterest的Homefeed、相关Pin、通知和搜索中。

1 引言

近年来在线内容的激增为用户导航创造了压倒性的信息量。为了解决这个问题，推荐系统被用于各种行业，帮助用户从大量选择中找到相关item，包括产品、图片、视频和音乐。通过提供个性化推荐，企业和组织可以更好地服务用户，并保持他们对平台的参与。因此，推荐系统对企业至关重要，因为它们通过提高参与度（engagement）、销售和收入来推动增长。

作为最大的内容分享和社交媒体平台之一，Pinterest拥有数十亿个Pin，拥有丰富的上下文和视觉信息，为超过4亿用户提供灵感。

访问Pinterest时，用户会立即看到图1所示的Homefeed页面，这是主要的灵感来源，占平台总用户参与度的大部分。Homefeed页面由一个3阶段的推荐系统驱动，该系统根据用户兴趣和活动检索、排序和混合内容。在检索阶段，我们根据用户兴趣、关注的板块等多种因素，从Pinterest上创建的数十亿个Pin中筛选出数千个。然后我们使用pointwise排序模型通过预测它们对用户的个性化相关性来对候选Pin进行排序。最后，使用混合层调整排序结果以满足业务需求。

图片名称

图1 Pinterest Homefeed页

实时推荐至关重要，因为它为用户提供快速和最新的推荐，改善了他们的整体体验和满意度。集成实时数据，如最近的用户行为，可以更准确地推荐，并增加用户发现相关item的可能性[4, 21]。更长的用户行为序列可以改善用户表示，从而提高推荐性能。然而，使用长序列进行排序对基础设施提出了挑战，因为它们需要大量的计算资源，并可能导致延迟增加。为了解决这一挑战，

一些方法已经利用哈希和最近邻搜索在长用户序列中[21]。
其他工作将用户过去的行为编码为用户嵌入[20]，以表示长期用户兴趣。用户嵌入特征通常作为batch特征生成（例如，每天生成），在多个应用中以低延迟服务是成本效益的。

现有序列推荐的局限性在于：它们要么只使用实时用户行为，要么只使用从长期用户行为历史中学习的batch用户表示。

我们引入了一种新颖的实时-批量混合（realtime-batch hybrid）的排序方法，结合了实时用户行为信号和batch用户表示。为了捕捉用户的实时行为，我们提出了TransAct：

一个基于transformer的新模块，旨在编码最近的用户行为序列并理解用户的即时偏好。
对于在较长时间内发生用户行为，我们将它们转换为批用户表示[20]。

通过结合TransAct的表现力和批用户embedding，这种混合排序模型为用户提供了他们最近行为的实时反馈，同时也考虑了他们的长期兴趣。实时组件和batch组件互补推荐准确性。这导致Homefeed页面上用户体验的整体改善。

本文的主要贡献总结如下：

我们描述了Pinnability，Pinterest的Homefeed生产排序系统的架构。Homefeed个性化推荐产品占Pinterest总用户参与度的大部分。
我们提出了TransAct：一个基于transformer的实时用户行为序列模型，有效地从用户最近的行动中捕获用户的短期兴趣。我们证明了将TransAct与每天生成的用户表示[20]结合到混合模型中，在Pinnability中实现了最佳性能。这种设计选择通过全面的消融研究得到了证明。我们的代码实现是公开可用的1。
我们描述了在Pinnability中实施的服务优化，使得在引入TransAct到Pinnability模型时，计算复杂度增加了65倍成为可能。具体来说，优化是为了使我们以前的基于CPU的模型能够在GPU上服务。
我们描述了使用TransAct在现实世界推荐系统上的在线A/B实验。我们展示了在线环境中的一些实际问题，如推荐多样性下降和参与度衰减，并提出了解决这些问题的方案。

本文的其余部分组织如下：第2节回顾相关工作。第3节描述了TransAct的设计及其生产细节。实验结果在第4节报告。我们在第5节讨论了一些超出实验的发现。最后，我们在第6节总结我们的工作。

2 相关工作

2.1 推荐系统

协同过滤（CF）[12, 18, 24]基于这样的假设进行推荐：用户会偏好其他相似用户喜欢的物品。它使用用户行为历史来计算用户和物品之间的相似性，并基于相似性推荐物品。这种方法受到用户-物品矩阵稀疏性的困扰，并且无法处理从未与任何物品互动过的用户。另一方面，因子分解机[22, 23]能够处理稀疏矩阵。

最近，深度学习（DL）已被用于点击率（CTR）预测任务。例如：

谷歌使用Wide & Deep [5]模型进行应用推荐。wide组件通过捕获特征之间的交互来实现记忆，而deep组件通过使用前馈网络学习分类特征的嵌入来帮助泛化。
DeepFM [7]通过自动学习低阶和高阶特征交互进行了改进。
DCN [34]及其升级版本DCN v2 [35]都旨在自动建模显式特征交叉。

上述推荐系统在捕捉用户的短期兴趣方面表现不佳，因为只利用了用户的静态特征。这些方法也倾向于忽略用户行为历史中的序列关系，导致用户偏好的表示不足。

2.2 序列推荐

为了解决这个问题，序列推荐在学术界和工业界都得到了广泛研究。序列推荐系统使用用户的行为历史作为输入，并应用推荐算法向用户推荐适当的物品。序列推荐模型能够在长时间内捕捉用户的长期偏好，类似于传统推荐方法。此外，它们还有一个额外的好处，即能够考虑到用户兴趣的演变，从而实现更高质量的推荐。

序列推荐通常被视为下一个物品预测任务，目标是基于用户过去的行为序列预测用户的下一个行动。我们在编码用户过去的行为到dense表示方面受到了先前序列推荐方法[4]的启发。一些早期的序列推荐系统使用机器学习技术，如马尔可夫链[8]和基于会话的K最近邻（KNN）[11]来模拟用户行为历史中交互的时间依赖性。这些模型因为仅通过组合不同会话的信息而无法完全捕捉用户的长期模式而受到批评。最近，深度学习技术，如循环神经网络（RNN）[25]在自然语言处理中取得了巨大成功，并在序列推荐中变得越来越流行。因此，许多基于DL的序列模型[6, 9, 30, 42]使用RNNs取得了出色的性能。卷积神经网络（CNNs）[40]广泛用于处理时间序列数据和图像数据。在序列推荐的背景下，基于CNN的模型可以有效地学习用户最近交互的一组物品内的依赖性，并相应地进行推荐[31, 32]。

注意力机制起源于神经机器翻译任务，该任务模拟输入句子的不同部分对输出词的重要性[2]。自注意力是一种已知的机制，用于衡量输入序列的不同部分的重要性[33]。已经有更多推荐系统使用注意力[43]和自注意力[4, 13, 16, 27, 39]。

许多先前的工作[13, 16, 27]仅使用公共数据集进行离线评估。然而，在线环境更具挑战性和不可预测性。由于问题表述的差异，我们的方法与这些工作不直接可比。我们的方法类似于点击率（CTR）预测任务。深度兴趣网络（DIN）使用注意力机制在CTR预测任务中模拟用户过去行为的依赖性。阿里巴巴的行为序列transformer（BST）[4]是DIN的改进版本，与我们的工作密切相关。他们提出使用transformer从用户行为中捕捉用户兴趣，强调行为顺序的重要性。然而，我们发现位置信息并没有增加太多价值。我们发现其他设计，如更好的早期融合和行为类型嵌入，在处理序列特征时是有效的。

3 方法论

在本节中，我们介绍了TransAct，我们的实时-batch混合排序模型。我们将从Pinterest Homefeed排序模型Pinnability的概述开始，然后描述如何使用TransAct在Pinnability中编码实时用户行为序列特征以进行排序任务。

3.1 预备知识：Homefeed排序模型

在Homefeed排序中，我们将推荐任务建模为pointwise多任务预测问题，可以定义如下：给定用户 $ u $ 和Pin $ p $，我们构建一个函数来预测用户 $ u $ 对候选Pin $ p $ 执行不同动作的概率。不同动作的集合包含正面和负面动作，例如点击、保存和隐藏。

我们构建了Pinnability，Pinterest的Homefeed排序模型，来解决上述问题。高层架构是Wide and Deep学习（WDL）模型[5]。Pinnability模型利用各种类型的输入信号，如用户信号、Pin信号和上下文信号。这些输入可以以不同的格式出现，包括类别型、数值型和嵌入型特征。

我们使用嵌入层（embedding layer）将类别型特征投影到dense特征，并在数值型特征上执行batch归一化
然后，我们应用一个全秩DCN V2[35]的特征交叉来显式建模特征交互
最后，我们使用具有一组输出动作头 $ H = \lbrace h_1, h_2, …, h_k \rbrace $ 的全连接层来预测用户对候选Pin $ p $ 的动作。每个头对应一个动作

如图2所示，我们的模型是一个实时-batch混合模型，通过实时（TransAct）和batch（PinnerFormer）方法编码用户行为历史特征，并针对排序任务[37]进行优化。

图片名称

图2 Pinterest Homefeed ranking model (Pinnability)

每个训练样本是 (x, y)，其中:

x 表示一组特征，
$ y \in \lbrace 0, 1 \rbrace^{ \mid H \mid} $，y中的每个条目对应于H中动作头的label。

Pinnability的loss函数是一个加权交叉熵损失，旨在优化多标签分类任务。我们将损失函数公式化为：

\[L = w_u \sum_{h \in H} \left\{ -w_h [y_h \log f(x)_h + (1 - y_h) (1 - \log f(x)_h)] \right\}\]

…(1)

其中：

$ f(x) \in (0, 1)^H $，$ f(x)_h $ 是头 $ h $ 的输出概率。
$ y_h \in \lbrace 0, 1\rbrace $ 是头 $ h $ 的真实标签。
权重 $ w_h $ 应用于每个头的输出 $ f(x)_h $ 的交叉熵。
$ w_h $ 是根据真实标签 y 和标签权重矩阵 $ M \in \mathbb{R}^{\mid H \mid \times \mid H \mid} $ 计算的：

\[w_h = \sum_{a \in H} M_{h,a} \times y_a\]

标签权重矩阵 $ M $ 作为每个动作对每个头损失项贡献的控制因素。注意，如果 M 是对角矩阵，方程（1）简化为标准的多头二元交叉熵损失。但是选择根据经验确定的标签权重 M 可以显著提高性能。

此外，每个训练样本都由用户依赖的权重 $ w_u $ 加权，这由用户属性决定，如用户状态、性别和位置。我们通过乘以用户状态权重、用户性别权重和用户位置权重来计算 $ w_u $：

\[w_u = w_{\text{state}} \times w_{\text{location}} \times w_{\text{gender}}\]

这些权重根据特定业务需求进行调整。

3.2 实时用户行为序列特征

用户过去的行为历史自然是一个可变长度特征——不同用户在平台上的过去行为数量不同。尽管更长的用户行为序列通常意味着更准确的用户兴趣表示，但实际上，包含所有用户行为是不可行的。因为获取用户行为特征和执行排序模型推理所需的时间也可能大幅增长，这反过来又会影响用户体验和系统效率。考虑到基础设施成本和延迟要求，我们选择包含每个用户最近的100个行为序列。对于少于100个行为的用户，我们用0填充特征到100的长度。用户行为序列特征按时间戳降序排序，即第一个条目是最近的行为。

用户行为序列中的所有行为都是Pin级别的行为。对于每个行为，我们使用三个主要特征：

行为的时间戳
行为类型
Pin的32维PinSage嵌入[38]：PinSage是一个紧凑的embedding，编码了Pin的内容信息。

3.3 我们的方法：TransAct

与静态特征不同，实时用户行为序列特征 $ S(u) = [a_1, a_2, …, a_n] $ 是使用一个名为TransAct的专用子模块处理的。TransAct从用户的历史行为中提取序列模式，并预测 $ (u, p) $ 相关性分数。

3.3.1 特征编码

用户参与的Pin的相关性，可以通过用户行为历史中对它们采取的行动类型来确定。例如：

通常认为用户保存到自己看板的Pin比仅查看的Pin更相关。
如果Pin被用户隐藏，相关性应该非常低。

为了纳入这一重要信息，我们使用可训练的嵌入表将行动类型投影到低维向量。用户行为类型序列随后被投影到用户行为嵌入矩阵 $ W_{\text{actions}} \in \mathbb{R}^{\mid S \mid \times d_{\text{action}}} $，其中 $ d_{\text{action}} $ 是行动类型嵌入的维度。

如前所述，用户行为序列中的Pin内容由PinSage嵌入[38]表示。因此，用户行为序列中所有Pin的内容是一个矩阵 $ W_{\text{pins}} \in \mathbb{R}^{\mid S \mid \times d_{\text{PinSage}}} $。最终编码的用户行为序列特征是$CONCAT (W_{actions} \ , W_{pins}) \in \mathbb{R}^{\mid S \mid \times (d_{PinSage} + d_{action})} $。

3.3.2 早期融合（early fusion）

直接在排序模型中使用用户行为序列特征的一个独特优势是，我们可以显式地建模候选Pin和用户参与的Pin之间的交叉。早期融合（early fusion）在推荐任务中指的是在推荐模型的早期阶段合并用户和物品特征。通过实验，我们发现早期融合是提高排序性能的重要因素。评估了两种早期融合方法：

append：将候选Pin的PinSage embedding附加到用户行为序列作为序列的最后一项，类似于BST[4]。使用零向量作为候选Pin的虚拟动作类型。
concat：对于用户行为序列中的每个动作，将候选Pin的PinSage embedding与用户行为特征连接起来。

我们根据离线实验结果选择concat作为我们的早期融合方法。早期融合的结果序列特征是：一个2维矩阵 $ U \in \mathbb{R}^{\mid S \mid \times d} $，其中 $ d = (d_{\ action} \ + 2d_{\ PinSage}) $。

3.3.3 序列聚合模型

准备好用户行为序列特征 $ U $ 后，下一个挑战是：有效地聚合用户行为序列中的所有信息以表示用户的短期偏好。工业中用于序列建模的一些流行模型架构包括CNN[40]、RNN[25]和最近的transformer[33]等。我们尝试了不同的序列聚合架构，并选择了基于transformer的架构。我们采用了标准transformer编码器，有2个编码器层和一个头。前馈网络的隐藏维度表示为 $ d_{\text{hidden}} $。这里不使用位置编码，因为我们的离线实验表明位置信息是无效的。

3.3.4 随机时间窗口掩码

在用户的所有最近行为上训练可能会导致兔子洞效应（rabbit hole effect），即模型推荐与用户最近参与内容相似的内容。这会损害用户Homefeed的多样性，对长期用户留存有害。为了解决这个问题，我们使用用户行为序列的时间戳构建transformer编码器的时间窗口掩码。该掩码在自注意力机制应用之前过滤掉输入序列中的某些位置。在每次前向传递中，从0到24小时均匀采样一个随机时间窗口 $ T $。在 $ (t_{\text{request}} - T, t_{\text{request}}) $ 内的所有行为都被掩码，其中 $ t_{\text{request}} $ 代表接收排序请求的时间戳。重要的是要注意，随机时间窗口掩码仅在训练期间应用，而在推理时不使用掩码。

3.3.5 transformer输出压缩

transformer编码器的输出是一个矩阵：$ O = (o_0 : o_{\mid S \mid -1}) \in \mathbb{R}^{\mid S \mid \times d} $。我们只取前K列（$ o_0 : o_{K-1} $），将它们与最大池化向量 $ \text{MAXPOOL}(O) \in \mathbb{R}^d $ 连接起来，然后将其展平为一个向量 $ \mathbf{z} \in \mathbb{R}^{(K+1) \times d} $。前 $ K $ 列输出捕获了用户最近的兴趣，而 $ \text{MAXPOOL}(O) $ 表示用户对 $ S(u) $ 的长期偏好。由于输出足够紧凑，它可以很容易地使用DCN v2[35]特征交叉层集成到Pinnability框架中。

图片名称

图3 TransAct架构是一种可以插入到任何类似架构中的子模块，比如Pinnability。

3.4 模型产品化

3.4.1 模型重新训练

对于推荐系统来说，重新训练很重要，因为它允许系统不断适应用户行为和偏好随时间的变化。没有重新训练，推荐系统的性能会随着用户行为和偏好的变化而降低，导致推荐准确性下降[26]。当我们在排序中使用实时特征时，这一点尤其正确。模型对时间更敏感，需要频繁重新训练。否则，模型可能在几天内变得过时，导致预测准确性降低。我们每周从头开始重新训练Pinnability两次。我们发现这种重新训练频率对于确保一致的参与率和保持可管理的训练成本至关重要。我们将在第4.4.3节深入探讨重新训练的重要性。

3.4.2 GPU服务

带有TransAct的Pinnability在浮点运算方面比其前身复杂65倍。如果没有模型推理的突破，我们的模型服务成本和延迟将增加相同的规模。GPU模型推理允许我们以中性的延迟和服务成本提供带有TransAct的Pinnability。

在GPU上提供Pinnability的主要挑战是CUDA内核启动开销。在GPU上启动操作的CPU成本非常高，但它通常被延长的GPU计算时间所掩盖。然而，这对于Pinnability GPU模型服务有两个问题。首先，Pinnability和推荐模型通常处理数百个特征，这意味着有大量的CUDA内核。其次，在线服务期间的batch大小很小，因此每个CUDA内核需要的计算量很少。有了大量小CUDA内核，启动开销比实际计算更昂贵。我们通过以下优化解决了技术挑战：

合并CUDA内核。一个有效的方法是尽可能合并操作。我们利用标准深度学习编译器，如nvFuser7，但通常发现需要人为干预许多剩余操作。一个例子是我们的嵌入表查找模块，它由两个计算步骤组成：原始ID到表索引查找和表索引到嵌入查找。由于特征数量众多，这个过程需要重复数百次。我们通过利用cuCollections8支持GPU上的原始ID哈希表，并实现自定义的合并嵌入查找模块，将多个特征的查找合并为一次查找，从而将与稀疏特征相关的数百个操作减少为一个。
合并内存拷贝。每次推理时，数百个特征被作为单独的张量从CPU复制到GPU内存。调度数百个张量拷贝的开销成为瓶颈。为了减少张量拷贝操作的数量，我们在将它们从CPU传输到GPU之前，将多个张量合并为一个连续的缓冲区。这种方法减少了单独传输数百个张量的调度开销，改为传输一个张量。
形成更大的批次。对于基于CPU的推理，更小的批次更受欢迎，以增加并行性和减少延迟。然而，对于基于GPU的推理，更大的批次更有效[29]。这导致我们重新评估我们的分布式系统设置。最初，我们使用scatter-gather架构将请求分割成小批次，并在多个叶节点上并行运行它们以获得更好的延迟。然而，这种设置与基于GPU的推理不兼容。相反，我们直接使用原始请求中的更大批次。为了补偿缓存容量的损失，我们实现了一个使用DRAM和SSD的混合缓存。
利用CUDA图。我们依靠CUDA图9来完全消除剩余的小操作开销。CUDA图将模型推理过程捕获为操作的静态图，而不是单独调度的操作，允许计算作为一个单独的单元执行，没有任何内核启动开销。

3.4.3 实时特征处理

当用户采取行动时，基于Flink10的实时特征处理应用程序会消费前端事件生成的用户行为Kafka11流。它验证每个行动记录，检测并合并重复项，并管理多个数据源的任何时间差异。然后，应用程序将特征具体化并存储在Rockstore[3]中。在服务时间，每个Homefeed日志/服务请求触发处理器将序列特征转换为模型可以使用的格式。

4.实验

略

附录

https://arxiv.org/pdf/2306.00248

December 03, 2023d0evi1 Reading time ~1 minute

pinterest的PinnerFormer介绍

pinterest在《PinnerFormer: Sequence Modeling for User Representation at Pinterest》提出了它们的PinnerFormer方法：

摘要

近年来，序列模型在个性化推荐系统中变得越来越流行。这些传统的方法将用户在网站上的行为建模为一个序列，以预测用户的下一个行为。虽然理论上简单，但这些模型在生产环境中部署起来相当具有挑战性，通常需要流式基础设施来反映最新的用户活动，并可能管理可变数据以编码用户的隐藏状态。在这里，我们介绍了 PinnerFormer，这是一个训练用来预测用户未来长期参与度的用户表示，它基于用户近期行为的序列模型。与之前的方法不同，我们通过我们的新密集全动作损失（dense all-action loss）适应批量基础设施，模拟长期未来行为而不是下一个行为预测。我们展示了这样做可以显著缩小每天生成一次的批量用户嵌入和用户采取动作时生成的实时用户嵌入之间的差距。我们通过广泛的离线实验和消融研究来描述我们的设计理念，并在 A/B 实验中验证了我们方法的有效性，与我们之前用户表示相比，PinnerFormer 在 Pinterest 的用户留存和参与度方面显示出了显著的改进。PinnerFormer 自 2021 年秋季起已在生产环境中部署。

1 引言

每月有超过4亿用户使用Pinterest来从我们数十亿的Pins内容库中发现想法和灵感。一个Pin通常以一张图片开始，经常包括文本、一个网页链接和一个板子，将单个Pin连接到用户策划的Pins集合中。灵感是Pinterest的关键，主要通过我们的搜索和推荐系统实现，使用户能够通过：

(a) Homefeed，我们的个性化推荐产品，
(b) Related Pins，与查询Pin相关的推荐，
(c) Search，与用户文本查询相关的推荐来找到内容

用户通过保存Pins到板子（Repin）、点击底层链接、放大一个Pin（特写）、隐藏不相关内容等互动方式给出反馈。为了实现我们让每个人都能得到创造他们所爱生活灵感的使命，我们需要根据用户的兴趣和上下文个性化我们的内容，考虑到用户在Pinterest旅程中给出的反馈；即，我们需要对我们的用户有一个强大的表示。

学习user embedding（表示）已成为提高推荐质量的越来越流行的方法。这种嵌入已被采用以推动排名和候选生成在行业中，被用来在YouTube[6]、Google Play[26]、Airbnb搜索[8]、JD.com搜索[30]、Alibaba[12, 18]等多个平台上推动个性化推荐。除了学习个性化嵌入的工作外，还有一系列工作集中在直接使用序列信息构建排序模型[4, 18, 19, 31]，使推荐基于用户最近的参与度进行个性化。

用户在网站上的行为往往是顺序性的；动作可以按照他们被采取的时间来排序，这自然导致了序列建模方法。已经有多种方法被提出来基于用户的历史互动序列预测未来的参与度[3, 9, 17, 20, 21]。更近的工作已经应用了各种深度学习模型，包括循环神经网络（RNN）和变换器（transformers）来进行这种序列推荐，并取得了有希望的结果[3, 7, 9, 10, 21, 25, 29]。序列模型传统上专注于实时设置，旨在从所有导致该点的动作中预测用户的下一个动作或参与度。

在实践中，将现有的序列建模方法部署到大型网络规模应用中存在两个关键挑战：

(a) 计算成本
(b) 基础设施复杂性

现有的序列建模方法大致分为两类：无状态模型和有状态模型。无状态模型可能具有高计算成本，因为必须在用户采取的每个动作之后从头开始计算嵌入，而有状态模型需要健壮可靠的流式基础设施来处理给定用户模型状态中的潜在错误或数据损坏[18]。

在这里，我们介绍了PinnerFormer，这是一个在Pinterest生产环境中部署的端到端学习的用户表示。与先前关于序列用户建模的工作类似，PinnerFormer直接基于用户过去的Pin参与度学习表示。我们提出了一个密集全动作损失（dense all-action loss），这使我们的嵌入能够捕捉用户的长期兴趣，而不仅仅是预测下一个动作。这使我们的embedding可以在离线、批量设置中计算，并大大简化了基础设施。

我们还解决了Pinterest中表现的基础设施复杂性挑战：有数十个排序模型可以从个性化中受益，但为每个模型开发定制解决方案是不可行的。我们选择不针对每个模型生产一个用户嵌入（这将增加复杂性），而是投资于开发一个可以用于多个下游任务的单一高质量用户嵌入。尽管在某些情况下可能会牺牲特定任务的性能，但对于大多数用例来说，复杂性权衡使得共享嵌入更受欢迎。

我们在离线和在线A/B实验中评估PinnerFormer。在离线实验中，我们展示了这种训练目标几乎将每日推断模型和实时推断模型之间的性能差距减半，并且比其他方法更好地反映了用户的长期兴趣。然后，我们展示了PinnerFormer作为特征的效用，证明当它作为多个不同领域排序模型中的特征使用时，它能够实现显著的在线收益。

2 设计选择

我们首先讨论PinnerFormer中的关键设计选择。

设计选择1：单个用户使用单个还是多个嵌入。 大多数生成用户表示的方法产生单个嵌入[3, 7, 9, 10, 21, 25, 29]，但有些专注于学习固定或可变数量的用户嵌入[12, 13, 17, 24]。在我们之前用户表示PinnerSage中，我们决定允许一个可变的数量，可能是大量的嵌入，允许模型明确表示用户的多样化兴趣[17]。

尽管使用多个嵌入可以让模型更明确地捕捉用户兴趣，并且在检索中表现良好，但这在使用下游模型时可能会导致问题：在训练数据中存储20+个256维float16嵌入并不具有很好的扩展性，特别是当数据集可能包含数十亿行时，正如排序模型中的情况。此外，这也增加了模型训练和推理的成本；处理5000+个浮点数可能会引入非微不足道的延迟，特别是如果它们在聚合前被转换。在训练时，大型样本也可以增加加载数据所需的时间。为了避免这些问题，在使用PinnerSage进行排序模型时，我们通常会使用用户嵌入的加权聚合作为最终用户表示。因为我们希望PinnerFormer能够轻松用作特征，我们产生一个捕获用户兴趣的单个嵌入，允许在下游模型中无痛使用。在离线评估中，我们展示了我们的单个嵌入能够比PinnerSage更好地反映用户的长期兴趣，同时只需要一小部分存储空间。

设计选择2：实时与离线推理。 大多数关于序列用户建模的先前工作集中在实时或近实时操作的模型上。在实践中，这至少会导致以下之一：

高计算成本： 对于用户采取的每一个动作，系统必须获取用户历史中的所有事件，并经常推断一个可能复杂的模型。
高基础设施复杂性： 用户的隐藏状态或嵌入可以逐步更新，但这需要一个健壮的系统来恢复和预热模型的状态，以防任何数据损坏[18]。

在Pinterest，用户可能在一天内采取数十或数百个动作，因此一个每天最多更新一次用户嵌入的模型只需要同等规模实时模型计算资源的一小部分。在离线评估中，我们展示了我们的损失函数显著减少了实时和每日推断模型之间的差距，并且在A/B实验中，我们展示了PinnerFormer极大地提高了下游排序模型的性能。

3 我们的方法：PinnerFormer

在本节中，我们介绍了自2021年秋季以来在Pinterest生产环境中使用的PinnerFormer，描述了我们的模型（如图1所示）及其部署方式。

图片名称

图1 PinnerFormer架构的概览如下：特征通过带有因果掩蔽的transformer传递，并且在每个timestep返回embedding。需要注意的是，训练窗口（28天）超过了我们未来评估目标窗口（14天）

我们从：

一个庞大的Pins语料库：$P = \lbrace 𝑃_1, 𝑃_2, \cdots, 𝑃_𝑁 \rbrace$，其中：𝑁非常大，大约有数十亿
一组用户：$U = \lbrace 𝑈_1, 𝑈_2, \cdots \rbrace$，其中：$\mid U \mid > 500M$。
对于语料库中的每个Pin，我们有一个PinSage embedding： $𝑝_𝑖 \in R^{256}$，这是Pin $𝑃_𝑖$的视觉、文本和参与度信息的聚合。
对于每个用户，我们有一个用户在网站上采取的动作序列：$A_𝑈 = {𝐴_1, 𝐴_2, …, 𝐴_𝑆}$，按时间戳升序排列。

在这项工作中，我们将动作序列限制为用户对Pins的参与，包括过去一年中对Pin的保存、点击、反应和评论。基于这个假设，动作可以由PinSage嵌入表示，以及一些关于动作的元数据。实际上，对于给定的用户，𝑆可能非常大，对于某些用户来说可能是数千或数万，因此我们使用用户的M个最新动作来计算用户的嵌入。

给定这些定义，我们的目标是：学习一个用户表示$𝑓 : U → R^d$，与某些Pin表示$𝑔 : P → R^d$在余弦相似性下兼容。我们联合学习𝑓和𝑔，使用动作序列$A_𝑈$作为模型的唯一输入特征，并限制为仅最新的M个。

在一个用户的完整动作序列中，可能有许多类型的动作，其中一些是正向的（例如长时间点击），而另一些是中性的或负向的（例如隐藏或短时间点击）。在这项工作中，我们专注于学习预测正向参与的表示，我们将其定义为Pin保存（”Repin”）、持续超过10秒的Pin特写（”Closeup”）或对Pin下链接的长时间点击（>10s）（”Click”）。我们只将Homefeed上的参与视为正向的；在搜索或相关Pins等表面上，查询提供了大量上下文，而在Homefeed上，用户提供了主要的上下文。

我们的主要目标是：学习一个模型，能够预测用户在生成嵌入后的14天内的未来正向参与，而不是传统的序列建模任务，后者的嵌入只会预测下一个动作。换句话说，我们的目标是：学习嵌入$𝑢_𝑖$和$𝑝_𝑖$，使得如果$𝑑(𝑢_𝑘, 𝑝_𝑖) < 𝑑(𝑢_𝑘, 𝑝_𝑗)$，则$𝑝_𝑖$比$𝑝_𝑗$更有可能被$𝑢_𝑘$代表的用户在生成$𝑢_𝑘$后的14天内正向参与。我们选择14天的范围是为了可行性，并假设用户在两周内采取的动作足以代表用户的长期兴趣。图1展示了PinnerFormer架构，我们将在下面更详细地展开每个组件。

3.1 特征编码

对于用户序列中的每个动作，我们有一个PinSage嵌入（256维）[28]和元数据特征：动作类型（action type）、表面（surface）、时间戳（timestamp）和动作持续时间（action duration）。我们使用小型可学习的嵌入表来编码动作类型和表面，这两个分类特征，并丢弃这两个特征中任一的词汇表外术语的序列元素。我们用单个标量值$log(𝑑𝑢𝑟𝑎𝑡𝑖𝑜𝑛)$来编码动作持续时间。

为了表示动作发生的时间，我们使用2个衍生值以及原始的绝对时间戳：自用户采取的最新动作以来的时间，以及动作之间的时间间隔。对于这些时间特征，我们遵循使用不同周期的正弦和余弦变换编码时间的常见做法，类似于Time2vec[11]，但使用固定的𝑃周期，而不是学习周期，以及对时间进行对数变换，而不是线性变换。这产生了2𝑃 + 1个特征（来自时间戳的周期变换的2𝑃）。

所有特征被连接成一个单独的向量，结果是一个维度为$𝐷_{in}$的输入向量。对应于动作𝐴𝑖的表示记为$𝑎_𝑖 \in R^{𝐷_{in}}$。

3.2 模型架构

在PinnerFormer中，我们使用transformer模型架构[22]来模拟用户动作序列。我们选择使用PreNorm残差连接，在每个块之前应用层归一化，因为这种方法已被证明可以提高训练的稳定性[16, 23]。我们首先构造输入矩阵$𝐴 = [𝑎_𝑇, …, 𝑎_{𝑇−𝑀+1}]^T \in R^{𝑀×𝐷_{in}}$，使用作为用户序列的导致动作$𝐴_{𝑇+1}$的𝑀个动作。然后，我们将这些投影到transformer的隐藏维度，添加一个完全可学习的位置编码，并应用一个标准transformer，由交替的前馈网络（FFN）和多头自注意力（MHSA）块组成。transformer在每个位置的输出通过一个小型MLP和L2归一化，结果得到一组嵌入$𝐸 = [𝑒_1, … , 𝑒_𝑀]^T \in R^{𝑆×𝐷}$，其中𝐷是最终嵌入维度。

为了表示Pins，我们学习一个MLP，它只接受PinSage作为输入，并L2归一化输出嵌入。我们发现使用L2归一化的嵌入来表示用户和Pins可以带来最稳定的训练，并且不会牺牲离线性能。

3.3 度量学习

为了训练我们的表示，我们需要由用户嵌入和目标Pin嵌入组成的配对${(𝑢1, 𝑝1), …, (𝑢𝐵, 𝑝𝐵)}$，其中用户和Pins可能被重复选择。我们选择不在这项工作中使用显式的负例（即我们没有为负参与，如隐藏，设置损失项）。在设计我们的模型时，有几个考虑因素：

(a) 我们如何选择这些配对？
(b) 对于给定的$(𝑢_𝑖, 𝑝_𝑖)$配对，我们如何选择负例？
(c) 给定一个$(𝑢_𝑖, 𝑝_𝑖)$配对和一组负例，我们如何计算损失？

我们首先描述(b)和(c)，然后在3.4节详细讨论(a)。

3.3.1 负例选择。

我们考虑两个来源的负例：批内负例和随机负例。在选择给定用户的批内负例时，我们选择批内所有正例作为负例，遮蔽对该用户有正参与的Pins。这种方法高效简单，但如果天真地实施，可能会导致流行Pin的降级，因为参与度高的Pin比参与度低的Pin更可能出现为负例。批内负例的另一个缺点是负例的分布与用于检索的真实Pins底层分布不同，导致训练和服务之间的差异。第二个负例来源是我们可能展示给Homefeed的所有Pins语料库中均匀采样的负例，但单独使用这些可能导致模型崩溃，因为负例可能太容易。我们考虑的第三个选项是结合随机和批内负例，通过将批内和随机负例池合并为一个，包含批内和随机负例的组合，以利用两者的独特特征[26]。

在实践中，更大的负例池可以提高学习嵌入的质量，因此我们从训练中使用的所有的GPU中收集负例，选择可以舒适地适应GPU内存的最大可能池。

3.3.2 损失函数。

在选择负例来源后，我们可以为给定的用户和正嵌入配对$(𝑢_𝑖, 𝑝_𝑖)$产生一组负嵌入${𝑛_1, \cdots, 𝑛_𝑁}$。我们为每对计算损失，然后计算加权平均值，使得每个GPU上的批内每个用户都有相等的权重。

我们发现最好的损失函数是采样softmax带logQ修正[2, 27]，我们根据给定负例在批中出现的概率对每个logit应用修正。我们还学习一个温度$\tau \in [0.01, \infty)$，限制稳定性的下界。如果我们让$𝑠(𝑢, 𝑝) = ⟨𝑢, 𝑝⟩/𝜏$，一个没有样本概率修正的采样softmax损失将被定义如下：

\[L (𝑢𝑖, 𝑝𝑖) = − \log \frac{𝑒^{𝑠(𝑢𝑖,𝑝𝑖)}}{𝑒^{𝑠(𝑢𝑖,𝑝𝑖)} + \sum_{𝑗=1}^{𝑁} 𝑒^{𝑠(𝑢𝑖,𝑛𝑗)}}\]

…(1)

当负例不是均匀分布时，应应用一个修正项𝑄𝑖(𝑣) = 𝑃 (Pin 𝑣在批中

用户𝑈𝑖在批中)来纠正采样偏差，其中𝑣可能是正例或负例。对于单个配对的带样本概率修正的softmax损失然后被定义如下：

\[L (𝑢𝑖, 𝑝𝑖) = − \log \frac{𝑒^{𝑠(𝑢𝑖,𝑢𝑖)−\log(𝑄𝑖(𝑝𝑖))}}{𝑒^{𝑠(𝑢𝑖,𝑢𝑖)−\log(𝑄𝑖(𝑝𝑖))} + \sum_{𝑗=1}^{𝑁} 𝑒^{𝑠(𝑢𝑖,𝑛𝑗)−\log(𝑄𝑖(𝑛𝑗))}}\]

…(2)

为了简化，我们使用计数-最小草图[5]来近似𝑄。

3.4 训练目标

给定我们的损失函数，我们解决如何选择配对$(𝑢_𝑖, 𝑝_𝑖)$的问题。我们的模型应该能够预测三种形式的正向参与：Repins、Closeups和Clicks。这些动作都有价值，而不是像多任务学习文献[1, 14]中常见的那样学习任务特定的头，我们选择以多任务的方式训练单个嵌入，直接学习一个可以有效检索不同类型的正向参与的嵌入。我们不在损失计算函数中显式地对不同参与进行不同的加权。我们考虑的四个训练目标如下描述，并在图2中描绘。

图片名称

图2

3.4.1 下一个动作预测。

序列建模任务的朴素目标是下一个动作预测，我们给定用户序列$\lbrace 𝐴_𝑇, 𝐴_{𝑇−1}, …, 𝐴_{𝑇−𝑀+1} \rbrace$预测$𝐴_{𝑇+1}$（如果$𝐴_{𝑇+1}$是正向参与）。这个目标对于实时序列模型来说很直观，因为在在线设置中，$𝐴_𝑇$总是用户采取的最新动作。SASRec[10]通过在模型的每一步预测下一个动作，而不仅仅是预测最近的正向参与来扩展这个简单的训练目标。我们在实验中稍微修改这一点，只允许正向参与对模型的损失做出贡献。

与这些传统目标不同，我们的目标不是预测用户的下一个即时动作；相反，我们每天推断用户嵌入，并旨在捕捉用户的长期兴趣。为此，我们引入了两个替代训练目标。

3.4.2 所有动作预测。

基于我们不仅希望预测用户将采取的下一个动作的观察，我们构建了一个朴素的训练目标，使用最终用户嵌入𝑒1预测用户在接下来的𝐾天内将采取的所有动作。假设用户在𝑇+3、𝑇+8和𝑇+12的动作中有正向参与，所有这些都落在𝑇的𝐾天窗口内，我们的目标是从用户序列{𝑎𝑇, 𝑎𝑇−1, …, 𝑎𝑇−𝑆+1}预测所有3个动作：𝐴𝑇+3、𝐴𝑇+8、𝐴𝑇+12。这个目标迫使模型学习长期兴趣，而不仅仅关注用户将采取的下一个动作，这应该减少来自每天离线推断的陈旧性效应。为了计算可行性，我们在这个𝐾天时间窗口中为每个用户随机采样多达32个动作。

3.4.3 密集所有动作预测。

为了进一步提高每批提供的信号，我们从SASRec[10]中汲取灵感，修改所有动作预测目标。我们不是使用只有𝑒1的最新用户嵌入在𝐾天窗口内预测动作，而是选择一组随机索引{𝑠𝑖}，并对每个𝑒𝑠𝑖，旨在从接下来𝐾天内所有正向参与的集合中预测一个随机选择的正向参与。为确保这种方法从数据的顺序中学习，我们对transformer的自注意力块应用因果掩蔽，以便每个动作只能关注过去或现在的动作，而不能关注未来的动作。我们观察到这种掩蔽在这项任务上显著提高了模型的性能。为了减少内存使用，我们不旨在预测所有正向参与动作，而只是为每个𝑒𝑠𝑖预测一个正向参与动作。

3.5 数据集设计（续）

我们利用压缩格式来存储训练序列。我们观察到，给定单个用户的时间线，可以构建许多独立的用户序列和正例。给定一个完整的用户序列 ( A_U = {Y_1, \ldots, Y_S} ) 和某个最大序列长度 ( M )，我们可以构建多达 ( S - M - 1 ) 个长度恰好等于 ( M ) 的训练样本（假设所有动作都是正向的）。例如，序列 ({Y_5, \ldots, Y_{5+M-1}}) 以及正参与 ({Y_{5+M}, Y_{7+M}}) 可以从完整的时间线 ( A_U ) 中提取出来。存储这些数据的一种潜在方式是提前具体化所有长度为 ( M )（或更短）的相关序列，以及每个序列对应的未来正参与集合。这在尝试不同的采样策略时会遇到问题，因为调整参数将需要重新生成训练数据——这是一个缓慢的过程。为了提高生产力，我们改为将每个用户的序列存储为数据集中的单行，并在训练期间即时采样示例。这明显的好处是允许在训练期间进行定制采样，但代价是减少了训练数据的混洗。

具体来说，我们使用这种策略调整了几个参数，这些参数都显著影响模型的整体性能：

最大序列长度
从用户时间线中采样的可能用户序列的比例
每个用户采样的最大序列数
每个序列作为标签采样的最大正例数

3.6 模型服务

由于我们专注于PinnerFormer的离线、批量设置中的推理，我们在一个每日增量的工作流程中推断模型，如图3所示。

图片名称

图3

这个工作流程为过去一天与任何Pin互动的用户生成新的嵌入，将它们与前一天的嵌入合并，然后上传到键值特征存储中，以便在线服务。因为我们只为最近一天有互动的用户生成新的嵌入，并且在没有延迟限制的情况下离线运行推理，我们能够使用比否则可能的更大的模型，这增加了我们的嵌入可以捕获的信息量。如果输入特征有任何损坏（例如，由于日志记录错误），我们可以轻松地为自损坏以来更新了嵌入的所有用户运行推理，假设上游数据已经修复，第二天的数据将是正确的。

Pin嵌入的计算成本很低，只需要对现有特征进行小型MLP转换，因此我们每天从头开始生成它们，然后编译一个HNSW[15]图，该图可以使用保存在特征存储中用户嵌入在线查询。

4.

略

附录

https://arxiv.org/pdf/2205.04507

December 02, 2023d0evi1 Reading time ~2 minutes

SATrans介绍

weixin在《Scenario-Adaptive Feature Interaction for Click-Through Rate Prediction》提出了一种在特征交叉建模中考虑场景信息的方法：SATrans。

一、摘要

传统的点击率（CTR）预测模型通常在单一场景下进行训练和部署。然而，大规模的商业平台通常包含多个推荐场景，其流量特征可能非常不同。最近的研究证明，学习一个统一的模型来服务于多个场景可以有效地提高整体性能。然而，大多数现有方法都各自存在各种限制，例如：区分度建模不足、随着场景增加效率低下、以及缺乏可解释性。更重要的是，据我们所知，现有的多场景建模方法在建模场景差异时没有考虑显式的特征交互（explicit feature interaction），这限制了网络的表现力，从而影响效果。在本文中，我们提出了一个名为SATrans的新型场景自适应特征交互框架（Scenario-Adaptive Feature Interaction framework），将场景差异（scenario discrepancy）建模成特征相关性（feature correlations）模式的差异。具体而言，SATrans建立在Transformer架构上，以学习高阶特征交互，并在自注意力建模中涉及场景信息，以捕捉场景之间的分布变化。我们提供了各种实现我们的框架来提高性能，并在公共和工业数据集上进行实验，结果表明SATrans:

1）显著优于现有的最先进方法进行预测
2）参数效率高，随着场景增加而空间复杂度略微增加
3）在实例级别和场景级别都具有良好的可解释性

我们已经将该模型部署在微信公众号平台上，在三个主要场景中平均在线CTR增加了2.84％。

一、介绍

近年来，多场景点击率（MS-CTR：Multi-Scenario Click-Through Rate）预测[8, 19, 20, 28, 29]已成为在线推荐领域广泛研究的热点，它主要关注于预测在多个场景中的用户-物品对的CTR。在像腾讯和阿里巴巴这样的大型商业公司中，通常存在许多业务场景（例如主页信息流、横幅信息流）[30]。此外，从服务平台收集的日志数据可以根据一些代表性特征（例如性别、国家）分成多个子集。这些子集具有不同的CTR分布，可以被视为场景[29]。不同的场景间可以共享共性（例如重叠的用户或物品、一般性偏好），可以使所有场景的预测受益。同时，用户行为和曝光分布在不同场景下可能会有很大的差异[32]。因此，在估计CTR时建模场景之间的共性和差异非常重要。此外，特征交叉(feature interaction)学习在CTR预测任务中起着至关重要的作用。有效地模拟特征的高阶组合可以提高网络的表达能力，从而有助于提高预测性能[4, 10, 21]。

通常有三种典型的MS-CTR预测方法：

(1)利用传统的CTR预测模型[4, 5, 10, 13, 24, 27]和启发式训练策略，例如：为每个场景训练单独的模型、或使用所有场景实例训练共享模型，然后进行微调。这类方法可以自然地继承传统CTR预测模型的所有优点（例如显式特征交互），但它们在知识转移和场景建模方面的能力有限。
(2)基于多任务学习（MTL）构建统一框架，将每个场景视为一个任务[2, 8, 20]。这种策略需要为每个场景建立单独的网络模块（例如门控网络、专家或输出塔），随着场景的增加，会消耗过多的参数。更糟糕的是，MTL模型通常将骨干网络或专家网络视为广义深度神经网络（DNN）[11, 17, 22]，以位逻辑和隐式方式学习高阶特征交互，受到离散特征交互的梯度不敏感问题的困扰，无法适应POLY函数[14]或简单的点积[16]。尽管可以用因子分解机（FM）[15]或DCN [24]等显式交互模型替换DNN，但特征交互和场景建模的过程是分离的，这限制了模型的可解释性，并可能导致次优的性能。
(3)利用辅助编码器（auxiliary encoder）使用场景相关特征作为输入，生成场景自适应单元（SAU），以影响网络[28-30]。这些方法比MTL方法更灵活、参数更有效，可以处理大量场景和多个场景特征字段。然而，这一类现有方法并没有直接、明确地考虑场景特性对特征交互的影响，因此跨场景的特征相关性和组合的差异仍不清楚。

从特征交互的角度来看，来自不同场景的样本可能具有不同的模式。以电子商务推荐为例，性别、位置和品牌可能是三个重要的特征，它们的组合可能会显著影响CTR得分。然而，同一特征组合的重要性在不同场景中是不同的。考虑二阶特征组合，<品牌，位置> 可能对食品推荐场景更有意义，因为用户的食品偏好受地理因素的影响很大，而 <品牌，性别> 在服装推荐中可能更相关，因为这个场景中有特定的性别区分。据我们所知，现有的MS-CTR方法都不能明确地捕捉到这种特征交互的差异，这限制了网络的表达能力，并导致模型的可解释性不足。

为了解决这些限制，本文提出了一种名为Scenario-Adaptive Transformer（SATrans）的MS-CTR预测的显式特征交叉模型，将场景信息纳入特征的相关建模中，以学习每个场景的独特和自适应的高阶特征交互。具体而言，我们利用Transformer [23]作为骨干架构，对输入特征进行高阶交叉和组合建模，该方法已被AutoInt [21]和InterHAt [9]证明是有效的。Transformer中的多头自注意机制允许每个特征字段与所有其他特征交叉，并自动识别相关特征以形成有意义的高阶特征。为了将场景特性纳入特征交叉中，我们：

首先设计了一个场景编码器，将场景相关特征转换为固定长度的场景embedding。
然后利用场景自适应交叉层来测量相关性，使用特征对的embedding和场景embedding作为输入，其中注意力分数通过一个精心设计的场景自适应相关函数计算。

提出的场景自适应自注意机制赋予SATrans许多优点：

（1）共性建模：每个交叉层中的共享特征转换矩阵和嵌入层自然地捕捉到共同知识；
（2）差异建模：自适应注意力分数编码了场景之间的分布偏移；
（3）高可扩展性：网络参数的规模几乎不依赖于场景的数量，使SATrans能够高效地处理数千甚至数百万个场景；
（4）良好的可解释性：注意力分数可以衡量特征之间的相关性，提供实例级和场景级的可解释性。

总之，在本文中，我们做出了以下贡献：

我们是第一个从特征交互的角度对MS-CTR预测问题进行建模，并提出了一种新颖的SATrans，它在输入特征上明确地进行场景自适应高阶交叉
我们分别为SATrans设计了三种场景编码器和场景自适应交互模块的实现，相比于基本的自注意力机制，显著提高了特征交互的质量
我们在公共和工业数据集上进行了广泛的实验。在多场景CTR预测任务上的实验结果表明，我们提出的方法不仅在预测方面显著优于现有的最先进方法，而且具有良好的可扩展性和模型可解释性
考虑到MS-CTR预测中开源代码的稀缺性，我们发布了我们模型的实现以及比较基准3，以促进未来的研究

三、问题公式化

点击率（CTR）预测数据集可以表示为：

\[D = \lbrace (𝑥_𝑗，𝑦_𝑗) \rbrace_{j=1}^{|D|}\]

其中：

$𝑥_𝑗$和$𝑦_𝑗 \in \lbrace 0,1 \rbrace$：表示第j个样本的特征集和点击label

在现实世界的推荐中，通常存在多个业务场景，这意味着数据集D可以分为多个特定场景的子集 $D^s$（例如：$D = U_s D^s$），其中场景𝑠的子集$D^s= \lbrace（𝑥_𝑖^s，𝑥_i^a，𝑦_𝑖）\rbrace_{𝑖=1}^{\mid D^s \mid}$根据$𝑥_i^s$获得。这里将整个特征集$𝑥_𝑖$分为：

场景相关（scenario-specific）的特征集：$𝑥_𝑖^s$
场景无关（scenario-agnosti）的特征集：$𝑥_𝑖^a$

$𝑥_𝑖^s$中的场景相关特征可以是：业务ID或展示位置ID等上下文特征，也可以扩展为用户配置文件特征（例如，性别，年龄组）或item特征（例如，类别，品牌），这可能会导致不同的行为或曝光分布。将每个场景子集$D^𝑠$拆分为：训练集$D_{train}^s$和测试集 $D_{test}^s$，我们有：$D_{train} = U_s D_{train}^s$和$D_{test} = U_s D_{test}^s$。MS-CTR预测的目标是：基于$D_{train}$构建一个统一的CTR模型，可以为$D_{test}$中的所有场景子集提供准确的CTR预测。

4.方法

4.1 架构总览

为了建模多个场景下特征交互的特殊性，对于MS-CTR预测问题，我们提出了SATrans。

图片名称

图1 SATrans的总体框架。左侧是场景编码器，使用场景相关特征作为输入生成固定大小的嵌入。右侧是由多个SAI层组成的骨干网络。场景编码器和SAI层的实现细节分别在第4.2节和第4.3节中详细说明。

如图1所示，SATrans将基于自注意力的交叉层堆叠作为backbone，并由两个场景相关组件（scenario-specific components）：

(1) 场景编码器（Scenario Encoder）：将特定场景特征转换为固定长度的embedding向量
(2) 场景自适应交叉层（Scenario-Adaptive Interaction: SAI layers）：通过场景自适应自注意机制进行高阶特征交叉。

给定输入特征集${𝑥_𝑖^s，𝑥_𝑖^a}$，我们首先将其转换为稀疏特征向量：

\[x = [x^s; x^𝑎] = [x_1^s; \cdots; x_𝑀^s; x_1^a; \cdots; x_{𝑁-𝑀}^a]\]

… (1)

其中：

𝑀是场景相关特征（scenario-specific features）的数量
𝑁是所有特征的数量

之后，我们首先将场景相关特征$x^s$输入到场景编码器（scenario encoder）中以获取场景embedding s，然后使用embedding layer将所有特征x投影到相同的低维空间，并获得dense embedding $e = [e_1; \cdots; e_𝑁]$，接着进行多个场景自适应交叉层（scenario-adaptive interacting layers），其中在场景embedding的指导下，通过自注意机制将高阶特征组合在一起。通过堆叠𝑙个交叉层，可以建模多达（𝑙+1）阶的场景自适应特征交叉。最终交叉层的输出被连接，然后经过线性层和sigmoid函数来估计CTR。SATrans的关键在于如何设计有效的场景编码器和场景自适应交互模块。在接下来的部分中，我们将介绍我们提出的方法的详细信息。

图片名称

图2 三种类型的Scenario Encoder

4.2 Scenario Feature Encoder

给定场景相关特征$x^s=[x_1^s;\cdots;x_𝑀^s]$，我们使用一个场景自适应编码器（scenarioadaptive encoder）将场景特征编码为固定长度的场景embedding $s \in R^L$，以指导在每个SAI层中的特征交互，其中维度𝐿取决于SAI层的具体实现。为了提高场景embedding的质量，我们考虑三个信息来源：

1）场景专有信息，区分不同的场景；
2）共享知识，编码场景之间的共性；
3）结构位置，表示场景嵌入在自注意网络中涉及的位置（position）（例如，当前层的深度，查询或键嵌入）。

我们针对不同的信息来源提出了三种实现方式。

独立嵌入（IE: Independent Embedding）：该方法首先将场景特征拼接一起稀疏向量$x^𝑠$转换为一个one-hot稀疏特征$x^𝑜$，然后使用嵌入矩阵将其投影到低维向量s中。这种做法将所有场景特征字段的每种可能组合视为一个场景，并使用独立embedding来表示每个场景，这意味着场景之间没有共享知识。更糟糕的是，当特征组合数增加时，嵌入矩阵可能会很大，这将导致参数效率低下和不灵活。
编码网络（EN: Encoding Network）：为了更灵活地编码场景特征并涉及共享知识，我们考虑利用共享编码网络来转换场景特征。对于每个场景特征字段，首先使用嵌入矩阵$E_𝑖^s$将稀疏特征向量$x_𝑖^s$投影为低维向量$e_𝑖^s$。我们将每个字段的embedding向量连接起来，得到：$e^𝑠=[e_1^s; e_2^s; \cdots; e_𝑀^s]$，然后通过非线性激活层（例如ReLU [1]）将其feed到一个共享的编码网络$𝑓_𝑒(·)$中，以获取最终的场景embedding s。在我们的实验中，我们发现一个简单的矩阵变换已经足够，即：$s=W_𝑠 ReLU(e^𝑠)$。
带有结构位置ID的编码网络（ENP）：由于场景embedding在不同的交叉层和backbone自注意力网络中的不同位置（例如，查询或键）上操作，因此生成位置感知的场景嵌入(position-aware scenario embeddings)以提高网络的表达能力是合理的。为此，除了场景特征外，我们还将位置ID作为额外特征馈送到网络中，以为SAI层中的每个结构位置生成唯一的场景embedding。具体而言，我们有：

\[s_{𝑙,ℎ} = W_𝑠 ReLU(Concat(e^𝑠, p_{𝑙,ℎ}))\]

…(2)

其中：

$p_{𝑙,ℎ}$是position embedding
𝑙是层深度(layer depth) ID
$ℎ \in \lbrace 𝑄,𝐾 \rbrace$

在EN和ENP方案中，每个场景（或场景特征）的单独网络参数只是低维度（在我们的实验中为32）的embedding向量，与每个场景具有独立门控网络、特定专家网络或输出塔的MTL方法相比，这是非常参数有效的，使得SATrans可用于大量场景。我们在实验中比较参数复杂度。在接下来的部分中，我们省略下标𝑙，并使用$s_Q$和$s_K$分别表示查询和键表示的场景嵌入，以简化表示。请注意，对于IE和EN策略，$s_Q=s_K$。

4.3 Scenario-Adaptive Interacting Layer

一旦我们在相同的低维空间中拥有特征embedding: $e=[e1;…;e𝑁]$，和每个交互层中每个位置的场景embedding: $s_{𝑖,𝑗}$，我们就开始建模场景自适应高阶组合特征。假设第𝑖个特征的输入表示为$h_𝑖$，并且在第一个交互层中$h_𝑖=e_𝑖$。

我们首先引入多头自注意机制来确定每个特征组合的重要性。以第𝑖个特征为例，首先，在特定的注意力头ℎ下，第𝑖个特征与第𝑗个特征（$𝑖,𝑗 \in \lbrace 1,…,𝑁 \rbrace$）之间的相关性定义为：

\[𝛼_{𝑖,𝑗}^{(ℎ)}=\frac{exp(𝜙(ℎ)(h_𝑖,h_𝑗))}{\sum_𝑘^N exp(𝜙(ℎ)(h_𝑖,h_𝑘))}\]

…(3)

\[𝜙(ℎ)(h_𝑖,h_𝑗)=⟨W_Q^{(ℎ)} h_𝑖, W_K^{(ℎ)} h_𝑗⟩\]

…(4)

其中：

$𝜙(ℎ)(·,·)$：是一个attention函数，它定义了在head h下第𝑖个特征和第𝑗个特征之间的未归一化相关性。它可以是一个神经网络或者简单的内积，即⟨·,·⟩。
$W_Q^{(h)}, W_K^{(h)} \in R^{𝑑′\times 𝑑}$：是变换矩阵，将原始的embedding空间$R^𝑑$投影到一个新的空间$R^{𝑑′}$。其中$𝑑′=𝑑/𝐻$，𝐻是注意力头的数量。

然后，通过系数$𝛼_{𝑖,𝑗}$聚合其他特征，第𝑖个特征在子空间ℎ中的representation被更新为：

\[\widehat{h}_𝑖^{(ℎ)} = \sum\limits_l^M 𝛼_{𝑖,𝑗}^{(ℎ)} (W_V^{(ℎ)} h_𝑙)\]

…(5)

其中：

$W_V^{(ℎ)} \in R^{𝑑′×𝑑}$
$\widehat{h}_𝑖^{(ℎ)}$：是在head h下第𝑖个特征及其相关特征的组合。

等式（4）中的相关函数将所有场景的实例视为相同，忽略了不同场景之间的分布差异。为了建模场景之间的分布转移，我们在特征之间的相关系数计算中引入了场景embedding。我们首先将$s_Q、s_K$的场景embedding分成𝐻个部分，即：

\[s_Q=[s_Q^{(1)}, \cdots, s_Q^{(𝐻)}]，\\ s_K=[s_K^{(1)}, \cdots, s_K^{(𝐻)}]\]

其中：

$s_K^{(h)}，s_Q^{(h)} \in R^{𝐿/𝐻}$

然后在head h下改进场景自适应注意力函数，如下所示：

\[𝜙_{𝑠𝑎}^{(ℎ)}(h_𝑖,h_𝑗,s_Q^{(ℎ)},s_K^{(ℎ)})\]

… (6)

现在的问题是：如何设计场景自适应注意力函数$𝜙_{𝑠𝑎}^{(ℎ)}(·,·,·,·)$，它会明显影响交叉质量。基于计算复杂度从低到高的顺序，我们考虑了三种方法，如图3所示。

图片名称

图3 计算scenario-adaptive self-attention的三种策略

SA-Gate（Bit-wise）：

SA-Gate是一种直接使用按位转换(bitwise transform)来引入场景embedding的策略是门控机制。具体而言，我们基于场景嵌入生成门控模块，以过滤特征嵌入：

\[𝜙_{𝑠𝑎}^{(ℎ)}(h_𝑖,h_𝑗,s_Q^{(ℎ)}, s_K^{(h)})=⟨\sigma(s_Q^{(h)}) \circ (W_Q^{(h)} h_𝑖), \sigma(s_K^{(h)}) \circ (W_K^{(h)} h_𝑗)⟩\]

…(7)

其中:

$\sigma(𝑥)=1/(1+e^{(−𝑥)})$：表示Sigmoid函数
$\circ$：表示element-wise乘积

SA-Bilinear（双线性: Bilinear）：

这种方法对特征embedding进行双线性变换，由场景感知矩阵S参数化。注意力分数计算为：

\[𝜙_{𝑠𝑎}^{(ℎ)}(h_𝑖,h_𝑗,s_Q^{(ℎ)},s_K^{(ℎ)})=(W_Q^{(ℎ)} h_𝑗)^⊤ S(W_K^{(ℎ)} h_𝑖)\]

…(8)

其中：

$S=Reshape(s_Q^{(ℎ)}) \in R^{𝑑×𝑑}$：场景感知矩阵

…(9)

注意：在这种策略中，每层中的$s_Q^{(ℎ)}$和$s_K^{(ℎ)}$是相同的。

SA-MetaNet（非线性）：

前两种策略采用按位和双线性变换来引入场景特征，其表达能力有限，可能无法建模场景信息与交互特征之间的复杂关系。为此，我们考虑通过MetaNet机制进行非线性变换，类似于动态权重单元[30]。

以$s_Q^{(ℎ)}$为例，首先将其分成𝑃个slots：$[s_{Q,1}^{(ℎ)};\cdots;s_{Q,𝑃}^{(ℎ)}]$，

生成一个𝑃层Meta Network $𝑓_{s_Q^{(ℎ)}}^m(·)$的投影参数：

\[𝑓_{s_Q^{(ℎ)}}^m=W_1 \sigma(W_2 \sigma(\cdots \sigma(W_𝑃 x)\cdots))\]

其中：

$W_𝑝=Reshape(s_{Q,p}^{(ℎ)})，W_𝑝 \in R^{𝑑_{𝑝−1}×𝑑_𝑝}$
$𝑑_𝑝$：是第𝑝+1层的输入维度
$\sigma$：是非线性激活函数（例如ReLU）

我们使用相同的过程构建$𝑓_{s_K^{(ℎ)}}^m(·)$来处理场景嵌入$s_K^{(ℎ)}$。生成的MetaNet用于在pair-wise交叉前对input特征embedding进行转换。直观地说，$s_Q$和$s_K$的不同slots以及激活函数，可以被视为从低层到高层的场景感知滤波器，对特征嵌入进行处理，赋予网络捕捉场景之间隐含差异的能力。现在，场景自适应注意力得分（scenario-adaptive attention score）计算如下：

\[𝜙_𝑠𝑎^{(ℎ)}(h_𝑖,h_𝑗,s_Q^{(ℎ)},s_K^{(ℎ)})=⟨LN_Q^{(ℎ)}(𝑓_{s_Q^{(ℎ)}}^m (W_Q^{(ℎ)} h_𝑖)), LN_K^{(ℎ)} (𝑓_{s_K^{(ℎ)}}^m (W_K^{(ℎ)} h_𝑗))⟩\]

…(10)

其中：

$LN_Q^{(ℎ)}(·)$和$LN_K^{(ℎ)}(·)$：是层归一化层，用于归一化嵌入分布，具有独立的层参数。

我们发现归一化层是必不可少的，因为经过多层非线性变换后，embedding的方差会显著放大，这会严重影响收敛。在实践中，我们将MetaNet与LN层一起移动到多头分区之前，这允许跨不同头部进行信息交互，并在经验上实现了更好的性能。因此，注意力头ℎ下的注意力得分表示为：

\[𝜙_{𝑠𝑎}^{(h)}(h_𝑖,h_𝑗,s_Q,s_K)=⟨[LN_Q(𝑓_{s_Q}^{m}(W_Q h_𝑖))]^h, [LN_K(𝑓_{s_K}^m (W_K h_𝑗))]^ℎ⟩\]

…(11)

其中：

$W_Q$和$W_K \in R^{𝑑×𝑑}$：是变换矩阵
$[\cdot]^h$：表示分区操作和选择第ℎ个子空间

根据公式5，我们会更新在attention head h下的第𝑖个特征的representation为$\widehat{h}_𝑖^h$，然后将不同子空间的特征聚合如下：

\[\widehat{h}_𝑖 = \widehat{h}_i^1 \oplus \widehat{h}_2^h \cdots \oplus \widehat{h}_𝐻^h\]

… (12)

其中：

$\oplus$是concatenation运算符。

接下来，我们使用投影矩阵$W_Agg$将学习到的特征进行转换，并添加标准的残差连接(residual connections)以保留以前学习到的组合特征(combinatorial features)，包括原始的个体特征（即一阶特征），接着是一个层归一化层。形式上，第𝑖个特征的输出表示为：

\[h_𝑖^O=LN(W_A \widehat{h}_𝑖 + h_𝑖)\]

…(13)

通过这样一个interacting layer，每个特征表示会被更新到一个新的特征空间中，具有在场景信息的指导下来自其他字段的信息聚合。我们可以堆叠多个这样的层来模拟任意阶的组合特征。我们将最后一层的输出embedding串联起来以获得$h^{Out}=h_1^{Out} \oplus h_2^{Out} … \oplus h_𝑁^{Out}$，并使用带有Sigmoid函数𝜎的线性层来获得最终预测：

\[pCTR=\sigma(W_O h^{Out} +b_O)\]

…(14)

其中：

$W_O \in R^{1×𝑁_𝑑}$ 和 $b_O \in R$。

整个网络通过交叉熵损失进行优化。空间和时间复杂度的分析详见附录A。

略

https://dl.acm.org/doi/pdf/10.1145/3580305.3599936

d0evi1的博客

d0evi1's blog

摘要

1.引言

2.相关工作

3.模型结构

3.1 AdaTT-sp

3.1.1 融合单元(fusion unit)

3.1.2 简化

3.2 常规版本的AdaTT(General AdaTT)

4.实验

4.1 基线模型

4.2 大规模短视频推荐系统评估

4.2.1 任务分组

4.2.2 实验设置

4.2.3 模型超参数

4.2.4 关于参与度（engagement）与消费（consumption）任务组的实验

4.2.5 关于两项消费任务组的实验

4.2.6 五项多样化任务实验。

4.3.1 公开数据集评估

4.3.2 模型超参数设置。

4.3.3 实验结果。

4.4 𝑁𝑎𝑡𝑖𝑣𝑒𝐸𝑥𝑝𝑒𝑟𝑡𝐿𝐹 模块的消融实验

4.5 门控模块专家权重分布的可视化

4.6 超参数研究

4.6.1 任务特定专家数量的影响

4.6.2 融合层级的影响

5 结论

摘要

1 引言

2 相关工作

3 首页feeds排序模型（HOMEFEED RANKING MODEL）

4 约束（CONSTRAINTS）

4.1 内存

4.2 延迟

4.3 超参数

4.4 可复制性

4.5 稳定性

5 实验

5.1 指标

5.2 学习实验

5.2.1 交互的顺序

5.2.2 平行交互

5.2.3 交互的非线性

5.3 变体（Variants）

5.3.1 Transformer

5.3.2 FinalMLP

5.3.3 GDCN

5.3.4 Masknet

5.3.5 SDCNv3

5.3.6 DeepLight

5.3.7 DHEN

5.4 结果

摘要

1 引言

2 相关工作

2.1 推荐系统

2.2 序列推荐

3 方法论

3.1 预备知识：Homefeed排序模型

3.2 实时用户行为序列特征

3.3 我们的方法：TransAct

3.3.1 特征编码

3.3.2 早期融合（early fusion）

3.3.3 序列聚合模型

3.3.4 随机时间窗口掩码

3.3.5 transformer输出压缩

3.4 模型产品化

3.4.1 模型重新训练

3.4.2 GPU服务

3.4.3 实时特征处理

4.实验

附录

摘要

1 引言

2 设计选择

3 我们的方法：PinnerFormer

3.1 特征编码

3.2 模型架构

3.3 度量学习