字节ADS介绍

Reading time ~2 minutes

字节在《Adaptive Domain Scaling for Personalized Sequential Modeling in Recommenders》提出了它们的关于序列建模的多场景建模实现ADS:

摘要

在像抖音这样的超级应用中,用户通常会在多个业务场景中展现出复杂的行为模式和多样化的意图,这对当前工业界的多领域推荐系统提出了巨大的挑战。为了缓解不同领域之间的差异,研究和工业实践通常强调采用复杂的网络结构以适应多样化的数据分布,而忽视了从多领域角度对用户行为序列的深入理解。

本文提出了自适应领域缩放(Adaptive Domain Scaling, ADS)模型,该模型全面增强了跨多个领域的目标感知序列建模中的个性化能力。具体而言,ADS包含两个主要模块:

  1. 个性化序列表示生成(Personalized Sequence Representation Generation, PSRG)
  2. 个性化候选表示生成(Personalized Candidate Representation Generation, PCRG)

这些模块通过动态学习不同领域下的用户行为序列item表示和候选目标item表示,促进了自适应用户意图理解,从而实现了量身定制的多领域学习。我们在一个公共数据集和两个十亿级别的工业数据集上进行了实验,广泛的结果验证了ADS的高效性和兼容性。

此外,我们在两个有影响力的业务场景(包括抖音广告平台抖音电商服务平台)上进行了在线实验,两者均显示出显著的业务改进。目前,ADS已在字节跳动的多个推荐服务中全面部署,服务于数十亿用户。

1 引言

随着数字内容的指数级增长和互联网的广泛使用,推荐系统在提升用户体验和缓解信息过载方面发挥了至关重要的作用[29]。在实际应用中,为了提高用户留存率并促进商业利益,工业推荐的需求广泛分布在多个领域[12, 14]。例如,如图1所示,在抖音(全球最大的视频观看应用之一)中,主要领域包括短视频直播预览直播滑动,用户可以在这些场景中观看短视频、直播流,并享受电商和本地生活服务。此外,由于其亿级用户规模,不同的用户群体(如来自不同国家、不同性别、高活跃度或低活跃度的用户)也构成了不同的领域。由于不同领域的数据分布差异较大,这为推荐系统带来了显著的多领域建模问题[30]。

图片名称

图1

为此,工业界的常见实践通常是构建一个共享底层-多头输出的模型结构,利用分离和统一混合建模的优势来处理多领域问题[4]。为了进一步改进这一点,最近的研究致力于构建精细的网络结构以增强多领域建模,例如领域级方法如星型拓扑自适应推荐器(STAR)[18]、渐进分层提取(PLE)[19],以及实例级方法如自适应参数生成网络(APG)[25]、AdaSparse[27]等。然而,大多数现有方法都专注于复杂的特征交互网络结构,而多领域序列建模的方法却较少受到关注。

序列建模在工业推荐系统中扮演着至关重要的角色,其中最流行且有效的方法是基于target attention的方法,例如深度兴趣网络(DIN)[32]、特征协同网络(CAN)[2]和多头注意力(MHA)[20]。在抖音的广告系统中,从转化率预测(CVR)模型中移除target attention模块后,ROC曲线下面积(AUC)指标下降了超过0.2%,这是一个显著且不可接受的损失,证明了基于target attention的序列建模的有效性。尽管其重要性,现有target attention方法较少考虑多领域差异的影响,这为多领域建模留下了显著的空白。

一般来说,当前用户序列的target attention机制可以表述为一个典型的query-key-value建模范式:

\[g(Rep_{cand}, Rep_{seq}) \times Rep_{seq}\]

其中:

  • $Rep_{cand}$表示需要预测点击/转化概率的候选target item的表示
  • $Rep_{seq}$表示用户序列嵌入
  • $g$计算任意序列item与target item对之间的注意力权重

如前所述,当前工业推荐系统通常遵循共享底层嵌入范式,这意味着:

  1. 候选item和用户行为item的嵌入表完全共享,未考虑不同领域item和用户之间的差异
  2. 候选item作为不同key/value的共享查询,未考虑用户序列中多领域item的差异

因此,这从两个方面对当前多领域推荐系统提出了潜在挑战:

  • 序列表示的个性化:在多领域中,相同item在不同用户序列中的表示是必要的。例如,新用户可能喜欢观看高点赞视频,而长期用户可能更关注他们关注的视频创作者。因此,相同的视频对不同用户领域表现出不同的吸引力,而其嵌入是不同用户序列中的共享表示,这阻碍了推荐系统捕捉用户的实际意图。

  • 候选item的个性化:对于不同用户或同一用户序列中的不同item,候选item由于多领域影响具有不同的影响和功能。例如,用户在抖音商城中的购物行为可能主要受产品价格影响,而在抖音短视频场景中,视频创作者对内容偏好用户的影响更为显著。因此,相同的候选item应在不同领域中个性化,以适应用户序列中的不同历史项。

为了克服这些局限性并填补多领域target attention建模的空白,我们提出了自适应领域缩放(Adaptive Domain Scaling, ADS)模型,该模型充分挖掘了当前基于target attention的推荐系统的个性化建模能力,并在多领域任务中提供了更准确和自适应的意图理解能力。具体而言,ADS包含两个模块:

  • 个性化序列表示生成(PSRG)
  • 个性化候选表示生成(PCRG)

在PSRG中,我们设计了一种新颖的共享-私有结构,用于学习用户行为中的多领域项表示,旨在为序列items生成个性化表示,即相同item在不同用户序列中具有不同的表示。在PCRG中,候选item通过为不同序列items生成不同的目标候选表示,进一步增强了个性化建模能力。通过将领域相关信息作为生成结构的输入,多领域的影响被充分注入序列建模中,从而增强了用户意图理解能力。值得注意的是,ADS是一个高效的即插即用网络,可以轻松集成到现有推荐系统中。

本工作的贡献总结如下:

  • 我们提出了自适应领域缩放(ADS)模型,这是一种有效的即插即用个性化网络结构,通过个性化target attention建模来实现多领域用户意图理解。我们在一个公共数据集和两个十亿规模的工业数据集上进行了广泛实验,结果验证了其优越性。
  • 我们在框架中开发了个性化序列表示生成个性化候选表示生成模块,从用户行为序列和候选target item的角度捕捉多领域特征,增强了当前target attention机制的多领域学习效果。
  • 我们在字节跳动抖音的广告系统和电商系统中部署了ADS,分别带来了抖音广告系统总收入的1.09%提升和电商系统的0.79%提升。目前,ADS已在字节跳动的多个推荐系统中全面部署,服务于数十亿用户。

2 方法论

2.1 预备知识

2.1.1 问题定义

本文主要关注推荐系统中的排序建模任务,这是一个典型的二分类问题。以点击率(CTR)预测为例,概率 $\hat{y}$ 可以通过以下公式计算:

\[\widehat{y} = f(\mathbf{E}_U, \mathbf{E}_I, \mathbf{E}_O) \quad (1)\]

其中:

  • $E(\cdot)$ 表示嵌入函数,将原始分类特征直接转换为嵌入,连续特征则先分桶再嵌入为稠密向量。
  • $f$ 是基于多层感知机(MLP)的转换函数。
  • $U$、$I$ 和 $O$ 分别表示用户侧、目标候选item侧和其他特征。用户侧特征通常包括:人口统计特征(如用户位置和语言)和行为特征(如用户的观看列表或购物列表)。item侧特征包括项的描述性特征(如类别、创作者等)。此外,其他特征 $O$ 通常包含context特征和user-item交叉特征。

2.2 提出的ADS模型

图片名称

图2

ADS模型的结构如图2所示,整体由两个主要部分组成:

  • 个性化序列表示生成(PSRG):通过共享-私有学习结构生成动态行为item嵌入,使得相同item在不同领域中具有不同的表示
  • 个性化候选表示生成(PCRG):捕捉序列items的不同方面,并为每个序列items生成多个自适应查询(即候选item),以反映不同查询对多样化序列items的影响

通过PCRG和PSRG生成的自适应Q、K和V,目标感知建模机制(如MHA、DIN和CAN)可以轻松集成到该框架中,促进多领域场景中的兴趣捕捉。

2.2.1 个性化序列表示生成(PSRG)

当前大规模工业推荐系统通常采用共享嵌入层将原始ID和其他特征嵌入为dense向量。这种方式下,嵌入表中的特定item具有统一的嵌入表示,在不同用户序列中共享,忽略了多领域差异的影响。

PSRG的基本思想是:为用户行为序列中的每个item嵌入动态生成一个个性化层,使得原始共享表示可以在多领域中多样化。具体而言,我们使用领域相关特征嵌入 $E_D \in R^{d_D}$ 作为PSRG生成部分的输入,这些特征包括:

    1. 显式领域指示特征(explicit-domain-indicator features):区分样本所属的领域。例如,指示器范围为[0, 2],表示抖音中的三个不同业务场景。
    1. 隐式领域指示特征(implicit-domain-indicator features):在推荐系统中,某些领域难以明确定义。例如,用户是否高活跃度。因此,需要结合工程师构建的统计特征以进一步捕捉和区分不同领域。

如图2所示,序列items的weight和bias生成过程旨在动态调整原始item嵌入。

序列权重生成网络(Sequence-Weight Gen-Net)

用户序列嵌入表示为:$E_S \in R^{T \times d_S}$

其中:

  • $T$ 和 $d_S$ 分别表示用户序列长度和每个序列items的嵌入维度。

基于领域特征 $E_D$,权重生成过程包括:私有权重部分和共享权重部分,以捕捉多领域的共性和个性。私有部分通过两层MLP生成私有权重:

\[\mathbf{W}_{private} = Sigmoid(ReLU(\mathbf{E}_D \mathbf{W}_1^T + \mathbf{b}_1) \mathbf{W}_2^T + \mathbf{b}_2) \quad (2)\]

其中:

  • $\mathbf{W}_1^T \in \mathbb{R}^{d_D \times d_h}$,$\mathbf{W}_2^T \in \mathbb{R}^{d_h \times (d_S \times d_S)}$:表示weight
  • $\mathbf{b}_1 \in \mathbb{R}^{d_h}$,$\mathbf{b}_2 \in \mathbb{R}^{(d_S \times d_S)}$:表示bias
  • $d_h$ 表示隐藏层维度

通过引入两层函数而非单层,不仅可以提高模型的表达能力,还能显著减少模型参数和计算成本。

基于 $\mathbf{W}{private}$,进一步定义一个全局权重 $\mathbf{W}{shared} \in \mathbb{R}^{(d_S \times d_S)}$,作为可学习矩阵在所有用户间共享。生成的权重定义为:

\[\mathbf{W}_{generated} = \eta * (\mathbf{W}_{shared} \odot \mathbf{W}_{private}) \quad (3)\]

其中:

  • $\odot$ 表示逐元素乘积。由于引入了 $Sigmoid$,$\mathbf{W}{private}$ 的值范围为[0, 1],因此引入缩放超参数 $\eta$ 以扩大 $\mathbf{W}{private}$ 的表达范围。

序列偏置生成网络(Sequence-Bias Gen-Net)

类似于权重生成过程,偏置生成可以通过以下公式实现:

\[\mathbf{b}_{generated} = ReLU(\mathbf{E}_D \mathbf{W'}_1^T + \mathbf{b'}_1) \mathbf{W'}_2^T + \mathbf{b'}_2 \quad (4)\]

其中:

  • $\mathbf{W’}_1^T \in \mathbb{R}^{d_D \times d_h}$,$\mathbf{W’}_2^T \in \mathbb{R}^{d_h \times d_S}$:为weight
  • $\mathbf{b’}_1 \in \mathbb{R}^{d_h}$,$\mathbf{b’}_2 \in \mathbb{R}^{d_S}$:为bias

通过生成的权重和偏置,PSRG可以通过以下公式实现:

\[\mathbf{E}_{S-personalized} = \mathbf{E}_S Reshape(\mathbf{W}_{generated})^T + \mathbf{b}_{generated} \quad (5)\]

其中:

  • $Reshape$ 操作将一维向量形式的 $\mathbf{W}_{generated}$ 重塑为二维矩阵形式,形状为 $d_S \times d_S$。

2.2.2 个性化候选表示生成(PCRG)

除了序列的个性化建模,另一个重要部分是:对target item的多领域建模,target item通常在target attention中扮演query的角色。个性化候选item包括两个方面:

  • 1.类似于序列表示,target item本身的表示也通过共享嵌入层嵌入,未在不同领域中个性化。
  • 2.候选item在不同领域的序列items中扮演不同角色。例如,用户在抖音商城频道中的观看列表反映其购物兴趣,而在短视频频道中反映其内容偏好。

多查询生成网络(Multi-Query Gen-Net)

图片名称

图3

为此,我们提出了多查询生成网络(如图3中间子图所示),在领域相关特征 $E_D$ 和原始target item嵌入 $E_Q \in R^{d_Q}$ 的指导下,生成多个查询:

\[\mathbf{E}_{Q-private} = ReLU(\left(\mathbf{E}_D \oplus \mathbf{E}_Q\right) \mathbf{W}_{q1}^T + \mathbf{b}_{q1}) \mathbf{W}_{q2}^T + \mathbf{b}_{q2} \quad (6)\]

其中:

  • $\oplus$ 表示拼接操作
  • $\mathbf{W}{q1}^T \in \mathbb{R}^{(d_D + d_Q) \times d_h}$,$\mathbf{b}{q1} \in \mathbb{R}^{d_h}$:表示第一层的w, b
  • $\mathbf{W}{q2}^T \in \mathbb{R}^{d_h \times (T \times d_Q)}$,$\mathbf{b}{q2} \in \mathbb{R}^{T \times d_Q}$:表示第二层的w, b
  • 隐藏层维度 $d_h « (T \times d_Q)$,使得计算成本可控。

分块查询生成(Chunked-Query Generation)

对于长序列($T$ 为数百或更高)的情况,我们还设计了一种轻量级的分块查询生成方法以提高计算效率。如图3右侧子图所示,由于用户的相邻行为往往发生在同一领域,原始序列可以划分为 $G$ 个块,相邻item形成一个组。因此,生成的 $\mathbf{E}_{Q-private} \in \mathbb{R}^{(G \times d_Q)}$ 可以进一步重复为 $\mathbb{R}^{(T \times d_Q)}$,计算成本进一步降低。

最终生成的多查询

对应于多个私有查询 $\mathbf{E}{Q-private} \in \mathbb{R}^{(T \times d_Q)}$,我们使用原始查询 $\mathbf{E}_Q$ 作为共享基,即 $\mathbf{E}{Q-shared} = tile(\mathbf{E}_Q)$,其中 $tile$ 表示将 $\mathbf{E}_Q$ 重复 $T$ 次。最终生成的多查询通过残差方式获得:

\[\mathbf{E}_{Q-personalized} = Reshape(\mathbf{E}_{Q-private} + \mathbf{E}_{Q-shared}) \quad (7)\]

其中:

  • $Reshape$ 操作将一维向量重塑为二维矩阵形式,形状为 $T \times d_Q$。

2.2.3 目标感知注意力与预测

通过上述个性化查询 $\mathbf{E}{Q-personalized} \in \mathbb{R}^{T \times d_Q}$ 和个性化序列items $\mathbf{E}{S-personalized} \in \mathbb{R}^{T \times d_S}$,target attention模块计算每个项的注意力权重,并在查询的指导下聚合序列。通常,个性化查询和项可以轻松集成到许多流行的注意力方法中,如多头target attention、DIN和CAN。

以多头target attention为例,对于每个头,候选item和序列items首先通过以下公式转换:

\[\mathbf{Q} = \mathbf{E}_{Q-personalized} \mathbf{W}_Q \quad (8)\] \[\mathbf{K} = \mathbf{E}_{S-personalized} \mathbf{W}_K \quad (9)\] \[\mathbf{V} = \mathbf{E}_{S-personalized} \mathbf{W}_V \quad (10)\]

其中:

  • $\mathbf{W}_Q \in \mathbb{R}^{d_Q \times d_A}$,$\mathbf{W}_K$ 和 $\mathbf{W}_V \in \mathbb{R}^{d_S \times d_A}$,$d_A$ 表示target attention中的维度大小。第 $t$ 个查询-键对的注意力权重 $\mathbf{z}’[t]$ 可以通过以下公式计算: \(\mathbf{z}'[t] = \frac{\mathbf{Q}_t^T \mathbf{K}_t}{\sqrt{d_A}} \quad (11)\) 随后通过softmax操作对个性化权重进行归一化并聚合个性化序列:
\[\mathbf{z} = softmax(\mathbf{z}'), \quad \mathbf{s} = \sum_{t=1}^T (\mathbf{z}[t] \cdot \mathbf{V}_t) \quad (12)\]

通过序列建模输出 $\mathbf{s}$ 和其他特征嵌入(包括 $\mathbf{E}_U$、$\mathbf{E}_I$ 和 $\mathbf{E}_O$),拼接层和多个高层MLP将所有信息合并并输出预测结果,训练损失通过二元交叉熵函数计算:

\[\mathbf{E}_{all} = \mathbf{s} \oplus \mathbf{E}_U \oplus \mathbf{E}_I \oplus \mathbf{E}_O, \quad \hat{y} = MLP(\mathbf{E}_{all}) \quad (13)\]

3 实验

3.1 实验设置

数据集和实验设置
为了充分评估所提出的ADS模型,我们在一个公共数据集(即淘宝数据集)和两个来自抖音的十亿级工业数据集(即抖音广告平台抖音电商平台)上进行了实验。表1报告了这三个数据集的统计信息。

  • 淘宝数据集:淘宝数据集来自[33],提供了淘宝用户行为数据,目前广泛用于序列建模方法[3]。前7天数据用于训练,其余用于测试。过滤了至少有200次交互和10次正向行为的用户,以及至少有10次交互的项。数据集中有9,439个类别,我们将每个类别视为一个领域。在该数据集中,页面浏览被视为负向交互,其他行为被视为正向标签(订单)。

  • 抖音广告数据集:我们选择了抖音广告中的转化率(CVR)预测任务,并收集了从2022年12月14日到2023年3月10日的在线流量日志子集,共87天,17.3亿样本。前77天用于模型训练,其余10天用于评估。在抖音广告平台中,根据用户的外部行为,数据集可以分为三个主要领域:直播支付、直播订单和短视频购物,分别表示为领域1、2和3。

  • 抖音电商数据集:我们选择了抖音直播电商服务中的两种用户购物行为(点击和订单)作为预测目标。收集了从2024年1月1日到3月1日的在线流量日志子集,共61天,25.2亿样本。前54天用于训练,最后一周用于验证。数据集涉及抖音直播中的两个典型场景:直播预览和直播滑动,分别表示为领域1和2。

对比方法和评估指标
为了全面比较所提出的ADS与现有方法,我们选择了几个代表性的SOTA模型,分为两类:

  1. 基于DNN的方法:包括DNN、DeepFM[9]、DCNv2[23]、APG[25]、AdaSparse[27]、DFFM[10]、MaskNet[24]。
  2. 基于target attention的骨干方法:包括DIN[32]、MHA[20]和CAN[2],并在此基础上添加了最近的多领域嵌入学习方法进行比较,包括FRNet[21]和PEPNet[6]。

所有方法均基于Tensorflow实现,并通过交叉熵损失进行优化。采用Adam[13]优化器,初始学习率为0.00002。使用AUC指标评估排序模型的性能。此外,我们引入了相对改进(Imp.)[26]来衡量相对AUC增益,计算公式如下(随机策略的AUC值为0.5): \(AUC\ Imp. = \left(\frac{AUC(MeasuredModel) - 0.5}{AUC(BaselineModel) - 0.5} - 1\right) \times 100\% \quad (14)\)

3.2 实验结果

整体性能
表2展示了不同方法在三个数据集上的对比结果。对于淘宝数据集,由于领域数量较多,仅提供了整体结果。为清晰起见,结果按四组进行报告:第一组列出基于DNN的方法,其余三组分别列出基于DIN、MHA和CAN的多领域target attention方法。从结果中可以得出以下几点观察:

  1. 与基于DNN的方法相比,基于target attention的序列建模在排序模型中起着至关重要的作用。从表中可以看出,DIN、MHA和CAN在淘宝数据集上分别提升了0.54%、0.23%和0.17%,在抖音广告数据集上分别提升了0.22%、0.19%和0.04%,在抖音电商的点击预测任务中分别提升了0.49%、0.31%和0.11%。

  2. 现有的多领域方法对排序模型普遍有积极影响。具体而言,在基于DNN的方法中,AdaSparse在淘宝和抖音广告数据集上优于基线。FRNet和PEPNet在不同组中也表现出改进的性能。

  3. 所提出的ADS在基于DIN、MHA和CAN的组中始终表现最佳,显示出其高效性和兼容性。具体而言,在淘宝数据集中,ADS在DIN、MHA和CAN组中分别比第二好的方法提升了0.47%、0.20%和0.20%。在抖音广告数据集中,ADS比第二好的方法分别提升了0.20%、0.12%和0.14%。在抖音电商数据集中,ADS在点击预测任务中分别比第二好的方法提升了0.05%、0.07%和0.15%,在订单预测任务中分别提升了0.11%、0.15%和0.18%。此外,在两个工业数据集的每个领域中,ADS均显著优于对比方法,证明了其个性化target attention机制的优势。

3.3 消融实验与敏感性分析

消融实验
为了进一步评估ADS中两个模块(PCRG和PSRG)的性能,我们在抖音广告数据集上进行了消融实验。如表3所示,移除PCRG模块后,整体性能在基于DIN、MHA和CAN的方法中分别下降了0.06%、0.03%和0.23%。此外,移除PCRG和PSRG模块后,整体性能分别下降了0.23%、0.23%和0.29%。因此可以得出结论,个性化target item和个性化序列对ADS均有积极影响,验证了这些模块的有效性。

ADS中分块数量的敏感性分析
为了研究分块数量的影响,我们对ADS进行了敏感性分析。具体而言,我们通过改变每个分块中的项数(从[1, 2, 5, 10])来研究性能模式,并从训练效率和模型性能两个方面进行分析。

  • 训练效率模式:我们通过总结和比较不同分块下的模型参数和训练浮点操作(FLOPs)来评估模型训练效率,结果如图4所示。从图中可以明显看出,随着模型个性化程度的提高,模型参数和训练FLOPs持续增加。

  • 性能模式:图5展示了通过改变每个分块中的项数得到的模型性能模式。具体而言,首先,与原始的DIN、MHA和CAN相比,ADS及其不同分块版本在点击和订单预测任务中均表现出明显的性能提升。此外,随着分块中项数的减少,模型性能持续提升,最个性化的模型(即无分块的ADS)表现最佳,表明考虑候选item的个性化特征具有重要意义。

总体而言,随着ADS个性化能力的提高,性能和训练成本均有所增加,但我们观察到,即使训练成本略有增加(如分块10的ADS与原始方法相比),模型性能仍能实现显著提升,因此实践者可以根据效果和效率的平衡灵活选择参数。

3.4 在线部署

ADS模型通过分片和数据并行策略在多GPU上分布式部署。为了减少存储,低频嵌入被消除。为了进一步提高GPU吞吐量,我们引入了密集计算异步策略,将计算图分为稀疏前向和密集计算部分,从而实现流水线效果,大大提高了训练和推理效率。得益于这些优化,离线训练资源与基线相同,即64个Nvidia A100。以抖音广告为例,训练时间成本从41.3小时略微增加到42.8小时(+3.6%)。在线延迟保持在30ms,无明显变化。

3.5 在线A/B实验

为了研究所提出的ADS在真实工业场景中的性能,我们在抖音的广告系统和电商系统中分别进行了仔细的在线A/B测试。

  • 抖音广告:抖音广告的在线实验于2023年11月2日至11月8日进行,覆盖了74,079,729名抖音APP用户。选择了两个指标进行比较:每千次展示成本(CPM)和广告主价值(ADVV)。需要注意的是,部署场景是字节跳动广告的主要流量来源,基线非常强,ADVV或CPM的0.5%提升被认为是显著的。对比结果如表4所示。从表中可以看出,部署ADS后,整体CPM提升了0.52%,ADVV提升了1.00%,显示了ADS自适应序列建模的优势。此外,在抖音广告的两个主要领域(直播和短视频)中,ADS均优于基线并实现了一致的提升,表明其在领域感知序列建模中的有效性。

  • 抖音电商:在线实验于2024年1月23日至1月29日在抖音电商平台进行,覆盖了508,926,918名抖音APP用户。实验结果如表5所示。选择了三个指标进行比较:每用户总交易额(GMV/U)、每用户订单数(Order/U)和每千次展示交易额(GPM),这些都是抖音电商中的重要商业指标。与抖音广告实验类似,该部署场景贡献了字节跳动最高的GMV,基线非常强,GMV的0.5%提升被认为是显著的。如表5所示,整体GMV/U、Order/U和GPM分别提升了0.79%、0.36%和0.89%。此外,在直播预览和直播滑动两个领域中均观察到一致的提升,所有提升均经过统计显著性检验(𝑝值<0.01),验证了其有效性。

#

https://arxiv.org/pdf/2502.05523

字节SVQR

字节在《Real-time Indexing for Large-scale Recommendation by Streaming Vector Quantization Retriever》提出了流式向量量化检索器。我们来看一下它的实现:摘要检索器作为推荐系统中最重要的...… Continue reading

kuaishou HoME介绍

Published on January 14, 2025

google Titans介绍

Published on January 07, 2025