kuaishou直播团队在《Moment&Cross: Next-Generation Real-Time Cross-Domain CTR Prediction for Live-Streaming Recommendation at Kuaishou》提出了它们的直播推荐:

摘要

快手作为全球领先的短视频与直播平台之一,其直播推荐(Live-Streaming Recommendation)相较于短视频推荐更为复杂,主要体现在:

  • (1) 内容具有瞬时性
  • (2) 用户可能长时间观看导致反馈延迟
  • (3) 直播内容不可预测且动态变化

事实上,即使用户对主播(live-streaming author)感兴趣,也可能因实时内容吸引力不足而产生消极观看行为(如观看时长<3秒)。因此,直播推荐面临核心挑战:如何为用户推荐恰逢其时的直播内容?

此外,平台主要曝光内容为短视频,其曝光量级是直播的9倍。这导致用户行为数据严重倾向于短视频,使得直播数据难以完整反映用户兴趣。由此衍生第二项挑战:如何利用短视频行为数据优化直播推荐?

针对第一项挑战,我们通过数据分析发现了一个有趣现象:当直播进入高光时刻(如舞蹈片段),点击率(CTR)会显著攀升。受此启发,我们认为可通过群体用户对当前直播片段的实时行为数据,自动识别”高光时刻”。因此,我们致力于让模型快速感知实时行为,从而识别处于CTR上升阶段的直播。为实现这一目标,我们升级了数据流引擎至30秒实时上报机制,并设计了创新的首帧掩码学习策略(first-only mask learning strategy)来监督我们的模型:Moment)。

针对第二项挑战,我们主要基于搜索式兴趣建模思路:先通过通用搜索单元(GSUs)检索用户历史短视频/直播行为,再利用压缩搜索单元(ESUs)进行特征提炼。此外,引入对比学习目标对齐短视频与直播的嵌入空间以增强关联性(Cross)。通过大量离在线实验与消融研究,我们验证了Moment&Cross框架的有效性。

1 引言

近年来,快手、抖音等短视频与直播平台快速发展,吸引了大量用户并积累了庞大的活跃用户群体。在快手平台上,用户主要通过滑动页(slide page)浏览内容——系统会根据用户的上下滑动行为自动播放推荐内容。因此,强大的推荐系统(RecSys)[9, 10] 是服务的基础,它直接影响用户体验,决定用户接下来观看什么内容。

相较于已被广泛研究的短视频推荐 [29, 31, 34, 39],直播推荐 [25] 更具挑战性,主要源于其媒介特性:

  1. 瞬时生命周期:短视频可长期分发,而直播内容具有临时性(平均1小时)。
  2. 长反馈延迟(Longterm feedback delay) [2]:短视频平均时长约55秒,用户行为可快速上报并用于模型训练;而直播时长较长,部分高价值反馈(如用户购买虚拟礼物)可能延迟半小时才发生。
  3. 动态内容变化 [30]:短视频始终从0秒播放,而直播内容实时变化,用户在不同时间点进入直播间可能产生截然不同的行为。

因此,直播推荐系统需解决一个关键问题:如何为用户推荐恰逢其时的直播内容? 我们通过图1中的两个案例说明:

图片名称

图1 介于“高光时刻”、实时观众和点击率趋势之间的典型的直播模式

  • 才艺直播(talent show):主播大部分时间与观众聊天或PK,偶尔展示才艺(如舞蹈)。数据分析显示,高光时刻(如才艺展示)的用户进入率显著提升,结束后则快速下降。
  • 游戏直播:主播逐局进行比赛,实时观众数随比赛进程累积,比赛结束时骤降。

实际上,无论创作者属于何种类型,用户点击直播的动机往往是:为了观看高光时刻。但由于直播内容瞬息万变,准确预判哪些直播间即将出现高光时刻并非易事。值得庆幸的是,基于海量用户实时行为数据,我们可能找到自动识别”高光时刻”的潜在解决方案:如图1所示,CTR趋势曲线与用户点击行为呈现高度同步性(波峰波谷完全对应)。这意味着,如果模型能够捕捉CTR的上升趋势,就能通过大量用户正向反馈自动发现潜在的高光时刻。

除了高光时刻捕捉的挑战外,我们的直播模型还面临更严峻的问题:数据稀疏性。在滑动页面上,用户通过上下滑动屏幕可以交替观看短视频和直播内容。然而该页面约90%的曝光内容为短视频,导致直播推荐系统存在无法充分学习用户兴趣以进行精准CTR预测的风险。由此引出一个关键问题:如何利用用户丰富的短视频行为来优化直播推荐?

为解决这个问题,我们首先说明系统架构的工作流程(如图2所示)。工业实践中,不同业务线独立部署——例如用户的短视频实时交互行为(长观看、点赞等)仅由短视频数据流引擎汇总并组织成特定训练样本格式,短视频模型通过消费该数据流来拟合实时数据分布以实现精准推荐。由于不同数据流引擎生成的训练样本格式各异,直播模型只能通过用户的直播数据流进行监督训练。

虽然无法直接消费短视频数据流,但我们已构建历史存储服务来保存用户交互日志[8,13]。数据流引擎可通过请求获取用户在其他业务线的交互历史,将其整合为输入特征的一部分。通过这种方式,我们实现了直播与短视频嵌入空间的对齐,使模型能根据用户的短视频兴趣偏好,推荐风格相似的直播内容。

图片名称

图2 快手短视频与直播服务的Slide页面推荐系统架构中,各业务采用独立的数据流与模型体系。系统仅能通过调用”交互日志”存储服务来追溯用户历史短视频行为,以此挖掘关联的小众内容项,作为获取跨业务用户日志的唯一途径。

本文提出高效解决方案Moment&Cross,旨在构建下一代直播推荐框架。针对首个挑战,我们的目标是:使直播模型能够感知哪些直播间存在点击率(CTR)上升趋势。为此,需要实时利用用户行为数据快速训练模型,以捕捉每个直播间的实时CTR状态。如图2所示,CTR信号首先上报至直播数据流引擎,再输入模型。但如同多数工业级推荐系统,上报模块需等待约5分钟收集足够行为数据后批量上报。虽然快手直播服务多年来一直采用5分钟固定窗口的数据流机制,但这种延迟已无法满足实时捕捉CTR趋势的需求。为此,我们将训练框架从”快慢上报”升级为”30秒实时上报“,并设计名为Moment的新型首曝掩码学习策略进行模型监督。

针对第二个挑战,我们致力于挖掘用户历史短视频序列并将其嵌入空间与直播内容对齐。由于用户短视频历史过长(例如活跃用户单月观看量可达万级),我们主要采用级联搜索式兴趣建模框架:

  • (1)通过通用搜索单元(GSU)回溯用户全生命周期历史,筛选获取百量级相关项序列;
  • (2)设计精确搜索单元(ESU)压缩序列信息获取用户兴趣,如序列池化、目标项注意力等机制。

此外,引入对比学习目标对齐短视频与直播的嵌入空间以增强关联性,使模型能根据用户丰富的短视频交互历史推荐风格相近的直播内容,该模块命名为Cross。本文主要贡献如下:

  • 我们提出了一种创新的实时学习框架,旨在自动发现”高光时刻”直播内容,从而构建下一代直播推荐系统:
  • 首创实时学习框架:开发了能自动识别直播高光时刻的新型算法架构
  • 设计高效迁移技术:通过简洁而有效的技术方案,实现用户短视频兴趣向直播推荐的迁移
  • 验证系统有效性:通过大量离线与在线实验验证Moment&Cross框架,目前已在快手直播服务中部署,为4亿用户提供服务

2 快手直播中的Moment&Cross框架

工业级CTR预测模型[14]的训练过程包含两个核心组件:

  • (1)用于组织训练样本特征与标签的数据流引擎,
  • (2)基于多任务学习[23]的模型架构(用于拟合点击、点赞、长观看等真实交互行为)。

在本节中,我们将:

  • 首先回顾原有5分钟快慢(Fast-Slow)直播数据流引擎构建与CTR模型学习范式的总体框架,
  • 继而介绍新型30秒实时数据流引擎及其首创的首曝掩码学习策略
  • 最后阐述我们用于捕捉用户长短期短视频交互模式的跨域技术方案

2.1 基础架构:5分钟快慢窗口数据流

数据流引擎作为工业级推荐系统的基础组件,其原始实现方案是:在用户完成内容消费(如观看并滑动至下一个短视频、听完一首歌曲)后收集行为日志进行上报。这种方案对短视频服务已足够”实时”——由于用户平均在1分钟内就会离开当前短视频,所有交互反馈都能快速收集完成。然而在直播场景中,用户可能持续观看较长时间(如30分钟甚至80分钟),若仍采用退出时统一收集的机制,将导致模型训练无法达到足够的实时性。

为此,当前主流直播数据流引擎普遍采用固定时间窗口(如5分钟)的模式来上报和组装训练样本特征与标签。但直播服务的一个显著特点是:不同类型用户行为的时间分布差异极大,某些高价值交互(如观看半小时后打赏主播)很难在小时间窗口内被观测到。如图3所示,我们通过快慢窗口(fast-slow windows)混合机制实现平衡:快窗口负责上报所有交互实现快速训练,慢窗口则补报快窗口中未观测到的正样本

根据统计数据,大部分用户观看时长不超过1小时。因此我们将用户观看过程划分为三个监测周期来指导模型训练:

  • 快窗口(5分钟):上报所有观测到的正负样本,保障训练时效性;
  • 慢窗口(1小时)仅补报快窗口中遗漏的正样本,修正标签偏差;
  • 忽略窗口:超时后不再上报任何标签

图片名称

图3 该报告对比了快慢双流(5分钟&1小时数据流)与实时30秒数据流在生成训练样本时的差异。我们仅展示最基础的样本格式(用户、直播间、点击、长观、点赞、评论、打赏)。具体而言:在快慢双流机制中,快流上报5分钟窗口内观测到的全量用户行为,慢流补充上报5分钟窗口未捕获但1小时窗口内观测到的正向行为;而在实时数据流中,我们每30秒立即上报用户首次正向行为,并在用户退出直播间时上报所有负向行为。根据样本上报的指示性关联关系,实时数据流能极速生成训练样本,从而助力模型实时捕捉直播间点击率上升趋势。

该方案虽能缓解长尾行为缺失问题,但5分钟延迟仍不足以捕捉直播高光时刻的CTR瞬变。例如,才艺表演的高点击率可能在1分钟内达到峰值,而传统引擎需等待多个窗口周期才能响应。

2.2 理论基础:基于正样本未标注学习的CTR模型训练

广义而言,点击率预测(CTR)模型[36]位于推荐系统(RecSys)[26]的最终环节,用于对每个用户最相关的数十个物品进行排序,因此也被称为全排序模型(fullrank)[38]。实际上,全排序模型不仅要预测用户点击候选物品的概率(即CTR),还需同时预测:

  • 长观看概率(LVTR: long-view)
  • 点赞概率(LTR: like)
  • 评论概率(CMTR: comment)
  • 其他XTR指标

基于这些预测概率,我们可以设计复杂的加权计算规则,通过综合这些概率值来控制物品的最终排序得分。

通常,全排序模型的学习过程被建模为一个多任务[33]二分类问题,其目标是基于数据流训练样本学习预测函数 $f_\theta(\cdot)$。每个样本包含:

  • 用户/物品ID
  • 原始特征 $V$
  • 多个二元标签(表示行为是否发生): $y^{ctr} \in \lbrace0,1\rbrace, \quad y^{lvtr} \in \lbrace0,1\rbrace, \quad y^{ltr} \in \lbrace0,1\rbrace, \quad y^{cmtr} \in \lbrace0,1\rbrace$

具体而言,原始特征 $V$ 主要分为四类:

  • 用户/物品ID
  • 统计/分类特征
  • 历史交互序列
  • 基于预训练LLM的多模态[1,4]嵌入

这些特征通过投影转换为低维嵌入向量:

\[V = [v_1, v_2, \dots, v_n]\]

其中:

  • n 表示特征数量

在我们的直播场景模型中,人工设计了 $n > 400$ 维原始特征来表征用户、物品及上下文状态。基于输入样本特征和标签,模型学习过程可形式化为:

\[\widehat{y}^{ctr}, \widehat{y}^{lvtr}, \widehat{y}^{ltr}, \dots = f_\theta([v_1, v_2, \dots, v_n]) \quad (1)\]

其中:

  • $\widehat{y}^{ctr}$、$\widehat{y}^{lvtr}$、$\widehat{y}^{ltr}$ 等表示模型预测的概率值
  • $f_\theta(\cdot)$ 是一个多任务学习模块,可采用 MMoE[22] 或 PLE[28] 等架构实现。

接着,我们利用用户的真实行为数据监督模型训练,以优化模型参数。

对于快速数据流(5分钟延迟样本),它会上报所有观测到的正label和负label,因此采用标准的负对数似然loss进行训练:

\[L_{fast} = -\sum_{xtr \in \{ctr, \dots\}} \left[ y^{xtr} \log(\widehat{y}^{xtr}) + (1 - y^{xtr}) \log(1 - \widehat{y}^{xtr}) \right] \quad (2)\]

对于慢速数据流(1小时延迟样本),它仅上报缺失的正标签(即未被及时记录的正样本),掩码掉其他一致的正标签。因此,我们采用 正-无标记损失(Positive-Unlabeled Loss)[11,18,19] 来修正历史数据中因延迟上报导致的“伪负样本(false negative)”误差梯度:

\[L_{slow} = -\sum_{xtr \in missing} \left[ \log(\widehat{y}^{xtr}) - \log(1 - \widehat{y}^{xtr}) \right]\]

其中:

  • $missing$ 表示仅在1小时时间窗口内观测到的正样本标签

通过结合这两种损失函数 $L_{fast}$ 和 $L_{slow}$,我们的模型在直播推荐服务中实现了效果与效率的平衡训练。当模型收敛后,可将其部署为在线全排序模型,用于实时响应用户请求并选取最高分物品,计算方式如下:

\[Ranking\_Score = (1 + \widehat{y}_{ctr})^\alpha * (1 + \widehat{y}_{lvtr})^\beta * (1 + \widehat{y}_{ltr})^\gamma * ...\]

其中:

  • $\alpha,\beta,\gamma$为调节各行为权重的超参数。

2.3 Moment:实时30秒数据流(Real-time 30s)与首标签掩码学习机制(First-Only Label-Mask Learning)

如我们先前版本所示,这种结合5分钟快速数据流与1小时慢速数据流的正-无标记学习框架已在直播场景中迭代多年,是一个稳定可靠且经过验证的成熟学习框架。尽管效果显著,该框架仍存在若干局限性:

  • 固定时间窗口的覆盖不足:较小的固定窗口(1小时)不可避免地会遗漏部分高价值正样本(如礼物打赏行为)。表1展示了5分钟快速流与1小时慢速流在主要行为(点击、点赞等)上的标签一致性对比,数据显示稀疏行为(尤其是礼物及礼物金额)的标签覆盖率显著偏低。
  • 实时性瓶颈:即使5分钟的快速窗口仍无法满足实时性需求,难以捕捉CTR上升趋势以解决核心挑战:如何为用户推荐”高光时刻”的直播内容?

图片名称

表1 5-Min&1-Hour数据流的标签一致性

为此,我们已将训练框架从”快慢双流”升级为”30秒实时上报“机制,使模型能够近乎实时感知所有用户行为。理想情况下,当直播进入”高光时刻”时,短时间内会产生大量正样本梯度来优化模型参数,从而使模型能够:

  • 动态识别CTR处于上升趋势的直播间
  • 即时提升该直播间的在线CTR预测分数
  • 推动内容推荐给更多观看用户

然而,30秒的极短窗口可能带来与前面提到的数据流的不匹配风险:

  • 伪负样本(FN):与5分钟固定窗口相比,如果我们在用户观看30秒后上报所有正负行为,会引入大量“伪负样本(FN)”标签,因为部分行为是延迟发生而非未发生。
  • 频繁上报:相较于快慢双通道(5分钟&1小时)数据流对每种行为仅上报一次正样本标签,我们的30秒实时流可能多次上报同一行为(例如用户可能多次评论)。
  • 行为割裂:30秒实时数据流可能按时间顺序将同一行为的正样本标签拆分到多个训练样本中。这种方式下,早期正行为(如点击和长观看)更新的梯度可能影响后续正行为(如点赞或评论)的预测,导致模型参数被两次更新,从而高估后续行为的预测概率。

为解决伪负样本问题,受慢速1小时数据流中掩码标签(mask label)思路启发,我们设计了以下上报机制:
正样本标签立即上报
负样本标签仅在用户退出直播时上报

实验表明:尽管上报窗口大幅缩短(从5分钟→30秒),但数据量并未显著增加(约为快慢双通道数据流的2倍),因为新增样本主要依赖稀疏的互动行为(如点赞、评论、送礼)。

针对频繁上报问题,我们进一步引入首次正样本掩码策略(first-only mask),即仅学习每种行为的首次正样本,以保持与原有数据流的学习规则一致。因此,Moment模型的首次掩码学习可表示为:

\(L_{moment} = -\sum_{x_{tr}}^{first,exit} \Big[ y_{x_{tr}} \log(\hat{y}_{x_{tr}}) + (1 - y_{x_{tr}}) \log(1 - \hat{y}_{x_{tr}}) \Big]\) …(5)

其中:

  • $𝑓𝑖𝑟𝑠𝑡$ 表示每种行为的首个正标签(其余标签被掩码)
  • $𝑒𝑥𝑖𝑡$ 表示用户退出直播时其他行为的正/负标签

在标签掩码设置下,我们可以用公式(5)替代公式(2)和(3)来支持模型训练,同时避免长期反馈延迟问题。对于超出风险阈值的交互行为,我们未观测到该现象,推测原因是模型参数优化旨在拟合全体用户数据分布,难以对特定用户的直播模式过拟合。快慢数据流与30秒实时数据流的差异报告如图3所示。

2.4 Cross跨域方案:短视频兴趣迁移

在我们的模型部署页面中,曝光内容约90%为短视频,10%为直播。由于流量分布不均,我们必须解决以下挑战:如何利用用户的短视频行为优化直播推荐?

如图2所示,不同业务模型仅允许使用自身的训练数据流,因此我们的直播模型只能通过用户的直播行为进行监督训练。但幸运的是,我们已构建历史存储服务来保存用户交互日志,数据流引擎可向其他业务发起请求,获取用户历史交互记录,并将其整合为输入特征的一部分。

具体而言,在“交互日志”中,我们可以回溯用户最近观看的10,000条内容ID,并获取辅助信息(如时间间隔、内容多模态标签、标注等)。为建模此类长序列,业界常用方案是两级级联的“搜索-提取”方法[9,24,27]:

  • 通用搜索单元(GSUs):检索用户历史行为,筛选出数百条相关内容的序列;
  • 精确搜索单元(ESUs):聚合序列信息以压缩用户兴趣,例如通过序列池化(sequence pooling)或目标项注意力机制(target-item-attention)。

在实现中,我们引入多个GSU模块,从多维度搜索与目标直播候选相关的短视频交互行为,包括:

  • 最新短期短视频GSU:检索用户最近的数百条短视频交互行为$V_{short}$,精准反应用户的短期兴趣点。
  • 点积搜索长期短视频GSU:通过向量点积检索与直播候选内容嵌入相似度最高的短视频(记为$V_{long}$),判断用户对此类直播的偏好。
  • 作者ID硬搜索短视频GSU:检索用户历史中与目标直播作者ID相同的短视频(记为$V_{aidhard}$),直接反应用户对该作者的偏好。
  • 点积搜索长期直播GSU:获取$V_{livelong}$,通过相似短视频行为推断用户对此类直播的潜在兴趣。
  • 长观看行为混合GSU:基于用户长观看行为(如完整播放)硬搜索,生成直播与短视频的混合序列$V_{mixed}$。

(为简洁起见,我们使用以下符号表示不同的GSU序列嵌入:$V_{short} \in \mathbb{R}^{L \times D}$、$V_{long} \in \mathbb{R}^{L \times D}$、$V_{aidhard} \in \mathbb{R}^{L \times D}$、$V_{livelong} \in \mathbb{R}^{L \times D}$ 和 $V_{mixed} \in \mathbb{R}^{L \times D}$,其中$L$为序列长度。在获得序列嵌入后,我们首先通过对比学习目标对齐其嵌入空间:

\[\begin{aligned} \mathcal{L}_{cl}^{short} &= \text{Contrastive}\left( L_2(\text{Mean}(V_{mixed})),\ L_2(\text{Mean}(V_{short})) \right) \\ \mathcal{L}_{cl}^{long} &= \text{Contrastive}\left( L_2(\text{Mean}(V_{mixed})),\ L_2(\text{Mean}(V_{long})) \right) \\ \mathcal{L}_{cl}^{aidhard} &= \text{Contrastive}\left( L_2(\text{Mean}(V_{mixed})),\ L_2(\text{Mean}(V_{aidhard})) \right) \\ \mathcal{L}_{cl}^{livelong} &= \text{Contrastive}\left( L_2(\text{Mean}(V_{mixed})),\ L_2(\text{Mean}(V_{livelong})) \right) \end{aligned} \tag{6}\]

其中$\text{Mean}(\cdot): \mathbb{R}^{L \times D} \to \mathbb{R}^{D}$是压缩序列表示的简单池化函数,$L_2(\cdot)$表示L2归一化函数,$\text{Contrastive}(\cdot, \cdot)$是通过批内采样收集负样本的对比函数。受C2DSR??启发,我们发现混合的直播&短视频序列因其与其他序列存在部分相似性但非完全相同的特性,可作为对齐其他序列的基石。

随后,我们通过ESU模块执行目标项注意力机制,根据目标直播候选嵌入$V_{live}$实现细粒度兴趣提取:

\[V_{\cdot}^{ESU} = \text{target-item-attention}(V_{live}W_q,\ V_{\cdot}W_k,\ V_{\cdot}W_v) \tag{7}\]

其中$V_{live}$表示训练样本的所有直播侧特征(例如物品标签、直播间ID、作者ID等)。在获得增强的跨域短视频兴趣表示后,我们将其拼接以估计每个交互概率,如图中所示。

4.3 实验

本节中,我们在快手直播服务平台上进行了详细的离线实验和在线A/B测试,以评估提出的方法 Moment&Cross

4.3.1 基线模型与评估指标

如图4所示,在工业级排序模型中,多门混合专家模型(Multi-gate Mixture-of-Experts) 在估计多种交互概率中起关键作用,其常见实现包括MMoE [22]、CGC [28]、PLE [28]、AdaTT [20] 等。本文选择代表性的多任务学习方法CGC和PLE验证方案有效性。我们通过离线指标AUC和GAUC [37](用户分组AUC)评估模型排序质量,并在模型收敛后将其部署至快手和快手极速版的在线A/B测试平台,通过核心指标(如观看时长、礼物价值等)验证效果。

4.3.2 整体性能

表2展示了Moment和Cross模块的独立性能。具体而言,快手每日需处理数十亿请求,AUC和GAUC的0.10%离线提升足以带来显著在线收益。实验结果如下:

图片名称

表2

  • (1)实时数据流有效性验证
    我们实现两种多任务变体:PLE(Moment&Cross) 和 CGC(Moment&Cross),其中PLE是CGC的双层堆叠版本,也是实际部署的在线模型。表2显示,PLE变体较CGC变体性能更优,表明实时数据流可无缝支持其他模型,并通过首样本标签掩码学习策略提升效果。
  • (2)跨域短视频兴趣有效性验证
    通过消融实验逐步移除各GSU序列(如无短期短视频序列的Cross),发现:
    1. 所有Cross变体均显著性能下降,表明用户历史短视频或直播序列能增强兴趣捕捉能力;
    2. 相较直播序列,短视频序列(如短期序列$V_{short}$)对直播排序模型的预测信息贡献更大(提升0.9%),可能因用户90%的观看内容为短视频,其兴趣点更易通过短视频历史序列反映。

4.3.3 在线A/B测试

为量化Moment&Cross对直播服务的贡献,我们在快手和快手极速版进行在线测试,评估核心指标(如观看时长、礼物价值、点击率等)。表3展示了Moment和Cross的独立在线结果,并细分低/中/高付费用户群体验证跨域兴趣迁移效果:

图片名称

表3

  • Moment模块:实时训练模型在点击率(+1.63%/+0.64%)和观看时长(+4.13%/+1.85%)上提升显著,但礼物数量轻微下降(-0.55%/-1.22%),因礼物指标本身波动性较大且处于系统合理范围内。
  • Cross模块:观看时长(+2.27%/+2.48%)和礼物价值(+6.91%/+8.91%)提升显著,且低付费用户增长最明显,表明跨域兴趣迁移能有效缓解数据稀疏问题。

4.3.4 案例分析

本节通过三个案例说明Moment&Cross的实际影响:

  1. 高光时刻捕捉(图5(a)):
    滑动页可更多推荐“才艺主播的高光片段”,表明基于30秒实时数据流和掩码学习的范式能精准捕捉CTR上升趋势,提升用户体验并助力主播曝光。
  2. 跨域兴趣迁移(图5(b)):
    系统可为长期观看钓鱼短视频的用户推荐户外钓鱼直播。由于钓鱼直播属小众类别,缺乏短视频信号时难以有效推荐。
  3. 用户激活效果(表4):
    将用户分为低/中/高/全活跃群体,发现低活跃群体的点击、长观、点赞等指标提升最显著,表明跨域兴趣迁移能有效挖掘直播服务的潜在用户。

图片名称

表4:短视频兴趣对不同用户群体的影响

4 相关工作

近年来,直播已成为一种时尚现象,大量专业创作者通过直播媒体与观众互动。与传统推荐场景(连接用户与物品)不同,直播推荐旨在将用户与其感兴趣的主播进行匹配。相关研究进展包括:

  • 用户-主播关系建模:开创性工作LiveRec [25]通过自注意力机制建模用户-主播的重复消费关系;[12]提出损失重加权策略,根据观看时长动态调整损失权重。
  • 多模态信息融合:MTA [30]和ContentCTR [16]引入多模态组件融合文本、图像帧信息;Sliver [21]设计重推荐机制捕捉直播动态变化。
  • 图表示学习扩展:MMBee [17]通过图表示学习与元路径行为扩展策略,丰富用户与物品的多跳邻域信息。
  • 跨域信号利用:DIAGAE [35]通过直播域用户表征对齐其他富服务域表征;eLiveRec [32]针对电商直播推荐设计解耦编码器,分离用户对直播与商品的共享意图和直播特有意图。

与现有工作的区别
本文提出的Moment&Cross聚焦于解决两个核心问题:

  1. 时机感知推荐:如何为用户在合适时机推荐直播内容?
  2. 跨域兴趣迁移:如何利用丰富的短视频行为提升直播推荐效果?

方法创新性

  1. 数据流优化:升级实时数据流架构,提出”首样本标签掩码学习策略”(first-only mask learning),加速模型训练效率;
  2. 跨域框架设计:引入基于搜索的对比学习框架,通过对比目标挖掘跨域交互序列的关联性。

现有工作多关注静态特征或单域建模,而Moment&Cross通过动态数据流和跨域兴趣迁移,实现了对用户实时兴趣与跨域行为的联合建模,为直播推荐提供新的技术路径。 #

https://arxiv.org/pdf/2502.09869

清北研究者对于正负反馈,在用户者做了用户调研,并做了总结《Beyond Explicit and Implicit: How Users Provide Feedback to Shape Personalized Recommendation Content》,从用户的视角来看隐式反馈问题:

摘要

随着个性化推荐算法在社交媒体平台中变得不可或缺,用户越来越意识到他们影响推荐内容的能力。然而,关于用户如何通过其行为和平台机制提供反馈以塑造推荐内容的研究仍然有限。我们对34位算法驱动的社交媒体平台(如小红书、抖音)的活跃用户进行了半结构化访谈。除了显式和隐式反馈外,本研究还引入了有意隐式反馈,强调了用户通过感知到的反馈机制有意采取的行动来优化推荐内容。此外,研究发现反馈行为的选择与特定目的相一致。显式反馈主要用于定制信息流,而无意的隐式反馈则更多地与内容消费相关。有意的隐式反馈则被用于多种目的,特别是在增加内容多样性和提高推荐相关性方面。这项工作强调了显式-隐式反馈二分法中的用户意图维度,并为设计更能响应用户需求的个性化推荐反馈提供了见解。

1 引言

Ariela 是中国的一名设计专业本科生,同时也是一位热衷于社交媒体的用户。她对小红书上的个性化信息流着迷,这些信息流充满了时尚潮流、旅行建议和护肤产品,这些内容不仅引导她的购买决策,还帮助她探索新的兴趣爱好(见图1a和图1b,小红书用户界面)。随着每一次互动,平台似乎越来越了解她,持续推送符合她偏好的内容。与此同时,Ariela 使用抖音(中国版的 TikTok)在休息时进行轻松娱乐(见图1c,抖音用户界面)。她喜欢在抖音上观看短小有趣的视频。当算法推荐她不感兴趣的内容时,她会快速滑过,微妙地引导平台向她推送更多关于猫咪或搞笑短剧的内容

然而,Ariela 很快意识到,两个平台上的信息流曾经是多样化的,现在却变得重复,仅仅反映了她过去的选择。为了摆脱这种模式,Ariela 故意在小红书上搜索新的风格和趋势,或点击某些帖子的“不感兴趣”按钮,打破平台的常规推荐。而在抖音上,她会快速跳过她通常喜欢的视频,希望告诉平台推送一些不同的内容。

正如 Ariela 一样,我们越来越多地消费由社交媒体平台上的个性化推荐算法策划的内容,例如小红书、抖音等。这些算法旨在通过每一次点击、浏览或互动捕捉用户偏好,为每个用户创建一个档案,推荐不仅相关而且引人入胜的内容,从而吸引用户持续使用。用户通过民间理论(即“个人为解释技术系统的结果、影响或后果而发展的直观、非正式的理论”)形成对这些算法的理解,这些理论影响了他们与算法的互动方式。随着个性化推荐算法逐渐渗透到用户的线上和线下活动中,人们开始担心平台“窥探”他们的偏好,或将他们推入同质化的“回音室”或“信息茧房”。作为回应,用户开发了各种策略来影响推荐给他们的内容,例如不点赞、点击“不感兴趣”、搜索某些话题,或忽略他们喜欢的内容。这些策略基于一个假设,即用户的行为将被平台捕捉为对算法的反馈,从而影响未来的推荐

在系统工程的背景下,反馈已被广泛研究以提高信息检索和推荐系统的性能。这些系统依赖于显式和隐式反馈,这是现有文献中一个成熟的两分法:

  • 显式反馈是指用户为表达偏好而提供的直接输入,例如指定关键词、评分或回答有关兴趣的问题
  • 隐式反馈是指用户与系统的各种互动,例如浏览、选择、保存或转发内容,系统从中间接推断用户偏好

由于这两个概念都需要用户行为或互动作为输入,我们认为在个性化推荐平台上,用户策略性地利用他们的行为来塑造推荐信息流,构成了对系统的一种反馈形式。

事实上,用户对算法系统的策略性使用已经在人机交互(HCI)社区中得到了探索。例如,学者们研究了用户对算法的抵抗以及用户自主性。尽管这些研究强调了用户的意图和影响推荐信息流的潜力,但很少有研究将用户的感知与系统反馈机制联系起来。研究这种联系可以改进个性化推荐中的反馈设计。为了填补这一空白,我们的研究从一个更广泛的问题开始:用户如何通过他们的行为和平台机制提供反馈,以塑造和控制个性化推荐平台上呈现给他们的内容?

我们对34位个性化推荐平台(如小红书和抖音)的活跃用户进行了半结构化访谈。我们发现,用户采用了多种反馈机制来影响他们接收到的内容。这些机制从显式反馈(如将内容标记为“不感兴趣”)到隐式反馈(如点击和点赞),系统从中间接推断用户偏好。我们发现,传统的显式-隐式两分法未能完全捕捉到用户有意识地利用先前被归类为隐式反馈的行为来塑造推荐信息流的主动性。为了解决这一问题,我们将隐式反馈类别进一步划分为有意隐式反馈无意隐式反馈

与传统的隐式反馈作为被动或自然互动的理解不同,有意隐式反馈是指用户有意识地执行的行为,期望系统将其解释为他们偏好的信号。例如,快速跳过不喜欢的帖子,或故意点击感兴趣的帖子以获取更多相关内容的行为,在我们的研究中频繁出现。这些行为在以往的研究中被归类为隐式反馈,但其本质是明显有意的。同时,与显式反馈不同,有意隐式反馈允许用户在不直接表达偏好的情况下引导推荐。通过将意图维度引入两分法,我们强调了用户通过显式和隐式反馈行为主动参与塑造信息流的能力。通过识别有意隐式反馈,平台可以更准确地捕捉用户意图,并为用户提供更大的信息流控制感。

此外,我们发现用户的反馈行为与其目的密切相关。显式反馈主要用于信息流定制目标,例如减少不适当的内容和提高推荐相关性,而有意隐式反馈则在增加内容多样性和提高推荐相关性方面发挥了关键作用。无意隐式反馈则最常与内容消费相关。这些发现强调了在个性化推荐中更好地设计隐式反馈,并使反馈机制与用户的具体目的保持一致的必要性。

本研究的贡献如下:

  • 首先,研究提供了实证证据,展示了用户如何利用不同的反馈机制来实现他们在使用个性化推荐平台时的目的。
  • 其次,研究引入了有意隐式反馈的概念,扩展了传统的显式和隐式反馈两分法。有意隐式反馈捕捉了用户通过其行为影响算法及未来推荐信息流的意图。
  • 第三,研究为个性化推荐平台提供了设计启示,以支持更透明和目的导向的反馈机制。

2 相关工作

2.1 用户对个性化推荐的感知

个性化推荐平台利用算法根据用户的偏好和行为(如订阅、点击、喜欢与不喜欢、停留时间等)为用户定制内容 [1, 74, 84]。此前,推荐系统已广泛应用于搜索引擎、新闻消费和电子商务网站 [54, 68, 71]。在推荐算法的驱动下,推荐系统捕捉并分析用户的互动行为(如点击、购买或显式评分),以构建代表用户偏好和行为的用户模型。基于这些模型,协同过滤等推荐算法通过分析用户或物品之间的相似性,生成与每个用户档案匹配的个性化推荐 [85]。近年来,社交媒体平台越来越多地集成个性化推荐算法 [27],通过推送与用户偏好高度一致的内容来延长用户的参与时间,同时促进用户的内容创作和社交互动 [39, 72, 82]。

因此,个性化推荐算法逐渐在塑造用户所看到和了解的内容中扮演编辑角色 [26]。它们重塑了社交媒体中的内容消费 [7]、内容创作 [8, 14] 和在线社交 [19]。像抖音和小红书这样的平台在中国国内用户和国际受众(分别称为 TikTok 和 RedNote)中获得了极大的欢迎。这类平台允许用户直接与内容互动,并严重依赖算法来捕捉这些互动,而不仅仅依赖于账户关注,以优化个性化的图片或视频信息流 [11, 32, 47]。

然而,由于底层算法的不透明性 [26, 65],用户对个性化推荐平台的运作方式了解非常有限 [21]。这种理解的缺乏常常导致用户发展出“民间理论” [7, 15, 20, 62],以解释系统如何定制推送给他们的内容。例如,Klug 等人发现,TikTok 用户通常认为视频参与度、发布时间和标签的积累是影响平台算法推荐的关键因素 [47]。这些民间理论并非静态的,而是随着用户遇到新的经验和信息而不断演变,帮助他们更好地与算法系统互动 [14]。这些民间理论直接影响用户如何感知和与算法互动,基于此,用户会采取行动来控制算法,以改善内容个性化 [29] 或增加他们在社交媒体平台上的可见性 [8, 9]。内容创作者还会分享和讨论他们与算法的互动经验,即“算法八卦”,以共同优化他们的内容推广策略 [4]。

总之,个性化推荐平台重塑了用户在线消费、创建和分享内容的方式。然而,用户往往不清楚他们的互动行为是如何被平台处理的。随着用户形成“民间理论”来理解底层机制,探索用户如何与这些个性化推荐平台互动并提供反馈以塑造他们的推荐信息流变得至关重要,这也引出了文献综述的下一部分。

2.2 用户与推荐算法的策略性互动

用户越来越意识到他们的互动行为可能会影响算法,并进一步塑造他们的在线体验,有时甚至会让他们感到个性化推荐算法在“窥探”他们的想法 [18, 47]。这种意识导致了一系列用户行为,旨在“教导”、抵抗和重新利用算法 [43],以及个性化内容审核 [37]。

其中一些行为是微妙的内容修改操作,例如“伏地魔式操作”(即不提及某些词语或名称)和“截图”(即在不增加网站流量的情况下使内容可见)以控制他们的在线存在 [82],或者使用“算法语言”(即在创建或分享在线内容时故意更改或替换词语)以绕过算法审核 [48]。此外,用户花费大量时间和精力使用各种策略来对抗不想要的推荐内容 [64, 69],例如不点赞、点击“不感兴趣”、搜索新关键词 [43]、忽略他们喜欢的内容 [10],以及通过屏蔽特定关键词来配置个性化内容审核工具 [36]。一些研究挑战了那些加剧不平等和不公正的算法推荐和内容审核系统 [3, 40, 41, 70]。例如,TikTok 用户通过修改他们的互动行为(如关注用户和分享他们的内容)来影响他们的推荐信息流,使其与个人身份保持一致,并影响其他用户的信息流,以抵抗对边缘化社会身份的压制 [40]。他们还通过与特定标签和点赞互动来策划理想的“为你推荐”信息流,以应对感知到的不平等 [78]。为了避免社交媒体中的错误审核,用户使用编码语言或在感知到平台不成比例地删除边缘化用户身份相关内容时停止使用平台 [57],有时他们会在被“影子封禁”后选择切换账户 [55]。用户驱动的算法审计也被用来揭示有害的算法行为 [16, 75]。

因此,算法不仅通过用户与平台的有机互动来塑造,还通过用户策略性地尝试影响推荐信息流来塑造 [49]。例如,Haupt 等人将这一策略过程建模为一个两阶段的噪声信号博弈,用户首先在初始“冷启动”阶段策略性地消费呈现给他们的内容,以影响未来的推荐信息流,然后系统根据这些互动优化其建议,最终达到用户偏好被清晰区分的均衡状态 [29]。Taylor 和 Choi 扩展了人机互动的研究,指出用户注意到个性化并认为算法对他们的身份有响应,这进一步塑造了他们在平台上的互动和结果 [81]。一些研究还将用户有目的的操纵行为称为“游戏化”算法 [28, 67, 77]。内容创作者可能通过利用关系和模拟影响力来“玩可见性游戏”,以获得商业利益 [13]。虽然游戏化可能激发创新并发现现有平台的新用途 [2],但行为的策略性适应也可能被算法误解并降低其准确性 [10]。

这些研究表明,用户有意识地利用各种行为来影响算法并塑造他们的推荐信息流,这些行为受到他们对算法运作方式的感知或“民间理论”的指导。然而,很少有研究将这些用户感知与平台的底层反馈机制联系起来。理解用户的感知如何与算法的预期响应一致或分歧,以及它们如何相互作用以塑造推荐信息流,可以为个性化推荐系统的反馈设计改进提供参考。

3 研究方法

为了回答研究问题,我们对34位使用过个性化推荐平台(如小红书、抖音、快手和哔哩哔哩短视频)的用户进行了半结构化访谈研究。我们采用了归纳和演绎相结合的方法来分析数据。本研究已获得雪城大学机构审查委员会的批准,并遵循所有作者所在机构的伦理准则进行。

3.1 参与者招募

我们的目标是使用过个性化推荐平台的活跃用户。我们通过社交媒体平台、在线论坛和个人网络分发了预筛选问卷。入选标准包括:

  • (1)年满18岁;
  • (2)至少有六个月使用个性化推荐平台的经验

我们要求参与者自我报告他们常用的个性化推荐平台。预筛选问卷帮助我们选择了一组多样化的参与者,确保在性别、年龄、教育背景和日常使用模式上的差异。此外,我们采用了滚雪球抽样法,要求初始参与者推荐符合研究标准的其他用户。这种方法有效地覆盖了不同参与程度的用户,从主要消费内容的“潜水者”到积极发布和互动内容的“重度用户”。

我们总共招募了34名参与者:

  • 大多数参与者年龄在18-25岁之间(𝑛 = 25),女性参与者较多(𝑛 = 19)
  • 参与者报告使用了多个个性化推荐平台。抖音(𝑛 = 29,占参与者的85%)和小红书(𝑛 = 24,占参与者的71%)是最常用的平台;其他使用的平台包括哔哩哔哩短视频(𝑛 = 10)、快手(𝑛 = 7)和TikTok(𝑛 = 1)。这些平台都提供个性化推荐内容,包括短视频、图片和文本。小红书和抖音的主要界面如图1所示。快手的界面(见附录A中的图2a和图2b)与小红书类似,哔哩哔哩短视频的界面(见附录A中的图2c)则与抖音相似。
  • 参与者最常使用的平台的使用时长从不到一年到超过四年不等

根据报告,这些平台的大多数用户是35岁以下的年轻一代 [23, 56, 80],而小红书的用户中超过70%是女性 [23]。我们的参与者样本在年龄和性别分布上与这些平台的总体用户人口统计数据一致。更多参与者信息见附录C中的表5。

3.2 访谈流程

我们从2022年12月至2023年4月进行了半结构化访谈。每次访谈持续40至60分钟。访谈通过面对面或视频会议平台进行,以适应参与者的时间安排和地理位置。所有访谈均以普通话进行。参与者获得了25元人民币的补偿。参与者被告知他们可以随时退出研究而不会受到任何惩罚。

访谈协议旨在探索参与者与个性化推荐平台的互动。首先,我们询问了参与者的平台使用情况,包括他们使用的平台、感兴趣的内容以及与内容和平台的互动(如浏览、发布、点赞和搜索)。然后,我们询问了他们对个性化推荐和平台算法的理解与态度,以及平台使用的感知影响。特别是,我们深入探讨了参与者如何应对算法,例如他们管理内容曝光和内容偏好以及避免不想要内容的策略。最后,我们询问了他们对个性化推荐平台设计的总体建议

在访谈开始前,参与者被告知研究的目标和流程。每次访谈均在参与者同意的情况下进行录音,并详细记录关键点。录音被逐字转录并匿名化以供分析。

3.3 数据分析

我们对访谈数据进行了编码本主题分析 [5, 6]。首先,我们进行了归纳编码,允许主题从数据中自然浮现。然后,我们通过整合现有文献中的反馈概念进行了演绎分析,以进一步完善和应用编码。最后,我们进行了编码共现分析 [60],以探索用户反馈行为与平台互动目的之间的关系。

数据分析在MAXQDA上进行,编码本在研究人员之间共享以供讨论。所有访谈均以普通话进行分析,以保留原始细微差别和意义。选定的引述随后被翻译成英文以在本文中呈现。

归纳编码阶段,研究人员首先通读所有转录文本以熟悉数据,然后各自独立对转录文本的不同部分进行开放式编码,通过不断比较和备忘录记录使主题浮现 [59]。在此过程中,研究人员定期讨论以比较他们的编码并完善开放式编码方案。他们将编码综合为类别,并编写了初始编码本。类别包括:用户行为、互动目的、感知与态度、民间理论以及与算法互动的挑战。

过渡到演绎阶段,我们将编码结果与现有文献进行比较。我们发现,用户与算法的互动方式可以解释为用户向推荐系统提供反馈。根据现有文献,推荐系统反馈通常分为显式反馈和隐式反馈 [34, 35, 42]。显式反馈需要用户在其正常行为之外提供额外输入,例如评分和回答有关兴趣的问题,而隐式反馈则从用户与系统的自然互动中无干扰地得出,例如浏览、选择和转发 [42]。

我们观察到,在我们的研究中,参与者有意识地利用隐式反馈机制(例如点击帖子)向个性化推荐提供反馈。尽管一些塑造推荐信息流的策略性行为已在先前文献中记录 [10],但很少有研究将用户的感知与系统反馈机制联系起来。

通过与文献比较,我们完善了编码本。

  • 首先,我们缩小了重点,专注于两个编码类别:互动目的和用户行为。我们参考了文献中显式反馈和隐式反馈的既定类别 [34],对用户与系统的互动进行分类。
  • 然后,我们发现,在隐式反馈行为中,用户有意识地主动塑造推荐信息流,这与隐式反馈的原始定义相矛盾。

因此,我们将隐式反馈分为有意隐式反馈无意隐式反馈,以区分用户在隐式反馈行为中是否存在意图。总体而言,我们将用户的反馈行为分为三类:

  • 显式反馈:用户直接输入以表达其偏好或兴趣。
  • 有意隐式反馈:用户有意识地执行以影响推荐内容的行为,他们知道这些行为可能会被平台解释为推断其兴趣。
  • 无意隐式反馈:用户与平台的自然互动,没有任何刻意影响推荐内容的意图。

为了进一步理解和解释反馈行为,我们为每个识别出的行为映射了三个关键属性:

  • 特征(即支持反馈行为的特定平台功能,如“点赞”按钮或搜索框)、
  • 极性 [31, 35](即“正面”或“负面”反馈)
  • 最小范围 [63](即反馈应用的最小级别:“片段”、“对象”或“类别”)

我们仔细分析了所有提到的平台,以确定每个行为对应的功能,并根据参与者转录文本和平台功能的解释分配极性和范围。

然后,两名研究人员根据完善的编码本完成了演绎编码。对于前八份转录文本,他们独立编码并一起审查编码,以解决任何差异并相应地完善编码指南。这一迭代过程有助于确保解释的一致性。然后,他们独立编码了剩余的转录文本,每人负责13份。在此过程中,两名研究人员继续分享总结备忘录,并在每周与研究团队的讨论中解决任何歧义。

我们确定了反馈行为类型与平台互动目的(即内容消费、定向信息搜索、内容创作与推广以及信息流定制)以及特定信息流定制子目的之间的潜在相关模式。为了探索它们的关系,我们使用了编码共现分析。具体来说,我们识别了用户行为代码和用户目的代码在同一访谈片段中同时出现的实例。为了避免重复,我们使用MAXQDA对每个行为-目的共现实例在每位参与者中仅计数一次。例如,如果某个行为-目的共现在单个参与者的访谈中被多次提及,则仅计为该参与者的一个共现实例。然后,我们在三种反馈类型(即显式反馈、有意隐式反馈和无意隐式反馈)中汇总了这些共现实例。我们还对子目的(即提高推荐相关性、增加内容多样性、减少不适当内容和保护隐私)与用户反馈行为之间的共现进行了分析。值得注意的是,我们仅在有意隐式反馈和显式反馈中对子目的进行了计数,因为参与者未指定与四个子目的对应的无意隐式反馈行为。

4 研究发现

我们的分析揭示了三种用户反馈类型以及这些反馈如何与用户的目的相匹配。

  • 我们首先介绍三种反馈类型:显式反馈、有意隐式反馈和无意隐式反馈。
  • 然后,我们总结了用户与算法互动的四个目的:内容消费、定向信息搜索、内容创作与推广以及信息流定制。
  • 最后,我们展示了目的与所采用反馈类型之间的关系。

我们发现,显式反馈主要用于信息流定制,而有意隐式反馈在信息流定制中尤为关键,特别是在增加内容多样性和提高推荐相关性方面。无意隐式反馈则最常与内容消费和定向信息搜索相关。我们利用访谈数据来解释用户采用不同反馈类型以实现其目的的潜在动机。

4.1 个性化推荐内容的用户反馈类型

我们识别了六种显式反馈行为、九种有意隐式反馈行为和13种无意隐式反馈行为。正如在方法部分提到的,有意隐式反馈和无意隐式反馈的区别在于用户的行为是否有意向平台提供反馈。例如,用户可能出于欣赏而点赞帖子或关注用户,或者他们可能这样做是为了向算法传达他们的偏好。鉴于无意隐式反馈是平台常见且自然的使用方式,并且在大量先前研究中已被作为“隐式反馈”进行研究 [34, 42],本节我们重点解释显式反馈和有意隐式反馈。表1展示了这些行为及其对应的功能、极性、作用范围以及报告这些行为的参与者数量。附录B中的表4展示了无意隐式反馈的行为,包括创建、收藏和分享帖子、评论和查看评论、浏览个人主页、购买等。

4.1.1 显式反馈

在我们的分析中,显式反馈行为主要发生在对象范围内,并且都得到了特定平台功能的支持。最常用的显式反馈是:标记帖子为“不感兴趣”,共有21名参与者报告了这一行为。

  • 参与者将其用作负面反馈,以告知算法他们不希望在未来看到类似内容:P06表示这是“表达不喜欢的最直接和简单的方式,只需额外一步即可主动干预算法”。
  • 参与者提供了使用“不感兴趣”功能的各种原因,例如对帖子内容缺乏兴趣、广告以及内容质量差。有时,表达不感兴趣更多是在细粒度和微妙的内容层面上。例如,用户可能总体上喜欢时尚内容,但他们的品味差异很大,因此并非所有与时尚相关的帖子都对他们有吸引力(P08)。
  • 一些参与者强调了使用此功能减少同质化内容以获取多样化和吸引人的信息流的重要性。P13指出:“在将许多类似推荐标记为‘不感兴趣’后,可能会出现更多小众内容,使你的信息流更加多样化,并鼓励你在平台上花费更多时间。”尽管这一功能被广泛使用,但一些参与者发现平台并未有效或立即响应此反馈。
  • P12提到效果并不令人满意,因为“它停止推荐密切相关的内容,但继续推荐一些相关的内容”,这导致她减少了使用频率。与此同时,P08和P12观察到,通常需要多次尝试后,算法才会显著减少类似内容。P12推测平台需要一致的反馈才能逐步调整:“这不是一次性解决方案……我认为平台通过略微减少频率来测试你是否注意到,然后进一步减少。你需要持续提供反馈或明确表示你真的不喜欢这些内容,然后它才会逐渐调整。”(P12)

其他负面显式反馈包括屏蔽、举报和禁用个性化功能,这些行为使用频率较低:

  • 屏蔽是为了防止与特定用户的进一步互动,从而有效地从参与者的信息流中移除他们的内容。
  • 举报是为了将内容标记给平台的审核团队,表明该内容违反了社区准则。参与者只有在遇到强烈负面反应时才会选择屏蔽或举报,例如当内容具有冒犯性和不适当性时。
  • 与屏蔽和举报不同,屏蔽和举报针对特定对象(帖子或用户),而禁用个性化功能则在类别范围内传达整体不满

三名参与者曾尝试在小红书中禁用“个性化选项”功能,原因可能是隐私问题或为了避免平台过度学习他们的偏好而导致上瘾。然而,他们最终重新启用了该功能,因为发现非个性化信息流的相关性和吸引力大大降低。正如P01在禁用和重新启用个性化功能后反思的那样:

“禁用个性化后,我的小红书使用量显著下降,因为内容不再吸引我,所以我重新启用了个性化功能。重新启用后,我的观点发生了变化。我意识到启用个性化的好处在于它通过提供有针对性的推荐节省了大量时间,尤其是在搜索特定内容时。”(P01)

虽然大多数显式反馈是负面的,但参与者提到了两种正面显式反馈机制

  • 一种是使用标签在发布帖子时增加可见性,或关注感兴趣的内容。在小红书上,非内容创作者的用户可以收藏特定标签以关注更新并接收带有这些标签的推荐内容。然而,P09认为标签功能“主要有利于内容创作者增加流量,而不是观众”。她希望平台能够通过提供新帖通知,使收藏标签在类别层面上更有用,尤其是在小众领域。
  • 另一种正面显式反馈是订阅感兴趣的主题,这涉及选择偏好的内容类别或主题。这与关注单个用户或频道不同,因为它向平台传达了用户的总体兴趣,而不是订阅特定用户生成的内容。尽管平台允许后续编辑,但参与者要么没有注意到此功能,要么觉得没有必要进行更改。

4.1.2 有意隐式反馈

大多数有意隐式反馈行为是正面的。这些行为没有直接平台功能提示用户,主要依赖于用户自发提供反馈的意图。

忽略(在小红书中)或快速滑过(在抖音中)帖子,是20名参与者观察到的最常见的有意隐式反馈。忽略帖子是指故意不点击小红书推荐信息流中的某些帖子。参与者会“主动跳过”(P01, P07)、“过滤掉”(P04)或“不关注”(P11)他们不感兴趣的帖子。参与者通常将此行为与其相反行为——有意点击(一种正面反馈行为,14名参与者报告)结合使用。在抖音中快速滑过帖子是指快速跳过视频而不与之互动。作为一种负面反馈形式,以避免不感兴趣或同质化内容,一些参与者更喜欢忽略或快速滑过内容,而不是标记为“不感兴趣”,因为这种方式更高效且微妙。例如,P25认为某些内容是“现实世界的缩影”,不应被标记,即使这些内容对她个人没有吸引力,它们代表了社会和现实的多样性。P07认为,如果许多人将内容标记为“不感兴趣”,它可能无法到达需要它的人手中,因此她选择简单地滑过内容。P25和P07都使用忽略或滑过内容来传达微妙的负面反馈,因为标记“不感兴趣”会导致内容立即消失。尽管这种反馈很微妙,但参与者发现它相当有效。例如,P27说:“滑过是我处理不感兴趣视频的最快方式,平台会从这种行为中学习。”

另一种参与者常用的有意隐式反馈是发起新搜索。这是一种主动获取更有针对性的推荐内容的方法。参与者认为,搜索特定主题会促使算法更新他们的档案并推送更多相关内容。一些参与者还利用搜索或点击不相关的搜索推荐来寻求多样化内容或逃离“信息茧房”(P22, P29, P34)。P12表示,这可以被视为负面反馈,表明推荐信息流过于局限。她会“尝试发起一个新的搜索来覆盖压倒性的内容”,以告知平台向她展示其他内容。

尽管许多参与者观察到搜索反馈后推荐信息流的明显变化,但有时算法的响应可能不如预期那样准确或即时。例如,P12搜索了考试中心,但收到了各种与考试相关的帖子,例如好运仪式,她并不相信这些内容,但却引发了焦虑。P11强调了算法未能捕捉到她兴趣转变的问题:

“我非常喜欢《排球少年!!》,并多次搜索它。频繁的搜索和主页上相关内容的重复点击导致算法推送了大量《排球少年!!》的周边商品。但后来我转向了另一部动漫,系统仍然在我的信息流中充斥着《排球少年!!》的内容。即使我搜索了新动漫,平台仍然没有意识到我的兴趣已经转移。”(P11)

4.2 个性化推荐平台的使用目的

我们将用户与算法互动的动机分为以下几类:内容消费、定向信息搜索、内容创作与推广以及信息流定制。理解这些目的为解释反馈提供了背景,并有助于更好地调整推荐信息流以满足用户需求。

4.2.1 内容消费

所有参与者都报告的一个常见目的是消费推荐内容。这包括在小红书中无目的地浏览“探索”页面,或在抖音、快手或哔哩哔哩短视频的“为你推荐”页面中与连续的视频流互动。有时,这成为参与者日常习惯的一部分。例如,P09将小红书的探索页面用作“图书馆”,以获取与书法或绘画相关的创意灵感。当用户遇到他们觉得有趣或有用的内容时,他们会自然地采取进一步行动,例如与朋友分享、收藏或下载以备后用。相反,用户对推荐内容的不满(如感知到的低相关性或高度同质化)会引发信息流定制的目的。

4.2.2 定向信息搜索

另一个目的是更直接地搜索信息,例如搜索护肤技巧、食谱或旅行建议。这通常涉及验证和交叉检查信息,并根据内容的感知质量和真实性采取进一步行动,例如跨平台搜索或咨询朋友。其他几位参与者强调了个性化推荐平台上信息的即时性和相关性,指出他们现在较少依赖搜索引擎进行“日常查询”(P12)。例如,P12使用它来搜索可用的考试中心并比较其条件,她指出“平台提供了及时且有用的信息,而百度(中国搜索引擎)的结果往往过时或更官方。”

4.2.3 内容创作与推广

一些参与者分享了他们在这些平台上发布内容的经历,指出帖子能否获得广泛传播通常取决于他们对算法的理解以及他们能否有效利用它。忠实的发布者会密切关注他们的帖子流量并推测其背后的机制。例如,P14提到她的帖子浏览量有时会让她感到焦虑。她将流量有限归因于缺乏评论。P18提到策略性地使用标签和制作吸引人的标题以提高帖子的可见性。通过内容创作和推广,参与者更多地了解了算法。他们不仅利用这些知识作为内容创作者增加帖子的可见性,还作为内容消费者策划自己的推荐信息流。例如,P12观察到使用特定标签提高了她帖子的可见性。然后,她通过搜索这些标签来获取更多相关内容。

4.2.4 信息流定制

当用户对个性化推荐信息流不满意时,信息流定制的需求就会出现,从而引发用户采取有意识的行动来塑造他们的内容。我们的分析确定了信息流定制的四个具体目标:提高推荐相关性、增加内容多样性、减少不适当内容和保护隐私。

提高推荐相关性是最常见的目标,23名参与者报告了这一目标,他们主动采取行动以增加信息流中更相关和感兴趣的内容,或减少不感兴趣或无关的内容。特别是,参与者注意到,虽然算法最初很好地捕捉了他们的偏好,但当这些兴趣发生变化时,算法难以快速适应。这种算法响应的延迟要求用户不断引导算法以保持信息流的相关性和吸引力。

增加内容多样性由18名参与者报告,他们试图摆脱同质化内容,并通过更广泛的主题丰富他们的信息流。许多参与者对看到重复内容感到厌倦或烦恼。P15提到她不想再打开抖音,说:“我现在甚至感到浏览疲劳,经常觉得自己没有接触到任何新想法。”一些参与者担心,推荐内容与他们的个人偏好过于一致可能会缩小他们的视野或加剧极化观点。例如,P12觉得平台“故意试图取悦你,并希望你知道它在取悦你,这并不聪明,可能会让你陷入信息茧房。”P28说:“我们过去是让手机跟随我们的思想,但现在我们的思想跟随手机,所以结果不可避免地变得越来越狭窄。”这些担忧促使他们主动增加内容多样性。

减少不适当内容由11名参与者报告,当他们遇到引发强烈负面反应的内容时,他们会采取行动。这一目标主要是为了过滤掉广告或不适当和冒犯性的内容,以维持更愉快的在线环境。

保护隐私是一个较少报告的信息流定制目标。尽管许多参与者对平台侵犯隐私的行为(例如监控平台内与朋友分享的帖子、跟踪其他社交媒体上的对话,甚至窃听线下对话)表示反感和担忧,但只有两名参与者提到采取行动保护隐私。

4.3 用户目的与反馈类型的差异

在对参与者使用个性化推荐平台的目的进行分类后,我们进一步分析了这些目的与反馈类型之间的关系。我们通过编码共现分析将反馈类型映射到相应的目的。结果显示,所使用的反馈类型与目的高度相关。具体而言,有意隐式反馈显式反馈主要用于信息流定制,其中有意隐式反馈更多用于增加内容多样性和提高推荐相关性,而显式反馈则用于提高推荐相关性和减少不适当内容。无意隐式反馈则最常与内容消费相关。

4.3.1 反馈类型与一般目的的对应关系

表2展示了三种反馈类型与四个一般目的的频率分布。每位参与者可能报告了多种反馈行为及其对应的目的,因此总出现次数(𝑛 = 198)大于参与者人数。无意隐式反馈在不同目的中出现了105次,其次是有意隐式反馈(58次)和显式反馈(35次)。

总体而言,有意隐式反馈(75.9%,58次中的44次)和显式反馈(88.6%,35次中的31次)主要用于信息流定制,而无意隐式反馈(60%,105次中的63次)则最常与内容消费相关。

内容消费方面,63次实例强调了与平台的自然互动,例如点赞、分享或收藏帖子以表达欣赏或供未来参考。参与者还可能浏览内容创作者的个人主页、查看搜索提示或搜索更多信息以深入了解感兴趣的内容。例如,P18经常展开评论区以查看抖音提供的“热门搜索”,以快速找到关于帖子的解释或相关内容。所有这些自然行为随后会被算法视为无意隐式反馈,以优化推荐信息流。尽管参与者执行这些行为时并未报告有意影响算法,但一些参与者注意到算法已经对他们的行为做出了响应。P18注意到,当她在某人的个人主页停留时,平台开始推荐相关内容。

信息流定制方面,有意隐式反馈出现了44次,例如忽略或快速滑过帖子、点击帖子查看或发起搜索以塑造推荐信息流。例如,P27提到,在定制信息流时,他会花更多时间观看关于滑雪(新兴趣)而不是羽毛球(已知兴趣)的视频。此外,显式反馈出现了31次,例如将内容标记为“不感兴趣”或屏蔽内容,以主动干预算法。

定向信息搜索内容创作与推广方面,最常见的反馈行为分别是搜索信息和创建帖子。尽管在这些情况下,搜索和发布行为并非专门用于定制信息流,但系统仍将其解释为反馈并相应调整推荐内容。P11指出,在发布关于她最喜欢的偶像的帖子后,平台开始在她的信息流中推荐更多相关和流行的内容,尽管她的帖子本身并未引起太多关注。两名参与者提到明确使用标签进行内容推广。例如,P05在小红书上使用“笔记灵感”标签来提高帖子的可见性。

这些发现表明,当用户的意图是定制信息流时,反馈类型与他们在内容创作或消费等活动中的反馈类型存在明显差异。虽然信息流定制主要依赖于有意隐式反馈和显式反馈,其他目的则更多与无意隐式反馈相关。

4.3.2 特定信息流定制目的驱动的反馈类型

如表3所示,对于旨在提高推荐相关性的用户,有意隐式反馈(18次)和显式反馈(14次)都被频繁使用。忽略或快速滑过帖子是最常用的有意隐式反馈,而标记为“不感兴趣”则是最常见的显式反馈。P27断言,滑过内容已经有效地表达了不感兴趣,无需显式标记。P11解释说,她在这些反馈方法之间的选择取决于上下文和厌恶程度。她只会在“极度厌恶”推荐内容时使用标记为“不感兴趣”的选项。

“我之前没有搜索过《流浪地球》,但它仍然推荐给我。这可能是因为《流浪地球》最近很受欢迎,所以系统试图看看我是否感兴趣。如果我不关注,它们可能会消失。因此,对于这些探索性推荐,除非我极度厌恶,否则我通常只是滑过它们以获取一些新内容。”(P11)

如表3所示,当参与者试图增加内容多样性时,29次实例中有24次使用了有意隐式反馈,只有5次选择了显式反馈。主要的隐式反馈行为是发起新搜索。参与者发现,搜索某些主题会增加推荐信息流中相关内容的重要性,因此他们策略性地搜索新主题。正如P06推测的那样:“系统可能会根据该搜索更新您的用户档案或数据,然后开始推送与您新兴趣相关的内容。”

相比之下,12次实例中有10次选择了显式反馈来减少不适当内容。显式反馈被认为更快速、更直接地解决不适当内容问题。当参与者发现内容质量低劣、充满广告或令人不安时,他们倾向于将其标记为“不感兴趣”(P09和P16)。在遇到冒犯性的人身攻击或强烈不同意创作者观点的情况下,用户更有可能举报或屏蔽内容。

只有两名参与者提到他们通过显式禁用个性化选项来保护隐私。P01担心平台的数据收集和用户画像行为,决定关闭个性化功能以防止小红书利用他的互动建立详细的用户档案。P14表示,她尝试禁用个性化功能以保护隐私,但不确定“这是否真的有效”。

这些结果强调了用户的信息流定制目标及其对算法的理解如何驱动他们对个性化推荐平台的反馈类型选择。总体而言,参与者更多地依赖有意隐式反馈来增加内容多样性,而显式反馈则更常用于减少不适当内容。旨在提高推荐相关性的参与者则混合使用了隐式和显式反馈。与此同时,关注隐私保护的参与者采取了更被动的方式,很少使用反馈机制,这与旨在增加内容多样性的参与者积极使用有意隐式反馈形成鲜明对比。

6 结论

我们通过对34名小红书和抖音等平台上的活跃用户进行半结构化访谈,探讨了用户如何利用多样化的反馈机制来影响推荐信息流以实现特定目的。我们将各种用户反馈行为分为三类:显式反馈、有意隐式反馈和无意隐式反馈。我们还发现,用户选择的反馈类型与其目的密切相关。显式反馈主要用于信息流定制目标,例如减少不适当内容和提高推荐相关性,而有意隐式反馈在增加内容多样性和提高推荐相关性方面发挥了关键作用。无意隐式反馈则最常与内容消费相关。

本研究将意图维度引入传统的显式-隐式反馈二分法,并建议个性化推荐平台应更好地支持透明的有意隐式反馈和目的导向的反馈设计。通过更准确地捕捉用户的意图并提供灵活的反馈机制,平台可以增强用户的控制感和满意度,同时优化推荐系统的性能。未来的研究可以进一步探索用户反馈行为与算法响应之间的动态关系,以及如何通过设计创新来平衡个性化推荐与用户隐私保护之间的关系。

#

https://arxiv.org/pdf/2502.09869

kuaishou团队在《Unleashing the Potential of Two-Tower Models: Diffusion-Based Cross-Interaction for Large-Scale Matching》提出了使用diffusion的方法来做双塔模型:

摘要

双塔模型在工业规模的匹配阶段被广泛采用,覆盖了众多应用领域,例如内容推荐、广告系统和搜索引擎。该模型通过分离user和item表示,有效地处理大规模候选item筛选。然而,这种解耦网络也导致了对user和item表示之间潜在信息交互的忽视。当前最先进的(SOTA)方法包括添加一个浅层全连接层(例如,COLD),但其性能受限,且只能用于排序阶段。出于性能考虑,另一种方法尝试通过将历史正向交互信息视为输入特征(例如,DAT),从另一塔中捕获这些信息。后来的研究表明,这种方法获得的收益仍然有限,因为缺乏对下一次user意图的指导。为了解决上述挑战,我们在匹配范式中提出了一个“跨交互解耦架构”。该user塔架构利用扩散模块重建下一次正向意图表示,并采用混合注意力模块促进全面的跨交互。在生成下一次正向意图的过程中,我们通过显式提取user行为序列中的时间漂移,进一步提高了其重建的准确性。在两个真实世界数据集和一个工业数据集上的实验表明,我们的方法显著优于SOTA双塔模型,并且我们的扩散方法在重建item表示方面优于其他生成模型。

1 引言

推荐系统旨在通过推荐user感兴趣的内容,提升user体验和商业价值,从而促进user参与度和满意度。在工业场景中,如图1(a)所示,两阶段推荐系统被广泛用于在严格延迟要求下为user提供个性化内容。第一阶段称为匹配阶段,从大规模语料库中筛选出候选集。第二阶段称为排序阶段[1, 11],从中选择user可能感兴趣的最终结果。

图片名称

图1 现实世界中的两阶段推荐系统。(a) 两阶段架构包括匹配阶段和排序阶段,匹配阶段对大量item进行评分,而排序阶段则对较小的子集进一步优化评分。(b) 匹配和排序方法在准确性和效率上的直观展示,其中所提出的匹配方法源自排序方法,并优化为一种交叉交互架构。

匹配阶段是推荐系统的关键环节,它需要从数十亿规模的语料库中快速过滤掉不相关的候选内容。由于匹配模型对高精度和低延迟的要求,双塔模型[13, 23, 33, 35]成为候选匹配的主流范式,并支持高效的top-k检索[26]。双塔模型由两个独立的塔组成,一个塔处理查询(user、上下文)的所有信息,另一个塔处理候选内容的信息。两个塔的输出是低维嵌入,随后通过相乘对候选内容进行评分。

由于双塔模型是独立训练的,它们无法充分利用user和item特征之间的交叉特征或交互信息,直到最后阶段才进行交互,这被称为“晚期交互”[17]。最近关于获取交互信号的研究主要分为两种方法。一种方法通过在双塔架构中添加一个浅层全连接层,将其转换为单塔结构(例如COLD[32]和FSCD[22]),但效率仍然受限,且仅适用于排序阶段。另一种方法尝试通过从另一个塔中捕捉历史正向交互信息的向量来增强每个塔的嵌入输入(例如DAT[35]),但最近研究表明,由于缺乏对user下一个正向意图的指导,其增益仍然有限[18]。当前的最先进方法难以在模型效果和推理效率之间取得平衡。图1(b)从推理效率和预测准确性的角度描述了上述模型。

为了解决效率与准确性之间的权衡问题,我们提出了一种生成式交叉交互解耦架构的匹配范式,名为释放双塔模型潜力:基于扩散(diffusion)的大规模匹配交叉交互(T2Diff)。T2Diff通过扩散模块恢复目标item的指导,提取user-item交叉特征,突破了双塔架构的限制。考虑到匹配阶段大规模语料库带来的性能问题,我们没有采用单塔结构,而是通过生成式方法,在user塔中通过扩散模型重建item塔中包含的user正向交互。为了充分建模user和item特征之间的交互,我们引入了一个混合注意力模块,以增强从另一个塔中获取的user正向交互。该混合注意力模块通过与item信息和user历史行为序列的交互,更准确地提取user表示。

本文的主要贡献如下:

  • 我们提出了一种新的匹配范式T2Diff,它是一种生成式交叉交互解耦架构,强调信息交互,释放了双塔模型的潜力,同时实现了高精度和低延迟。
  • T2Diff引入了两项关键创新:
    • 1)通过基于扩散的模型生成user的下一个正向意图;
    • 2)通过混合注意力机制[29, 38]在模型架构的基础层面促进更复杂和丰富的user-item特征交互,从而解决“晚期交互”的挑战。
  • T2Diff不仅在两个真实世界数据集和一个工业数据集上优于基线模型,还展现了出色的推理效率。​

2 相关工作

基于嵌入的检索(Embedding-based Retrieval, EBR)

EBR 是一种使用嵌入表示user和item的技术,将检索问题转化为嵌入空间中的最近邻(NN)搜索问题[5, 15]。EBR 模型广泛应用于匹配阶段[12],根据user的历史行为从大规模语料库中筛选候选列表。通常,EBR 模型由两个并行的深度神经网络组成,分别学习user和item的编码,这种架构也被称为双塔模型[13, 33, 34]。这种架构具有高吞吐量和低延迟的优势,但在捕捉user和item表示之间的交互信号方面能力有限。为了解决这一问题,DAT[35] 引入了一种自适应模仿机制,为每个user和item定制增强向量,以弥补交互信号的不足。然而,后续研究[18]表明,仅引入增强向量作为输入特征的增益有限。因此,T2Diff 利用混合注意力模块提取高阶特征交互和user历史行为,并结合扩散模块生成的目标表示。

基于会话的推荐与兴趣漂移

Feng 等人[3]观察到,user在单个会话内的行为表现出高度同质性,但在不同会话之间往往会发生兴趣漂移。Zhou 等人[37]发现,当预测与兴趣漂移趋势一致时,点击率(CTR)预测的准确性显著提高。

生成模型在序列推荐中的应用

尽管传统的序列模型(如 SASRec[16]、Mamba4Rec[20])已经表现出令人满意的性能,但生成模型的出现为这一领域开辟了新的方向。变分自编码器(VAEs)[2, 8, 31]被用于学习item和user的潜在空间表示,并从中生成新序列。然而,这类生成模型可能会过度简化数据分布,导致信息丢失和表示准确性下降。扩散模型在许多领域取得了显著成功,包括推荐系统[10, 19, 30, 39]、自然语言处理[8, 14, 21]和计算机视觉[9, 24, 25]。DiffuRec[19]首次尝试将扩散模型应用于序列推荐(SR),并利用其分布生成和多样性表示的能力,采用单一嵌入捕捉user的多种兴趣。在计算机视觉中应用的 VAEs 和扩散模型[8, 14, 21]通常依赖于 Kullback-Leibler 散度损失(KL-loss)来衡量学习到的潜在分布与先验分布(通常是高斯分布)之间的差异,而 DiffuRec 在重建目标item的过程中选择了交叉熵损失。为了稳定且准确地恢复item表示,T2Diff 采用了基于 Kullback-Leibler 散度损失(KL-loss)的扩散模块。该模块能够以低延迟准确重建目标item,为在双塔结构中捕捉交叉信息提供了坚实的基础。

3 预备知识

在本节中,我们简要介绍扩散模型作为预备知识。

3.1 扩散模型

扩散模型可以分为两个阶段:扩散过程反向过程。扩散模型的基本原理是通过在扩散过程中逐步添加高斯噪声来破坏训练数据,然后在反向过程中通过逆向去噪过程学习恢复数据。

扩散过程

在扩散过程中,扩散模型通过马尔可夫链(即 $ x_0 \rightarrow x_1 \rightarrow \dots \rightarrow x_T $)逐步向原始表示 $ x_0 $ 添加高斯噪声,定义如下:

\[q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1 - \beta_t} x_{t-1}, \beta_t I) \tag{1}\]

其中:

  • $ \mathcal{N}(x; \mu, \sigma^2) $ 是均值为 $ \mu $、方差为 $ \sigma^2 $ 的高斯分布。
  • $ \beta_t $ 表示添加的高斯噪声的幅度,
  • $ \beta_t $ 值越大,引入的噪声越多。
  • $ I $ 是单位矩阵。

我们可以通过一种可处理的方式从输入数据 $ x_0 $ 推导到 $ x_T $,后验概率可以定义为:

\[q(x_{1:T} | x_0) = \prod_{t=1}^T q(x_t | x_{t-1}) \tag{2}\]

根据 DDPM[9],通过重参数化技巧,我们发现后验 $ q(x_r \mid x_0) $ 服从高斯分布。令 $ \alpha_r = 1 - \beta_r $ 且 $ \bar{\alpha}r = \prod{i=1}^r \alpha_i $,则公式 (2) 可以改写为:

\[q(x_r | x_0) = \mathcal{N}(x_r; \sqrt{\bar{\alpha}_r} x_0, (1 - \alpha_r) I) \tag{3}\]

反向过程

在反向过程中,我们从标准高斯表示 $ x_T $ 逐步去噪,并以迭代方式逼近真实表示 $ x_0 $(即 $ x_T \rightarrow x_{T-1} \rightarrow \dots \rightarrow x_0 $)。特别地,给定当前恢复的表示 $ x_t $ 和原始表示 $ x_0 $,下一个表示 $ x_{t-1} $ 可以计算如下:

\[p(x_{t-1} | x_t, x_0) = \mathcal{N}(x_{t-1}; \tilde{\mu}_t(x_t, x_0), \tilde{\beta}_t I) \tag{4}\]

其中:

\[\tilde{\mu}_t(x_t, x_0) = \frac{\sqrt{\bar{\alpha}_{t-1}} \beta_t}{1 - \bar{\alpha}_t} x_0 + \frac{\sqrt{\alpha_t (1 - \bar{\alpha}_{t-1})}}{1 - \bar{\alpha}_t} x_t \tag{5}\] \[\tilde{\beta}_t = \frac{1 - \bar{\alpha}_{t-1}}{1 - \bar{\alpha}_t} \beta_t \tag{6}\]

然而,在反向过程中,原始表示 $ x_0 $ 通常是未知的,因此需要深度神经网络来估计 $ x_0 $。反向过程通过最小化以下变分下界(VLB)进行优化:

\[\mathcal{L}_{VLB} = \mathbb{E}_{q(x_1 | x_0)} [\log p_\theta(x_0 | x_1)] - D_{KL}(q(x_T | x_0) || p_\theta(x_T)) - \sum_{t=2}^T \mathbb{E}_{q(x_t | x_0)} [D_{KL}(q(x_{t-1} | x_t, x_0) || p_\theta(x_{t-1} | x_t))] \tag{7}\]

其中,$ p_\theta(x_t) = \mathcal{N}(x_t; 0, I) $,$ D_{KL}(\cdot) $ 是 KL 散度。在 $ \mathcal{L}{VLB} $ 中,除了 $ L_0 $ 之外,每个 KL 散度项都涉及两个高斯分布的比较,因此这些项可以以闭式解析计算。$ L_T $ 项在训练过程中是常数,对优化没有影响,因为分布 $ q $ 没有可训练的参数,且 $ x_T $ 只是高斯噪声。对于建模 $ L_0 $,Ho 等人[9] 使用了一个从 $ \mathcal{N} $ 派生的离散解码器。根据[9],$ \mathcal{L}{VLB} $ 可以简化为一个高斯噪声学习过程,表示为:

\[\mathcal{L}_{simple} = \mathbb{E}_{t \in [1,T], x_0, \epsilon_t} \left[ ||\epsilon_t - \epsilon_\theta(x_t, t)||^2 \right] \tag{8}\]

其中,$ \epsilon \sim \mathcal{N}(0, I) $ 是从标准高斯分布中采样的噪声,$ \epsilon_\theta(\cdot) $ 表示一个可以通过深度神经网络学习的估计器。

4 方法

在本节中,我们首先介绍与 T2Diff 相关的符号和背景,然后详细描述模型的框架。如图2(a)所示,我们的模型由扩散模块混合注意力模块组成。

图片名称

图2

4.1 符号与问题定义

假设我们有一个user集合 $ \mathcal{U} $ 和一个item集合 $ \mathcal{M} $。我们收集每个user的行为序列,并将其表示为 $ X_{sequence} \in \mathcal{M} $。对于user $ u \in \mathcal{U} $ 的每个行为,我们记为 $ x_j^u $,其中 $ j $ 表示行为序列中的第 $ j $ 个item。对于每个user,假设我们有 $ n $ 个历史行为,则索引 $ j \in {1, 2, \dots, n+1} $,且 $ X_{sequence} = [x_1, x_2, \dots, x_n] $。基于[3]中提出的概念,我们希望通过根据每个行为之间的时间间隔将行为序列划分为两个部分,从而实现对user行为序列的更精细建模。具体来说,我们将有序的行为序列划分为当前会话历史行为,其中当前会话包含最近的 $ k $ 个交互行为,记为 $ X_{session} = [x_{n-k+1}, \dots, x_n] $,而历史行为记为 $ X_{history} = [x_1, x_2, \dots, x_{n-k}] $。我们认为,user在最近会话中的行为在时间上是连续的,反映了user最近的意图。最后,最重要的是,我们通过引入从真实行为 $ x_{n+1} $ 预测的下一个正向行为 $ \hat{x}_{n+1} $,释放了双塔模型的潜力。

基于嵌入的检索(EBR)方法通过两个独立的深度神经网络将user和item特征编码为嵌入。item $ \mathcal{M} $ 与user $ \mathcal{U} $ 的相关性基于user嵌入 $ e_u $ 和item嵌入 $ e_i $ 之间的距离(最常见的是内积)。

我们提出的 T2Diff 包含两个主要部分:

  1. 扩散模块:在训练阶段识别相邻行为之间的兴趣漂移,并在推理阶段重新引入下一个行为。
  2. 基于会话的混合注意力模块:通过自注意力模块提取最近会话中的当前兴趣,并通过目标注意力机制获取历史兴趣。这两个组件的结合实现了user行为序列与下一个行为之间的全面交叉交互。

4.3 混合注意力模块

为了克服双塔模型中的“晚期交互”问题,我们提出了一种混合注意力机制,通过将多层user表示与扩散模块(第4.2节)重建的user最近正向item表示相结合,促进复杂的特征交互。在短视频推荐领域,user消费行为表现出时间连续性。我们认为最近会话中包含了user的近期正向意图,为了增强历史序列与下一个正向item表示之间的交叉交互,我们将 $ X_{session} $ 和 $ \hat{x}_{n+1} $ 沿时间维度连接。在我们的方法中,我们部署了Transformer架构[29]的编码器组件和平均池化,以生成当前兴趣嵌入 $ h_s $,用于“早期交互”。

\[h_s = \text{avg}(\text{Transformer}(\text{concat}([X_{session}, \hat{x}_{n+1}]))) \tag{19}\]

为了进一步利用交叉交互的优势,我们遵循[38],使用 $ h_s $ 作为指导,从user的历史行为 $ X_{history} $ 中提取相似信息。在激活单元中,历史行为嵌入 $ X_{history} $、当前兴趣嵌入 $ h_s $ 以及它们的外积作为输入,生成注意力权重 $ A_{history} $,如图3所示。

图片名称

图3

最终,$ h_t $ 和 $ h_s $ 共同决定user嵌入 $ e_u $。

\[a_j = \frac{\text{FFN}(\text{concat}([x_j, x_j - h_s, x_j * h_s, h_s]))}{\sum_{i=1}^{n-k} \text{FFN}(\text{concat}([x_i, x_i - h_s, x_i * h_s, h_s]))} \tag{20}\] \[h_l = f(h_s, [x_1, x_2, \dots, x_{n-k}]) = \sum_{j=1}^{n-k} a_j x_j \tag{21}\] \[e_u = \text{FFN}(\text{concat}([h_l, h_s])) \tag{22}\]

其中,$ a_j $ 是 $ A_{history} $ 的第 $ j $ 个元素。考虑到会话内的时间依赖性和跨会话行为模式的相关性,我们引入了目标行为与历史行为之间的时间滞后作为关键特征。

图片名称

算法 1

图片名称

算法 2

4.4 模型优化

在每一步扩散过程中,我们直接从 $ z_r $ 推导 $ \hat{z}0 $,其中 $ \hat{z}_0 $ 和 $ z_0 $ 都表示通过重参数化得到的分布的均值。因此,公式7中 $ \mathcal{L}{VLB} $ 的简化版本可以改写为 $ \mathcal{L}_{KL} $,如下所示:

\[\mathcal{L}_{KL} = \mathbb{E}_{r \in [1,T], x_0, \mu_r} \left[ ||\mu_r - \mu_\theta(z_r, r)||^2 \right] \tag{23}\]

其中,$ \mu_r $ 和 $ z_r $ 分别表示在扩散过程第 $ r $ 步中添加的噪声和添加噪声后的结果,$ \mu_\theta $ 表示具有参数 $ \theta $ 的估计器。

在 $ \mathcal{L}_{KL} $ 的帮助下,我们可以减少 $ z_0 $ 和 $ \hat{z}_0 $ 之间的差异,并通过梯度下降更新估计器中的参数。扩散模块的扩散过程如算法1所示。

遵循推荐系统中损失函数的一般原则,我们使用softmax损失 $ \mathcal{L}{TOWER} $ 使user嵌入 $ e_u $ 接近目标item嵌入 $ e_i $,同时远离其他不相关的item嵌入 $ e{m \in \mathcal{M}} $,其定义为:

\[\mathcal{L}_{TOWER} = -\log \frac{\exp(e_u \cdot e_i)}{\sum_{m \in \mathcal{M}} \exp(e_u \cdot e_m)} \tag{24}\]

在损失函数 $ \mathcal{L}_{TOWER} $ 的驱动下,稀疏嵌入表经过充分训练,从而为扩散过程训练奠定了坚实的基础。总损失可以表示为:

\[\mathcal{L}_{TOTAL} = \mathcal{L}_{TOWER} + \lambda \mathcal{L}_{KL} \tag{25}\]

其中,$ \lambda $ 是一个超参数,通常设置为1或10。由于扩散模块中估计器的优化方向与传统推荐系统不一致,这容易导致梯度相互抵消的情况,因此我们采用停止梯度机制来隔离扩散模块的梯度更新,有效提高了估计器和塔参数的优化效率,如图2(a)底部所示。

5.实验

#

https://arxiv.org/pdf/2502.20687

字节在《Adaptive Domain Scaling for Personalized Sequential Modeling in Recommenders》提出了它们的关于序列建模的多场景建模实现ADS:

摘要

在像抖音这样的超级应用中,用户通常会在多个业务场景中展现出复杂的行为模式和多样化的意图,这对当前工业界的多领域推荐系统提出了巨大的挑战。为了缓解不同领域之间的差异,研究和工业实践通常强调采用复杂的网络结构以适应多样化的数据分布,而忽视了从多领域角度对用户行为序列的深入理解。

本文提出了自适应领域缩放(Adaptive Domain Scaling, ADS)模型,该模型全面增强了跨多个领域的目标感知序列建模中的个性化能力。具体而言,ADS包含两个主要模块:

  1. 个性化序列表示生成(Personalized Sequence Representation Generation, PSRG)
  2. 个性化候选表示生成(Personalized Candidate Representation Generation, PCRG)

这些模块通过动态学习不同领域下的用户行为序列item表示和候选目标item表示,促进了自适应用户意图理解,从而实现了量身定制的多领域学习。我们在一个公共数据集和两个十亿级别的工业数据集上进行了实验,广泛的结果验证了ADS的高效性和兼容性。

此外,我们在两个有影响力的业务场景(包括抖音广告平台抖音电商服务平台)上进行了在线实验,两者均显示出显著的业务改进。目前,ADS已在字节跳动的多个推荐服务中全面部署,服务于数十亿用户。

1 引言

随着数字内容的指数级增长和互联网的广泛使用,推荐系统在提升用户体验和缓解信息过载方面发挥了至关重要的作用[29]。在实际应用中,为了提高用户留存率并促进商业利益,工业推荐的需求广泛分布在多个领域[12, 14]。例如,如图1所示,在抖音(全球最大的视频观看应用之一)中,主要领域包括短视频直播预览直播滑动,用户可以在这些场景中观看短视频、直播流,并享受电商和本地生活服务。此外,由于其亿级用户规模,不同的用户群体(如来自不同国家、不同性别、高活跃度或低活跃度的用户)也构成了不同的领域。由于不同领域的数据分布差异较大,这为推荐系统带来了显著的多领域建模问题[30]。

图片名称

图1

为此,工业界的常见实践通常是构建一个共享底层-多头输出的模型结构,利用分离和统一混合建模的优势来处理多领域问题[4]。为了进一步改进这一点,最近的研究致力于构建精细的网络结构以增强多领域建模,例如领域级方法如星型拓扑自适应推荐器(STAR)[18]、渐进分层提取(PLE)[19],以及实例级方法如自适应参数生成网络(APG)[25]、AdaSparse[27]等。然而,大多数现有方法都专注于复杂的特征交互网络结构,而多领域序列建模的方法却较少受到关注。

序列建模在工业推荐系统中扮演着至关重要的角色,其中最流行且有效的方法是基于target attention的方法,例如深度兴趣网络(DIN)[32]、特征协同网络(CAN)[2]和多头注意力(MHA)[20]。在抖音的广告系统中,从转化率预测(CVR)模型中移除target attention模块后,ROC曲线下面积(AUC)指标下降了超过0.2%,这是一个显著且不可接受的损失,证明了基于target attention的序列建模的有效性。尽管其重要性,现有target attention方法较少考虑多领域差异的影响,这为多领域建模留下了显著的空白。

一般来说,当前用户序列的target attention机制可以表述为一个典型的query-key-value建模范式:

\[g(Rep_{cand}, Rep_{seq}) \times Rep_{seq}\]

其中:

  • $Rep_{cand}$表示需要预测点击/转化概率的候选target item的表示
  • $Rep_{seq}$表示用户序列嵌入
  • $g$计算任意序列item与target item对之间的注意力权重

如前所述,当前工业推荐系统通常遵循共享底层嵌入范式,这意味着:

  1. 候选item和用户行为item的嵌入表完全共享,未考虑不同领域item和用户之间的差异
  2. 候选item作为不同key/value的共享查询,未考虑用户序列中多领域item的差异

因此,这从两个方面对当前多领域推荐系统提出了潜在挑战:

  • 序列表示的个性化:在多领域中,相同item在不同用户序列中的表示是必要的。例如,新用户可能喜欢观看高点赞视频,而长期用户可能更关注他们关注的视频创作者。因此,相同的视频对不同用户领域表现出不同的吸引力,而其嵌入是不同用户序列中的共享表示,这阻碍了推荐系统捕捉用户的实际意图。

  • 候选item的个性化:对于不同用户或同一用户序列中的不同item,候选item由于多领域影响具有不同的影响和功能。例如,用户在抖音商城中的购物行为可能主要受产品价格影响,而在抖音短视频场景中,视频创作者对内容偏好用户的影响更为显著。因此,相同的候选item应在不同领域中个性化,以适应用户序列中的不同历史项。

为了克服这些局限性并填补多领域target attention建模的空白,我们提出了自适应领域缩放(Adaptive Domain Scaling, ADS)模型,该模型充分挖掘了当前基于target attention的推荐系统的个性化建模能力,并在多领域任务中提供了更准确和自适应的意图理解能力。具体而言,ADS包含两个模块:

  • 个性化序列表示生成(PSRG)
  • 个性化候选表示生成(PCRG)

在PSRG中,我们设计了一种新颖的共享-私有结构,用于学习用户行为中的多领域项表示,旨在为序列items生成个性化表示,即相同item在不同用户序列中具有不同的表示。在PCRG中,候选item通过为不同序列items生成不同的目标候选表示,进一步增强了个性化建模能力。通过将领域相关信息作为生成结构的输入,多领域的影响被充分注入序列建模中,从而增强了用户意图理解能力。值得注意的是,ADS是一个高效的即插即用网络,可以轻松集成到现有推荐系统中。

本工作的贡献总结如下:

  • 我们提出了自适应领域缩放(ADS)模型,这是一种有效的即插即用个性化网络结构,通过个性化target attention建模来实现多领域用户意图理解。我们在一个公共数据集和两个十亿规模的工业数据集上进行了广泛实验,结果验证了其优越性。
  • 我们在框架中开发了个性化序列表示生成个性化候选表示生成模块,从用户行为序列和候选target item的角度捕捉多领域特征,增强了当前target attention机制的多领域学习效果。
  • 我们在字节跳动抖音的广告系统和电商系统中部署了ADS,分别带来了抖音广告系统总收入的1.09%提升和电商系统的0.79%提升。目前,ADS已在字节跳动的多个推荐系统中全面部署,服务于数十亿用户。

2 方法论

2.1 预备知识

2.1.1 问题定义

本文主要关注推荐系统中的排序建模任务,这是一个典型的二分类问题。以点击率(CTR)预测为例,概率 $\hat{y}$ 可以通过以下公式计算:

\[\widehat{y} = f(\mathbf{E}_U, \mathbf{E}_I, \mathbf{E}_O) \quad (1)\]

其中:

  • $E(\cdot)$ 表示嵌入函数,将原始分类特征直接转换为嵌入,连续特征则先分桶再嵌入为稠密向量。
  • $f$ 是基于多层感知机(MLP)的转换函数。
  • $U$、$I$ 和 $O$ 分别表示用户侧、目标候选item侧和其他特征。用户侧特征通常包括:人口统计特征(如用户位置和语言)和行为特征(如用户的观看列表或购物列表)。item侧特征包括项的描述性特征(如类别、创作者等)。此外,其他特征 $O$ 通常包含context特征和user-item交叉特征。

2.2 提出的ADS模型

图片名称

图2

ADS模型的结构如图2所示,整体由两个主要部分组成:

  • 个性化序列表示生成(PSRG):通过共享-私有学习结构生成动态行为item嵌入,使得相同item在不同领域中具有不同的表示
  • 个性化候选表示生成(PCRG):捕捉序列items的不同方面,并为每个序列items生成多个自适应查询(即候选item),以反映不同查询对多样化序列items的影响

通过PCRG和PSRG生成的自适应Q、K和V,目标感知建模机制(如MHA、DIN和CAN)可以轻松集成到该框架中,促进多领域场景中的兴趣捕捉。

2.2.1 个性化序列表示生成(PSRG)

当前大规模工业推荐系统通常采用共享嵌入层将原始ID和其他特征嵌入为dense向量。这种方式下,嵌入表中的特定item具有统一的嵌入表示,在不同用户序列中共享,忽略了多领域差异的影响。

PSRG的基本思想是:为用户行为序列中的每个item嵌入动态生成一个个性化层,使得原始共享表示可以在多领域中多样化。具体而言,我们使用领域相关特征嵌入 $E_D \in R^{d_D}$ 作为PSRG生成部分的输入,这些特征包括:

    1. 显式领域指示特征(explicit-domain-indicator features):区分样本所属的领域。例如,指示器范围为[0, 2],表示抖音中的三个不同业务场景。
    1. 隐式领域指示特征(implicit-domain-indicator features):在推荐系统中,某些领域难以明确定义。例如,用户是否高活跃度。因此,需要结合工程师构建的统计特征以进一步捕捉和区分不同领域。

如图2所示,序列items的weight和bias生成过程旨在动态调整原始item嵌入。

序列权重生成网络(Sequence-Weight Gen-Net)

用户序列嵌入表示为:$E_S \in R^{T \times d_S}$

其中:

  • $T$ 和 $d_S$ 分别表示用户序列长度和每个序列items的嵌入维度。

基于领域特征 $E_D$,权重生成过程包括:私有权重部分和共享权重部分,以捕捉多领域的共性和个性。私有部分通过两层MLP生成私有权重:

\[\mathbf{W}_{private} = Sigmoid(ReLU(\mathbf{E}_D \mathbf{W}_1^T + \mathbf{b}_1) \mathbf{W}_2^T + \mathbf{b}_2) \quad (2)\]

其中:

  • $\mathbf{W}_1^T \in \mathbb{R}^{d_D \times d_h}$,$\mathbf{W}_2^T \in \mathbb{R}^{d_h \times (d_S \times d_S)}$:表示weight
  • $\mathbf{b}_1 \in \mathbb{R}^{d_h}$,$\mathbf{b}_2 \in \mathbb{R}^{(d_S \times d_S)}$:表示bias
  • $d_h$ 表示隐藏层维度

通过引入两层函数而非单层,不仅可以提高模型的表达能力,还能显著减少模型参数和计算成本。

基于 $\mathbf{W}{private}$,进一步定义一个全局权重 $\mathbf{W}{shared} \in \mathbb{R}^{(d_S \times d_S)}$,作为可学习矩阵在所有用户间共享。生成的权重定义为:

\[\mathbf{W}_{generated} = \eta * (\mathbf{W}_{shared} \odot \mathbf{W}_{private}) \quad (3)\]

其中:

  • $\odot$ 表示逐元素乘积。由于引入了 $Sigmoid$,$\mathbf{W}{private}$ 的值范围为[0, 1],因此引入缩放超参数 $\eta$ 以扩大 $\mathbf{W}{private}$ 的表达范围。

序列偏置生成网络(Sequence-Bias Gen-Net)

类似于权重生成过程,偏置生成可以通过以下公式实现:

\[\mathbf{b}_{generated} = ReLU(\mathbf{E}_D \mathbf{W'}_1^T + \mathbf{b'}_1) \mathbf{W'}_2^T + \mathbf{b'}_2 \quad (4)\]

其中:

  • $\mathbf{W’}_1^T \in \mathbb{R}^{d_D \times d_h}$,$\mathbf{W’}_2^T \in \mathbb{R}^{d_h \times d_S}$:为weight
  • $\mathbf{b’}_1 \in \mathbb{R}^{d_h}$,$\mathbf{b’}_2 \in \mathbb{R}^{d_S}$:为bias

通过生成的权重和偏置,PSRG可以通过以下公式实现:

\[\mathbf{E}_{S-personalized} = \mathbf{E}_S Reshape(\mathbf{W}_{generated})^T + \mathbf{b}_{generated} \quad (5)\]

其中:

  • $Reshape$ 操作将一维向量形式的 $\mathbf{W}_{generated}$ 重塑为二维矩阵形式,形状为 $d_S \times d_S$。

2.2.2 个性化候选表示生成(PCRG)

除了序列的个性化建模,另一个重要部分是:对target item的多领域建模,target item通常在target attention中扮演query的角色。个性化候选item包括两个方面:

  • 1.类似于序列表示,target item本身的表示也通过共享嵌入层嵌入,未在不同领域中个性化。
  • 2.候选item在不同领域的序列items中扮演不同角色。例如,用户在抖音商城频道中的观看列表反映其购物兴趣,而在短视频频道中反映其内容偏好。

多查询生成网络(Multi-Query Gen-Net)

图片名称

图3

为此,我们提出了多查询生成网络(如图3中间子图所示),在领域相关特征 $E_D$ 和原始target item嵌入 $E_Q \in R^{d_Q}$ 的指导下,生成多个查询:

\[\mathbf{E}_{Q-private} = ReLU(\left(\mathbf{E}_D \oplus \mathbf{E}_Q\right) \mathbf{W}_{q1}^T + \mathbf{b}_{q1}) \mathbf{W}_{q2}^T + \mathbf{b}_{q2} \quad (6)\]

其中:

  • $\oplus$ 表示拼接操作
  • $\mathbf{W}{q1}^T \in \mathbb{R}^{(d_D + d_Q) \times d_h}$,$\mathbf{b}{q1} \in \mathbb{R}^{d_h}$:表示第一层的w, b
  • $\mathbf{W}{q2}^T \in \mathbb{R}^{d_h \times (T \times d_Q)}$,$\mathbf{b}{q2} \in \mathbb{R}^{T \times d_Q}$:表示第二层的w, b
  • 隐藏层维度 $d_h « (T \times d_Q)$,使得计算成本可控。

分块查询生成(Chunked-Query Generation)

对于长序列($T$ 为数百或更高)的情况,我们还设计了一种轻量级的分块查询生成方法以提高计算效率。如图3右侧子图所示,由于用户的相邻行为往往发生在同一领域,原始序列可以划分为 $G$ 个块,相邻item形成一个组。因此,生成的 $\mathbf{E}_{Q-private} \in \mathbb{R}^{(G \times d_Q)}$ 可以进一步重复为 $\mathbb{R}^{(T \times d_Q)}$,计算成本进一步降低。

最终生成的多查询

对应于多个私有查询 $\mathbf{E}{Q-private} \in \mathbb{R}^{(T \times d_Q)}$,我们使用原始查询 $\mathbf{E}_Q$ 作为共享基,即 $\mathbf{E}{Q-shared} = tile(\mathbf{E}_Q)$,其中 $tile$ 表示将 $\mathbf{E}_Q$ 重复 $T$ 次。最终生成的多查询通过残差方式获得:

\[\mathbf{E}_{Q-personalized} = Reshape(\mathbf{E}_{Q-private} + \mathbf{E}_{Q-shared}) \quad (7)\]

其中:

  • $Reshape$ 操作将一维向量重塑为二维矩阵形式,形状为 $T \times d_Q$。

2.2.3 目标感知注意力与预测

通过上述个性化查询 $\mathbf{E}{Q-personalized} \in \mathbb{R}^{T \times d_Q}$ 和个性化序列items $\mathbf{E}{S-personalized} \in \mathbb{R}^{T \times d_S}$,target attention模块计算每个项的注意力权重,并在查询的指导下聚合序列。通常,个性化查询和项可以轻松集成到许多流行的注意力方法中,如多头target attention、DIN和CAN。

以多头target attention为例,对于每个头,候选item和序列items首先通过以下公式转换:

\[\mathbf{Q} = \mathbf{E}_{Q-personalized} \mathbf{W}_Q \quad (8)\] \[\mathbf{K} = \mathbf{E}_{S-personalized} \mathbf{W}_K \quad (9)\] \[\mathbf{V} = \mathbf{E}_{S-personalized} \mathbf{W}_V \quad (10)\]

其中:

  • $\mathbf{W}_Q \in \mathbb{R}^{d_Q \times d_A}$,$\mathbf{W}_K$ 和 $\mathbf{W}_V \in \mathbb{R}^{d_S \times d_A}$,$d_A$ 表示target attention中的维度大小。第 $t$ 个查询-键对的注意力权重 $\mathbf{z}’[t]$ 可以通过以下公式计算: \(\mathbf{z}'[t] = \frac{\mathbf{Q}_t^T \mathbf{K}_t}{\sqrt{d_A}} \quad (11)\) 随后通过softmax操作对个性化权重进行归一化并聚合个性化序列:
\[\mathbf{z} = softmax(\mathbf{z}'), \quad \mathbf{s} = \sum_{t=1}^T (\mathbf{z}[t] \cdot \mathbf{V}_t) \quad (12)\]

通过序列建模输出 $\mathbf{s}$ 和其他特征嵌入(包括 $\mathbf{E}_U$、$\mathbf{E}_I$ 和 $\mathbf{E}_O$),拼接层和多个高层MLP将所有信息合并并输出预测结果,训练损失通过二元交叉熵函数计算:

\[\mathbf{E}_{all} = \mathbf{s} \oplus \mathbf{E}_U \oplus \mathbf{E}_I \oplus \mathbf{E}_O, \quad \hat{y} = MLP(\mathbf{E}_{all}) \quad (13)\]

3 实验

3.1 实验设置

数据集和实验设置
为了充分评估所提出的ADS模型,我们在一个公共数据集(即淘宝数据集)和两个来自抖音的十亿级工业数据集(即抖音广告平台抖音电商平台)上进行了实验。表1报告了这三个数据集的统计信息。

  • 淘宝数据集:淘宝数据集来自[33],提供了淘宝用户行为数据,目前广泛用于序列建模方法[3]。前7天数据用于训练,其余用于测试。过滤了至少有200次交互和10次正向行为的用户,以及至少有10次交互的项。数据集中有9,439个类别,我们将每个类别视为一个领域。在该数据集中,页面浏览被视为负向交互,其他行为被视为正向标签(订单)。

  • 抖音广告数据集:我们选择了抖音广告中的转化率(CVR)预测任务,并收集了从2022年12月14日到2023年3月10日的在线流量日志子集,共87天,17.3亿样本。前77天用于模型训练,其余10天用于评估。在抖音广告平台中,根据用户的外部行为,数据集可以分为三个主要领域:直播支付、直播订单和短视频购物,分别表示为领域1、2和3。

  • 抖音电商数据集:我们选择了抖音直播电商服务中的两种用户购物行为(点击和订单)作为预测目标。收集了从2024年1月1日到3月1日的在线流量日志子集,共61天,25.2亿样本。前54天用于训练,最后一周用于验证。数据集涉及抖音直播中的两个典型场景:直播预览和直播滑动,分别表示为领域1和2。

对比方法和评估指标
为了全面比较所提出的ADS与现有方法,我们选择了几个代表性的SOTA模型,分为两类:

  1. 基于DNN的方法:包括DNN、DeepFM[9]、DCNv2[23]、APG[25]、AdaSparse[27]、DFFM[10]、MaskNet[24]。
  2. 基于target attention的骨干方法:包括DIN[32]、MHA[20]和CAN[2],并在此基础上添加了最近的多领域嵌入学习方法进行比较,包括FRNet[21]和PEPNet[6]。

所有方法均基于Tensorflow实现,并通过交叉熵损失进行优化。采用Adam[13]优化器,初始学习率为0.00002。使用AUC指标评估排序模型的性能。此外,我们引入了相对改进(Imp.)[26]来衡量相对AUC增益,计算公式如下(随机策略的AUC值为0.5): \(AUC\ Imp. = \left(\frac{AUC(MeasuredModel) - 0.5}{AUC(BaselineModel) - 0.5} - 1\right) \times 100\% \quad (14)\)

3.2 实验结果

整体性能
表2展示了不同方法在三个数据集上的对比结果。对于淘宝数据集,由于领域数量较多,仅提供了整体结果。为清晰起见,结果按四组进行报告:第一组列出基于DNN的方法,其余三组分别列出基于DIN、MHA和CAN的多领域target attention方法。从结果中可以得出以下几点观察:

  1. 与基于DNN的方法相比,基于target attention的序列建模在排序模型中起着至关重要的作用。从表中可以看出,DIN、MHA和CAN在淘宝数据集上分别提升了0.54%、0.23%和0.17%,在抖音广告数据集上分别提升了0.22%、0.19%和0.04%,在抖音电商的点击预测任务中分别提升了0.49%、0.31%和0.11%。

  2. 现有的多领域方法对排序模型普遍有积极影响。具体而言,在基于DNN的方法中,AdaSparse在淘宝和抖音广告数据集上优于基线。FRNet和PEPNet在不同组中也表现出改进的性能。

  3. 所提出的ADS在基于DIN、MHA和CAN的组中始终表现最佳,显示出其高效性和兼容性。具体而言,在淘宝数据集中,ADS在DIN、MHA和CAN组中分别比第二好的方法提升了0.47%、0.20%和0.20%。在抖音广告数据集中,ADS比第二好的方法分别提升了0.20%、0.12%和0.14%。在抖音电商数据集中,ADS在点击预测任务中分别比第二好的方法提升了0.05%、0.07%和0.15%,在订单预测任务中分别提升了0.11%、0.15%和0.18%。此外,在两个工业数据集的每个领域中,ADS均显著优于对比方法,证明了其个性化target attention机制的优势。

3.3 消融实验与敏感性分析

消融实验
为了进一步评估ADS中两个模块(PCRG和PSRG)的性能,我们在抖音广告数据集上进行了消融实验。如表3所示,移除PCRG模块后,整体性能在基于DIN、MHA和CAN的方法中分别下降了0.06%、0.03%和0.23%。此外,移除PCRG和PSRG模块后,整体性能分别下降了0.23%、0.23%和0.29%。因此可以得出结论,个性化target item和个性化序列对ADS均有积极影响,验证了这些模块的有效性。

ADS中分块数量的敏感性分析
为了研究分块数量的影响,我们对ADS进行了敏感性分析。具体而言,我们通过改变每个分块中的项数(从[1, 2, 5, 10])来研究性能模式,并从训练效率和模型性能两个方面进行分析。

  • 训练效率模式:我们通过总结和比较不同分块下的模型参数和训练浮点操作(FLOPs)来评估模型训练效率,结果如图4所示。从图中可以明显看出,随着模型个性化程度的提高,模型参数和训练FLOPs持续增加。

  • 性能模式:图5展示了通过改变每个分块中的项数得到的模型性能模式。具体而言,首先,与原始的DIN、MHA和CAN相比,ADS及其不同分块版本在点击和订单预测任务中均表现出明显的性能提升。此外,随着分块中项数的减少,模型性能持续提升,最个性化的模型(即无分块的ADS)表现最佳,表明考虑候选item的个性化特征具有重要意义。

总体而言,随着ADS个性化能力的提高,性能和训练成本均有所增加,但我们观察到,即使训练成本略有增加(如分块10的ADS与原始方法相比),模型性能仍能实现显著提升,因此实践者可以根据效果和效率的平衡灵活选择参数。

3.4 在线部署

ADS模型通过分片和数据并行策略在多GPU上分布式部署。为了减少存储,低频嵌入被消除。为了进一步提高GPU吞吐量,我们引入了密集计算异步策略,将计算图分为稀疏前向和密集计算部分,从而实现流水线效果,大大提高了训练和推理效率。得益于这些优化,离线训练资源与基线相同,即64个Nvidia A100。以抖音广告为例,训练时间成本从41.3小时略微增加到42.8小时(+3.6%)。在线延迟保持在30ms,无明显变化。

3.5 在线A/B实验

为了研究所提出的ADS在真实工业场景中的性能,我们在抖音的广告系统和电商系统中分别进行了仔细的在线A/B测试。

  • 抖音广告:抖音广告的在线实验于2023年11月2日至11月8日进行,覆盖了74,079,729名抖音APP用户。选择了两个指标进行比较:每千次展示成本(CPM)和广告主价值(ADVV)。需要注意的是,部署场景是字节跳动广告的主要流量来源,基线非常强,ADVV或CPM的0.5%提升被认为是显著的。对比结果如表4所示。从表中可以看出,部署ADS后,整体CPM提升了0.52%,ADVV提升了1.00%,显示了ADS自适应序列建模的优势。此外,在抖音广告的两个主要领域(直播和短视频)中,ADS均优于基线并实现了一致的提升,表明其在领域感知序列建模中的有效性。

  • 抖音电商:在线实验于2024年1月23日至1月29日在抖音电商平台进行,覆盖了508,926,918名抖音APP用户。实验结果如表5所示。选择了三个指标进行比较:每用户总交易额(GMV/U)、每用户订单数(Order/U)和每千次展示交易额(GPM),这些都是抖音电商中的重要商业指标。与抖音广告实验类似,该部署场景贡献了字节跳动最高的GMV,基线非常强,GMV的0.5%提升被认为是显著的。如表5所示,整体GMV/U、Order/U和GPM分别提升了0.79%、0.36%和0.89%。此外,在直播预览和直播滑动两个领域中均观察到一致的提升,所有提升均经过统计显著性检验(𝑝值<0.01),验证了其有效性。

#

https://arxiv.org/pdf/2502.05523

字节在《Real-time Indexing for Large-scale Recommendation by Streaming Vector Quantization Retriever》提出了流式向量量化检索器。我们来看一下它的实现:

摘要

检索器作为推荐系统中最重要的阶段之一,负责在严格的延迟限制下高效地为后续阶段选择可能的正样本。因此,大规模系统通常会使用一个简单的排序模型,依靠近似计算和索引来粗略地缩小候选规模。考虑到简单模型缺乏生成精确预测的能力,大多数现有方法主要集中于引入复杂的排序模型。然而,索引有效性的另一个基本问题仍未解决,这也成为了复杂化的瓶颈。在本文中,我们提出了一种新颖的索引结构:流式向量量化模型(Streaming Vector Quantization model),作为新一代的检索范式。流式VQ能够实时为item附加索引,赋予其即时性。此外,通过对可能变体的细致验证,它还实现了索引平衡和可修复性等额外优势,使其能够像现有方法一样支持复杂的排序模型。作为一种轻量级且易于实现的架构,流式VQ已在抖音和抖音极速版中部署,并取代了所有主要的检索器,带来了显著的用户参与度提升。

1 引言

在现代推荐系统中,我们不断面临爆炸性增长的语料库,因此由检索、预排序和排序阶段组成的级联框架变得非常普遍。在这些阶段中,检索器的任务是从整个语料库中区分候选样本,但给定的时间却最少。例如,在抖音中,检索器需要从数十亿条内容中筛选出数千个候选样本,而后续阶段只需将候选规模缩小10倍。

然而,扫描所有候选样本会带来极高的计算开销,因此检索阶段不得不依赖于索引结构和近似计算。具体来说,诸如乘积量化(Product Quantization, PQ [8])分层可导航小世界(Hierarchical Navigable Small World, HNSW [11])等索引方法被提出。PQ通过创建“索引”或“聚类”来表示属于它们的全部内容。当一个聚类被选中时,其所有内容都会被检索出来。同时,用户侧和内容侧的信息被解耦为两个独立的表示,用户表示用于搜索相关聚类。这导致了一种“双塔”架构 [2, 7],其中每个塔由一个多层感知机(MLP)实现。由于其显著降低计算开销的能力,这种方法在许多工业场景中得到了广泛应用。在下文中,我们将其称为“HNSW双塔”。

尽管HNSW双塔架构简单,但它存在两个缺点:

  • (1)其索引结构需要定期重建,在此期间内容表示和内容索引分配是固定的。然而,在一个充满活力的平台上,新内容每秒都在提交,聚类语义也会因新兴趋势而变化,而这些变化在建模中被忽略了。此外,这种构建过程与推荐目标并不一致。
  • (2)双塔模型很少提供用户-内容交互,因此生成的预测较弱。不幸的是,在大规模应用中,复杂的模型(如MLP)会带来难以承受的计算开销。

许多现有方法都聚焦于这些问题,并开发了新的索引结构。然而,这些方法主要设计用于支持复杂模型,而忽略了索引本身的关键问题。根据我们的实践经验,索引即时性索引平衡性与模型复杂性同样重要。如果索引结构严重失衡,热门内容会集中在少数几个索引中,导致模型难以区分它们。例如,在深度检索(Deep Retrieval, DR [4])中,我们从路径中收集了500𝐾条内容,而仅排名第一的路径就生成了超过100𝐾个候选样本,这严重降低了检索效果。

在本文中,我们提出了一种新颖的索引结构——流式向量量化(streaming VQ)模型,以提升检索器的能力。Streaming VQ具有独特的实时将内容分配到合适聚类的特性,使其能够捕捉新兴趋势。此外,我们还详尽地研究了每种变体,以确定实现索引平衡的最佳解决方案。Streaming VQ使得索引内的内容可区分,因此它能够在保持优异性能的同时生成更紧凑的候选集。尽管它主要关注索引步骤,但它也支持复杂模型和多任务学习。凭借这些创新机制,streaming VQ在抖音和抖音极速版中超越了所有现有的主流检索器。事实上,它已经取代了所有主要检索器,带来了显著的用户参与度提升。本文提出的模型的主要优势总结如下:

  • 实时索引分配与自修复能力:内容在训练过程中被实时分配到索引中,并且索引能够自我更新和修复。整个过程无需中断步骤。
  • 平衡的索引结构:Streaming VQ 提供了平衡良好的索引,这有助于高效地选择内容。通过一种合并排序(merge-sort)的改进,所有聚类都有机会参与到推荐过程中。
  • 多任务学习的优秀兼容性:Streaming VQ 展现出与多任务学习的出色兼容性,并且能够支持与其他方法相同的复杂排序模型。
  • 易于实现的特性:最后但同样重要的是,与近期的工作相比,Streaming VQ 以其易于实现的特性脱颖而出。它具有简单清晰的框架,主要基于 VQ-VAE [17] 的现成实现,这使得它能够轻松部署于大规模系统中。

2 相关工作

如前所述,由于扫描整个语料库的计算开销过高,各种索引结构被提出以在可接受的误差范围内近似选择候选样本。乘积量化(Product Quantization, PQ [8])就是这样一个例子,它将内容聚集到聚类中。当某些聚类被选中时,属于这些聚类的所有内容都会被检索出来。可导航小世界(Navigable Small World, NSW [10])通过逐步插入节点来构建图,形成节点之间的捷径以加速搜索过程。分层可导航小世界(Hierarchical Navigable Small World, HNSW [11])提供了分层结构,能够快速缩小候选规模,因此被广泛采用,尤其是在大规模场景中。此外,还有一些基于树的方法 [6, 14] 和局部敏感哈希(Locality Sensitive Hashing, LSH)方法 [15, 16],旨在近似选择候选样本。

在建模方面,迄今为止最流行且基础的架构是所谓的“双塔模型”,其主要源自 DSSM [7]。双塔模型将用户侧和内容侧的原始特征分别输入到两个独立的多层感知机(MLP)中,并获取相应的表示(嵌入)。用户对某个内容的兴趣通过这两个嵌入的点积来表示。由于它将内容和用户信息解耦,在服务阶段可以预先存储内容嵌入,并通过近似最近邻(Approximate Nearest Neighbor, ANN)方法搜索结果。

然而,解耦用户和内容信息会丢弃它们之间的交互,而这种交互只能通过复杂模型(如MLP)来实现。为了解决这个问题,基于树的深度模型(Tree-based Deep Models, TDM [25], JTM [24], BSAT [26])提出了树状结构,以从粗到细的层次化方式搜索候选样本。在TDM中,内容被收集在叶子节点上,而一些虚拟的非叶子节点用于表示其子节点的整体属性。TDM采用复杂的排序模型,并通过注意力模块交叉用户和内容信息。考虑到HNSW本身已经提供了分层结构,NANN [1] 直接在HNSW上搜索候选样本,同样使用复杂模型。

另一种方法试图避免ANN算法所需的欧几里得空间假设。深度检索(Deep Retrieval, DR [4])主要由等距层组成,将内容定义为“路径”,并使用束搜索(beam search)逐层缩小候选范围。与TDM和NANN相比,它更关注索引而非排序模型的复杂性。还有一些方法 [9, 12] 使用多索引哈希函数对内容进行编码。

尽管上述方法主要集中在模型复杂性上,BLISS [5] 强调了索引平衡的重要性。它通过迭代强制模型将内容映射到桶中,甚至手动将一些内容分配到尾部桶中以保证平衡。

将内容附加到索引本质上是将它们“量化”为可枚举的聚类。因此,可以考虑向量量化(Vector Quantization, VQ)方法。从引入可学习聚类的VQ-VAE [17] 开始,许多方法 [22, 23] 已经考虑在检索任务中使用它或其变体。在本文中,我们将VQ模型发展为一种以流式方式更新、保持平衡、提供灵活性且轻量级的索引方法,并将其命名为“流式VQ(streaming VQ)”。

3 流式向量量化模型(Streaming VQ)

通常,检索模型包括索引步骤和排序步骤

  • 检索索引步骤使用近似搜索从初始语料库中逐步缩小候选范围
  • 检索排序步骤则为后续阶段提供有序的结果和更小的候选集

大多数现有方法都遵循这种两步范式。例如,最流行的双塔架构本质上利用HNSW来高效搜索候选样本。在特定操作轮次中,它首先通过排序模型对邻居节点进行排序(排序步骤),然后选择内容并丢弃其他内容(索引步骤)。同样,TDM和NANN模型也依赖于它们自己的索引结构(基于树/HNSW)。DR主要引入了一种可检索的结构,在实践中我们还需要训练一个排序模型来对结果进行排序,并为索引步骤提供用户侧输入嵌入。DR与其他方法的不同之处在于,DR的索引步骤和排序步骤是按时间顺序执行一次,而其他方法中这两个步骤是交替执行的。

图片名称

图 1 提出的流媒体VQ模型的训练框架

本文提出的流式VQ模型也由两个按时间顺序执行的步骤组成。在图1中,我们展示了其完整的训练框架(注意,流式VQ可以扩展到多任务场景,但为了简单起见,我们暂时只考虑预测视频是否会被播放完成的“完成任务”)。在索引步骤中,我们采用双塔架构(原因将在第5.5节讨论),并通过独立的塔生成内容侧和用户侧的中间嵌入 vu(图1中的深蓝色和黄色块)。首先,这两个中间嵌入通过一个辅助任务进行优化,该任务采用in-batch Softmax损失函数:

\[𝐿_{aux} = \sum_{o} -\log \frac{\exp(\mathbf{u}_o^T \mathbf{v}_o)}{\sum_{r} \exp(\mathbf{u}_o^T \mathbf{v}_r)},\]

其中:

  • $o$ 和 $r$ 表示样本索引。

量化操作出现在内容侧:我们保持一组可学习的聚类(单任务版本为16𝐾,多任务版本为32𝐾),并分配𝐾个嵌入。当生成 v 时,它在聚类集中搜索最近的邻居:

\[k^*_o = \arg\min_k ||\mathbf{e}^k - \mathbf{v}_o||^2,\]

…(2)

\[\mathbf{e}_o = \mathbf{e}^{k^*_o} = Q(\mathbf{v}_o),\]

…(3)

其中:

  • $Q(\cdot)$ 表示量化
  • e :所选聚类嵌入
  • u :用户侧嵌入

它们一起优化:

\[𝐿_{ind} = \sum_{o} -\log \frac{\exp(\mathbf{u}_o^T \mathbf{e}_o)}{\sum_{r} \exp(\mathbf{u}_o^T \mathbf{e}_r)}.\]

…(4)

搜索到的聚类作为输入内容的“索引”。这种内容-索引分配被写回参数服务器(Parameter Server, PS)。我们遵循标准的指数移动平均(Exponential Moving Average, EMA [17])更新:聚类嵌入通过其所属内容的移动平均值进行更新,而内容而非聚类接收聚类的梯度。EMA过程在图1中用红色箭头表示。

检索排序步骤与检索索引步骤共享相同的特征嵌入,并生成另一组紧凑的用户侧和内容侧中间嵌入。由于在此步骤中,更复杂的模型优于双塔架构,因此可以使用交叉特征和3D用户行为序列特征。我们基于连接嵌入为每个任务预测一个独立的塔(头),并由相应的标签进行监督。详细的模型架构可以在第3.5节中找到。

在服务阶段,我们首先通过以下公式对聚类进行排序:

\[\mathbf{u}^T \cdot Q(\mathbf{v}).\]

然后,所选聚类的内容被输入到下一个排序步骤中,并生成最终结果。

以上介绍了所提出方法的基础框架,在本节的剩余部分,我们将详细阐述如何在几个特别关注的方面进行改进,包括索引即时性、可修复性、平衡性、服务技巧,以及如何与复杂模型和多任务学习集成。

3.1 索引即时性

现有检索模型的整体更新周期由候选扫描(检查哪些内容可以被推荐)、索引构建和模型转储组成。其中,主要成本来自索引构建。

对于所有现有检索模型,索引构建是中断的,这导致索引语义的即时更新被忽略。例如,在抖音中,由于我们有数十亿规模的语料库,构建HNSW大约需要1.5-2小时,执行DR中的M步需要1小时。在此期间,索引保持不变。然而,在一个快速发展的平台上,新兴趋势每天都在出现。这种情况不仅需要实时将新提交的视频分配到适当的索引中,还需要同时更新索引本身。否则,它们无法相互匹配,只会产生不准确的兴趣匹配和较差的性能。相反,我们的模型通过流式样本进行训练,内容-索引分配会立即决定并实时存储在PS中(键=内容ID,值=聚类ID),无需中断阶段,并且聚类嵌入通过优化目标强制适应内容。这赋予了它最重要的优势:索引即时性。

现在,在流式VQ中,索引构建变为实时步骤,因此我们已经克服了主要障碍。此外,我们将候选扫描设置为异步,因此整体模型更新周期等于模型转储周期,仅需5-10分钟。

即便如此,仍存在一个潜在问题:内容-索引分配完全由训练样本决定。由于热门内容频繁曝光,它们的分配得到了充分更新。然而,新提交的和不受欢迎的内容获得曝光或更新的机会较少,这进一步恶化了它们的表现。

为了解决这个问题,我们添加了一个额外的数据流——候选流(candidate stream)——来更新它们。与称为“曝光流”的训练流不同,候选流只是以等概率逐个输入所有候选内容。如图1(虚线黑色箭头)所示,对于这些样本,我们仅通过前向传播获取并存储内容-索引分配,以确保其与当前聚类集的语义匹配。由于这些样本没有真实标签,因此不计算损失函数或梯度。

3.2 索引可修复性

流式更新范式是一把双刃剑:由于我们放弃了索引重建,整个模型面临性能退化的风险。这种现象广泛存在于所有检索模型中,但通常通过重建操作来解决。现在对于流式VQ,我们需要在没有重建操作的情况下解决这个问题。

原始的VQ-VAE引入了两个损失函数:一个与 $𝐿_{ind}$ 相同,另一个强调内容-聚类相似性:

\[𝐿_{sim} = \sum_{o} ||\mathbf{v}_o - \mathbf{e}_o||^2.\]

…(6)

在计算机视觉领域 [3, 13],模式很少变化,因此VQ类方法表现良好。然而,在大规模工业推荐场景中,内容自然会发生归属变化,但 $𝐿_{sim}$ 反而会锁定它们。

在我们早期的实现中,我们遵循了与原始VQ-VAE相同的配置,起初在线指标确实有所改善。然而,我们观察到模型退化:性能随着时间的推移逐渐恶化。随后我们意识到,在我们的平台上,由于全局分布漂移,作为内容的概括表示,聚类的语义每天都在变化。内容-索引关系并非静态,相反,内容可能在不同天内属于不同的聚类。不幸的是,$𝐿_{ind}$ 和 $𝐿_{sim}$ 都只描述了内容属于某个聚类的情况。如果它不再适合该聚类,我们不知道它应该属于哪个聚类。这就是性能退化的原因。

通过用 $𝐿_{aux}$ 替换 $𝐿_{sim}$,我们解决了这个问题。由于 $𝐿_{aux}$,内容嵌入可以及时独立地更新,然后 $𝐿_{ind}$ 根据内容表示调整聚类。经过这一修改后,我们成功观察到了持续的改进。我们将其总结为设计检索模型的原则:内容优先。内容决定索引,而不是相反。

3.3 索引平衡性

推荐模型应能够区分热门内容,并为后续阶段精确选择所需内容。具体来说,对于检索模型,我们希望它们将内容均匀分布在索引中,以便我们只需选择少数索引即可快速缩小候选集。这种特性称为“索引平衡性”。不幸的是,许多现有方法存在流行度偏差,未能提出有效的技术来防止热门内容集中在少数几个顶级索引中。为了缓解这种偏差,BLISS [5] 甚至强制将一些内容分配到尾部聚类。

注意到 $𝐿_{ind}$ 在平均情况下获得最小的量化误差。热门内容占据的曝光量远多于其他内容,因此最小化 $𝐿_{ind}$ 的最直接方法是将它们拆分并分配到尽可能多的聚类中,这自然会实现良好的平衡性。在我们的实现中,流式VQ确实采用了这一策略,并产生了令人惊讶的平衡索引分布(见第5.1节)。

为了进一步提高索引平衡性,我们修改了主要的正则化技术。设 $\mathbf{w}$ 为初步的聚类嵌入,我们在EMA中插入一个流行度项:

\[\mathbf{w}^{t+1}_k = \alpha \cdot \mathbf{w}^t_k + (1 - \alpha) \cdot (\delta^t)^\beta \cdot \mathbf{v}^t_j,\]

其中内容 $j$ 属于聚类 $k$,$t$ 表示时间戳,$\delta$ 表示内容出现间隔,如 [21] 中提出的。这里我们添加了一个超参数 $\beta$ 来调整聚类行为,较大的 $\beta$ 会促使聚类更关注不受欢迎的内容。然后,我们还更新记录聚类出现次数的计数器 $c$:

\[c^{t+1}_k = \alpha \cdot c^t_k + (1 - \alpha) \cdot (\delta^t)^\beta,\]

最终表示计算为:

\[\mathbf{e}^{t+1}_k = \frac{\mathbf{w}^{t+1}_k}{c^{t+1}_k}.\]

我们还在向量量化步骤中提出了“扰动”,即将公式(2)修改为:

\[k^*_o = \arg\min_k ||\mathbf{e}_k - \mathbf{v}_o||_2 \cdot r,\] \[r = \min\left(\frac{c_k}{\sum_{k'} c_{k'}/K} \cdot s, 1\right),\]

其中 $r$ 表示折扣系数,$s = 5$ 是一个阈值。这意味着如果整个聚类的曝光量少于平均值的 $1/s$ 倍,则在内容搜索其最近聚类时会被提升。这也有助于构建一个平衡良好的索引结构。

3.4 服务阶段的合并排序

内容的表示可能具有两种内在语义:个性化和流行度。我们希望根据内容的个性化而非流行度进行聚类。为此,我们显式地将内容表示解耦为个性化部分(嵌入)和流行度部分(偏差)。数学上,将公式(5)修改为:

\[\mathbf{u}^T \cdot Q(\mathbf{v}_{emb}) + v_{bias}.\]

通过这种方式,我们观察到同一聚类内的内容在语义上更加一致。所有训练损失函数也遵循相同的修改。

注意到在公式(11)中,即使同一聚类内的内容具有相同的 $Q(\mathbf{v}{emb})$,$v{bias}$ 也可以用于粗略排序。因此,我们提出了一种合并排序解决方案,以有效选择候选内容进入检索排序步骤。

图片名称

图 2

如图2(a)所示,$\mathbf{u}^T \cdot Q(\mathbf{v}{emb})$ 提供了聚类排名,而 $v{bias}$ 提供了聚类内内容的排名。然后基于这两部分的总和进行合并排序。这确保所有聚类(即使是那些大小超过排序步骤输入的聚类)都有机会为最终结果提供候选内容,因此我们可以收集一个非常紧凑的集合(50𝐾,仅为DR排序步骤输入大小的10%)以超越其他检索器。

具体来说,我们在这里使用最大堆来实现k路合并排序(图2(b))。聚类的内容首先独立排序并形成列表,这些列表被分成块(大小=8)。然后将这些列表构建成一个堆,由其头部元素初始化。在每次迭代中,我们从堆中弹出顶部元素,但取出其块中的所有元素。然后,来自同一列表的另一个块及其头部元素被添加到堆中。该策略在保持性能质量的同时有效减少了计算开销。更多细节请参见附录A。

3.5 模型复杂性

如前所述,在检索索引步骤和检索排序步骤中,我们分别评估16𝐾和50𝐾个聚类/内容。这一规模不再难以承受,因此我们可以使用复杂模型。在图3中,我们展示了索引和排序模型的两种架构:双塔架构和复杂架构。

双塔模型(图3左侧)遵循典型的DSSM [7] 架构。内容侧特征和用户侧特征分别输入到两个独立的塔(即MLP)中,并获得紧凑的嵌入。用户对该内容的兴趣通过这两个嵌入的点积计算。特别地,我们为每个内容添加了一个偏差项,并将其添加到最终得分中,以表示内容的流行度。在排序步骤中使用双塔模型的版本称为“VQ双塔”。

复杂版本(图3右侧)也将内容侧和用户侧特征输入以生成两个中间嵌入。然而,内容侧嵌入被输入到一个多头注意力模块 [19] 中作为查询,以提取非线性用户-内容交互线索,其中用户行为序列被视为键和值。然后,转换后的特征以及其他所有特征(包括交叉特征)被输入到一个深度MLP模型中以输出结果。使用复杂排序模型的版本称为“VQ复杂”。

理论上,这两种架构都可以部署在索引和排序步骤中。然而,在我们的实验中,复杂的索引模型并未带来改进。正如第5.5节所讨论的,复杂模型提供的非线性接口违反了欧几里得假设,并可能将聚类和内容划分到不同的子空间中,从而遗漏一些聚类。因此,我们将索引模型保持为双塔架构。

相反,对于排序步骤,复杂版本优于双塔版本。然而,它也带来了更多的计算开销。考虑到投资回报率(ROI),并非所有目标都部署为复杂版本。详细信息见第5.3节。

作为一个娱乐平台,抖音有许多热门话题和新兴趋势,这些内容集中在用户的近期行为序列中。然而,顶级话题已经被充分估计和分发,因此由热门话题主导的序列特征几乎无益于兴趣建模。为了解决这个问题,我们利用Trinity [20] 提供的统计直方图,过滤掉落在用户前5个次要聚类中的内容(填充更多内容以达到足够长度)。生成的序列倾向于长尾兴趣,并提供更多的语义线索。通过修改后的序列特征,某些目标得到了显著改善(见第5.3节)。

我们还在VQ复杂版本中添加了数十个特征以达到其最佳性能。仅添加特征或增加模型复杂性只能产生适度的结果。然而,通过结合这两种技术,我们获得了显著改进的结果。原因是,随着更多特征的加入,我们的模型能够实现高阶交叉并真正利用复杂性。

3.6 多任务流式VQ

尽管前面的讨论是基于单任务框架的,但流式VQ可以扩展到多任务场景。如图1所示,在索引步骤中,用户对每个任务都有独立的表示,但它们共享相同的聚类集。对于每个任务,我们同时计算 $𝐿_{aux}$ 和 $𝐿_{ind}$ 并传播梯度。

对于多任务版本,聚类表示需要针对不同任务进行专门化。具体来说,公式(7)和公式(8)被修改为:

\[\mathbf{w}^{t+1}_k = \alpha \cdot \mathbf{w}^t_k + (1 - \alpha) \cdot \prod_{p} (1 + h_{jp})^{\eta_p} \cdot (\delta^t)^\beta \cdot \mathbf{v}^t_j,\] \[c^{t+1}_k = \alpha \cdot c^t_k + (1 - \alpha) \cdot \prod_{p} (1 + h_{jp})^{\eta_p} \cdot (\delta^t)^\beta,\]

其中 $\eta$ 是另一个用于平衡任务的超参数,$h_{jp}$ 是内容 $j$ 在任务 $p$ 中的奖励。例如,如果视频未完成/完成,则 $h_{jp} = 0/1$。对于停留时间目标,它被设计为对数播放时间。注意,整个奖励始终大于1,因此聚类会倾向于产生更高奖励分数的内容。

检索排序步骤为所有任务共享特征嵌入,并训练各自的双塔或复杂模型。

图片名称

表 1


4 检索模型的详细分析

图片名称

图 3

在这里,我们将流式VQ与其他现有方法进行比较,并说明为什么它有利于大规模工业应用。

表1列出了我们关注的检索模型的7个方面,并逐一讨论:

  • 索引是否面向推荐? 在本文中,“面向推荐”衡量索引构建过程是否针对推荐目标进行了优化。在HNSW中,索引的构建不考虑其分配的任务。类似地,DR由于其M步骤也不是面向推荐的检索器。由于 $𝐿_{aux}$ 和 $𝐿_{ind}$ 都受到推荐目标的监督,流式VQ是面向推荐的。

  • 索引步骤中的负采样方法:HNSW和NANN在索引步骤中不涉及负采样方法。TDM引入了一种随机负采样方法,选择同一层级的另一个节点作为负样本。特别地,DR具有隐式负采样:由于所有节点都通过Softmax归一化,当我们最大化其中一个节点时,其他节点等效地被最小化。然而,这种最小化未考虑样本分布,因此DR仍然严重受到流行度偏差的影响。在我们的实现中,流式VQ在索引步骤中保持双塔架构,因此我们可以直接采用 [21] 中引入的现成in-batch去偏解决方案。

  • 流行度去偏:如上所述,DR无法避免热门内容集中在同一路径中。在我们的系统中,DR索引步骤后总共收集了500𝐾个候选内容,而排名第一的路径提供了100𝐾个。相反,由于第3.3节中提出的所有技术,流式VQ中的热门内容广泛分布在索引中。尽管大多数现有方法都关注复杂性,但我们认为流行度去偏是另一个被忽视但至关重要的问题。

  • 构建索引的时间成本:在抖音中,我们需要1.5-2小时来设置HNSW,并需要1小时来执行DR的M步骤。在流式VQ中,索引在训练过程中实时构建和更新。

  • 索引步骤的候选限制:这意味着我们可以处理多少候选内容作为输入。由于需要存储一些元信息(例如边),它受到单机内存的限制。作为最复杂的结构,HNSW只能存储170𝑀个候选内容。由于我们的语料库规模超过了这一限制,因此会定期随机丢弃一些内容。DR的结构(一个内容可以通过3条路径检索)大大简化,因此我们可以将阈值扩展到250𝑀。当前的流式VQ具有独占结构,因此理论上它可以存储比DR多3倍的候选内容(详细分析见附录B)。我们仅扩展到350𝑀,因为更多的候选内容可能会带来一些过时的信息。

  • 排序步骤的节点接触:这里我们展示了系统中每种方法的实际设置,而不是上限。由于HNSW/TDM/NANN在分层结构中检索候选内容,对于它们来说,排序步骤的节点接触指的是它们计算的总次数,而对于DR/流式VQ,它表示排序列表的大小。为了公平比较,我们将NANN和流式VQ的节点接触次数设置为相同(见第5.4节)。注意,由于流式VQ具有平衡良好的索引结构,并且可以在聚类内精细选择内容,因此即使排序候选规模减少10%,它仍然优于DR。

  • 适用的排序模型:使用复杂的排序模型总是会显著增加计算开销。众所周知,HNSW无法支持复杂架构。在抖音中,由于投资回报率(ROI)较低,DR在排序步骤中也使用双塔模型。其他检索模型使用复杂架构。

5 实验

在本节中,我们剖析了流式 VQ 的性能,包括聚类可视化和在线指标。然后,我们解释为什么我们更关注索引结构,而不是开发复杂的排序模型。我们还讨论了是否需要索引复杂化/多层 VQ。

5.1 平衡且不受流行度影响的索引

图片名称

图 4

在图 4 中,我们通过统计直方图(上)和 t-SNE [18](下)可视化索引分布。在直方图中,我们将聚类按其所属item数量进行聚合。从结果来看,大部分聚类包含的item数 ≤ 25K。考虑到我们有一个十亿规模的语料库和 16K 聚类,在理想的均匀分布下,每个聚类将分配到数万个item。我们得到的结果相当接近这种理想分布。

另一幅图描述了它们在二维空间中的聚合程度,颜色越深表示聚类越大。首先,所有点均匀覆盖整个区域,这意味着它们与其他聚类在语义上是不同的。然后,每个层级的点,尤其是大聚类的点,分散开来,甚至在局部也没有聚集。这表明索引结构能够抵抗流行度的影响。

因此,我们可以得出结论,流式 VQ 确实提供了平衡且不受流行度影响的索引。

5.2 工业实验环境

在本文中,所有实验均在我们的大规模工业应用中实施:抖音和抖音 Lite,用于视频推荐。作为一个娱乐平台,我们专注于提升用户参与度,即日活跃用户(DAUs)。由于用户被均匀分配到对照组和实验组,因此无法直接测量 DAUs。我们遵循 Trinity [20] 中的相同指标。我们计算实验期间用户的平均活跃天数作为平均活跃天数(AAD),平均活跃小时数作为平均活跃小时数(AAH),并将观看时间作为辅助指标。

由于检索器是作为单任务模型进行训练的,因此总是存在指标权衡。例如,优化完成目标的检索器可能通过简单地增强短视频的分发来实现,这将导致更多的展示次数(VV),但观看时间会下降。一般来说,一个可接受的上线应该在展示次数和观看时间上保持平衡(例如,增加 0.1% 的观看时间,但减少 0.1% 的展示次数)。一个更有效的检索器应该同时提高观看时间和展示次数。

在检索阶段,我们已经部署了数百个检索器。因此,我们更倾向于那些占据足够展示次数的检索器,这通过展示比例(IR)来衡量。IR 计算这个检索器贡献了多少展示次数,不进行去重。根据我们的经验,IR 是最敏感且最具预测性的指标。一般来说,如果它的 IR 提高了,我们就得到了一个更有效的检索器。

将检索模型升级为流式 VQ 涉及以下目标:停留时间(ST)、完成(FSH)、有效观看(EVR)、活跃停留时间(AST)、个人页面停留时间(PST)、旧候选停留时间(OST)、评论区停留时间(CST)和 Lite 停留时间(LST)。具体来说,停留时间目标衡量用户观看视频的时间,如果他/她观看了超过 2 秒,则记录为正样本。我们根据实际播放时间给正样本分配奖励。AST/PST/CST 描述了相同的信号,但出现在喜欢页面/个人页面/评论区,而不是信息流标签中。OST 和 LST 也建模了停留时间目标,OST 只是将 ST 应用于 1-3 个月前发布的候选item,而 LST 是专门为抖音 Lite 训练的。完成直接描述了视频是否被看完。有效观看是一个综合目标:它首先通过分位数回归预测观看时间等于 60%/70%/80%/90% 持续时间,然后通过加权和融合预测。

5.3 在线实验

图片名称

在表 2 中,我们展示了在线性能,其中只列出了具有统计显著性的指标。首先,对于每个模型,两种变化(从 HNSW/DR 到 VQ 双塔,以及从 VQ 双塔到 VQ 复杂模型)在 IR 上都提供了显著的改进。正如前面所展示的,这表明了更好的内在有效性,通常指的是索引平衡、即时性等。

所有实验在观看时间、AAD 和 AAH 上都产生了显著的改进,或者至少具有竞争力的表现。我们可以得出结论,流式 VQ 是比 HNSW 和 DR 更好的索引结构(与 NANN 相比,见第 5.4 节),并且 VQ 复杂模型优于 VQ 双塔。然而,令人惊讶的是,仅索引升级就产生了令人信服的 AAD 增益。这表明,尽管大多数现有工作都集中在复杂性上,但索引的有效性同样重要。

对于完成目标,“*” 表示复杂模型的序列特征没有通过 Trinity 进行去偏。通过比较两行相邻的数据,去偏版本在所有指标上都优于另一个版本,这表明长尾行为为全面描述用户的兴趣提供了补充线索。 抖音和抖音 Lite 在 DAUs 方面已经有一个非常高的基线。此外,检索阶段对展示结果的影响已经被 IR 按比例减少。检索模型的变化多年来没有为 AAD 提供显著的好处。然而,通过流式 VQ 替代,我们在几次上线中见证了令人印象深刻的改进。这验证了流式 VQ 作为一种新型检索模型范式的潜力。

5.4 索引优先,还是排序优先?

为了更好地理解索引和排序步骤在大规模场景中所起的作用,我们还进行了在线实验,比较了基于 EVR 目标的 NANN [1](最先进的检索模型)与所提出的方法。为了公平比较,我们确保 NANN 和 VQ 复杂模型具有完全相同的计算复杂性。请注意,NANN 和 VQ 复杂模型也使用了更多的特征。

图片名称

表 3

在表 3 中,我们将“HNSW 双塔”作为基线,并列出其他模型的性能。VQ 双塔、NANN 和 VQ 复杂模型依次提供了越来越好的结果,通过观看时间/AAH 来衡量。从这些结果来看,NANN 似乎与两种 VQ 架构具有竞争力。然而,一方面,正如我们在第 5.2 节中所展示的,NANN 比其获得的观看时间失去了更多的 VV,这并不是非常有效。另一方面,在图 5 中,我们可视化了它们的展示分布(与 HNSW 双塔相比的相对差异),这也得出了不同的结论。

图片名称

图 5

为了吸引用户,分发更多热门item(VV>1 亿)一直是一个捷径,因为它们很容易产生更多的观看时间和点赞次数。但一个更有效的系统能够精确匹配兴趣,因此小众话题可以获得更多展示机会。例如,添加更多特征也可以增强系统对不受欢迎item的理解,并改善它们的分发。从这个方面来看,两种 VQ 架构符合我们的期望:VQ 双塔将“1 万 - 10 万”的展示量提高了约 2%,同时将“1 亿 +”减少了 1%。此外,VQ 复杂模型甚至将近乎 5% 的“1 万 - 5 万”展示量提高了,同时将近乎 2% 的“1 亿 +”减少了。然而,NANN 保持了不变的分布,这表明它没有充分利用特征和复杂性。总之,VQ 复杂模型在观看时间和 AAH 上优于 NANN,同时减少了热门item的分发。因此,它是我们应用中的更好模型。

可以得出结论,仅仅复杂化排序模型是不足以充分利用模型结构和特征所提供的所有优势的。这是因为整个模型的性能受到索引步骤的限制。只有拥有先进的索引模型,复杂化才能实现其理想性能。因此,我们建议优先优化索引步骤,特别是在大规模场景中。

5.5 索引复杂化

正如第 3 节所展示的,我们也可以在索引步骤中使用复杂的模型。然而,它意外地提供了较差的结果。为了找出原因,我们进一步实施了以下变化:(1) 保持双塔头部,并根据公式(10)附加索引,确定item - 索引分配;(2) 将 e 和 v 输入复杂的模型,如图 3 所示,但不从它那里接收梯度;(3) 除了 e 和 v 之外,共享两个头部的所有其他特征嵌入和 DNN 参数。通过这种方式,我们将item中间嵌入和聚类嵌入强制到相同的语义空间,并尽可能相似。令人惊讶的是,它仍然给出了较差的结果。

图片名称

图 6

为了理解这种现象,想象我们有两个正样本(item)及其聚类(图 6 中的蓝色圆圈,较深的一个表示聚类)。在双塔索引版本中(左),它遵循欧几里得假设,模型只产生近线性界面,因此聚类与其item保持在相同的子空间中。

#

https://arxiv.org/pdf/2501.08695