kuaishou直播团队在《LiveForesighter: Generating Future Information for Live-Streaming Recommendations at Kuaishou》提出了它们的电商直播推荐LiveForesighter:

摘要

作为一种连接用户与主播的新兴媒介,直播近年来备受关注并实现快速增长。相较于内容静态的短视频推荐,直播推荐在满足用户体验方面面临更大挑战:(1)直播内容随时间动态变化;(2)高价值行为(如赠送虚拟礼物、购买商品)往往需要用户长时间观看(>10分钟)。结合这两个特性,直播推荐面临一个核心难题:如何精准发现用户当前时刻感兴趣、且在未来一段时间内仍保持兴趣的直播内容?

针对这一问题,我们通过分析直播数据发现两个关键现象:(1)当直播进入”高光时刻”时,用户体验显著提升;(2)主播具有”风格一致性”,使得基于历史内容预测未来信息成为可能。基于这些发现,我们提出LiveForesighter框架,通过预测未来直播信息提升推荐质量。具体而言:

• 针对”高光时刻”检测,我们构建用户正向行为(点击、购买等)的统计指标序列,实时捕捉直播的高光状态
• 针对未来信息预测,利用历史商品销售序列预测未来可能推广的商品,以增强电商直播推荐效果

据我们所知,这是首个从未来信息预测角度提升直播推荐的研究。通过大量离线/在线实验及消融分析,我们验证了LiveForesighter的有效性。自2024年7月起,该框架已在快手多个业务场景全面部署,日均服务4亿活跃用户。

1 引言

近年来,快手、抖音、小红书等新一代短视频与直播媒体应用在全球范围内获得广泛关注并快速发展。从广义上看,这些平台主要扮演着娱乐角色,用户通过算法推荐观看有趣内容。因此,构建强大稳健的短视频/直播推荐系统[12,30,39]是保障快手用户满意体验的基石。

与内容静态的短视频不同,直播作为一种更复杂的媒介形式,在连接用户与主播方面面临更大推荐挑战[18]:

  • (1)直播内容随时间动态变化,用户在同一直播间的不同时间点会获得不同体验,进而产生不同行为
  • (2)作为具有营收属性的服务,某些高价值行为(如才艺直播中赠送虚拟礼物、电商直播中购买商品)需要用户长时间观看(>10分钟)[8]。

对于直播服务而言,成功的推荐需要遵循以下数据漏斗链[25]:曝光→点击(对当前内容感兴趣)→长观看/打赏/购买(对未来内容感兴趣)。

因此,我们的直播推荐系统不仅需要捕捉用户兴趣[6,32]以了解其偏好的直播类型,更重要的是在合适时机向用户推荐这些直播。具体而言,用户兴趣建模技术已被DIN[47]、ETA[11]等众多研究深入探讨。因此,在直播推荐系统中,我们首先需要考虑的是:对于某个直播,何时是最佳分发时机

我们在图1中分析了直播的实证表现。

图片名称

图1

  • 图1(a)展示了一个才艺直播案例:这类主播会花费大量时间与观众聊天、与其他主播进行PK对决,偶尔展示歌舞等才艺。从观众数量的用户反馈可以看出,当主播处于歌舞状态时,观众数量会显著增加
  • 图1(b)展示了另一个电商直播案例:这类主播通常逐个销售商品。对于每个商品,他们会先花费大量时间介绍产品优势并与观众互动,然后在商品开售前提供倒计时,通常伴有折扣优惠。同样地,从观众数量指标可以看出,当主播介绍商品时,进入直播间的观众数量相对稳定,但当商品即将开售时,观众数量会突然增加

从这两个案例可以看出,不同类型的直播具有不同特征,其”高光时刻”内容也代表着不同的含义。但我们可以得出另一个结论:当直播处于”高光时刻”时,用户体验更好,表现出更多正向行为。因此,我们可以利用用户正向行为的增长趋势,自适应地发现高光时刻以实现更智能的推荐。

除了寻找最佳直播分发时机外,我们推荐系统的另一个目标是:促使用户为主播打赏或购买商品,这需要用户对直播内容保持长期兴趣。因此,在直播推荐系统中,我们需要进一步考虑的第二个问题是:除了当前时刻,未来内容是否符合用户兴趣?

我们以电商直播为例,在图2中展示了两个主播的销售商品及其对应类别的三级时序序列。左侧主播主要销售女装,但类别非常多样(如衣服、裤子、鞋子等),二级和三级类别不断变化。右侧主播主要销售美妆产品,产品相对垂直,主要是三级类别在变化。幸运的是,尽管产品多样,我们发现垂直领域中高度相关的产品会连续介绍/销售,例如夹克→大衣→毛衣,粉底液→遮瑕膏→定妆粉。从这两个案例可以看出,主播在直播中具有”风格一致性”,这使得我们可以预测未来产品与之前产品存在一定关联。

图片名称

图2

本文提出了一种简单而有效的生成模型LiveForesighter,这是一种实现更高质量直播推荐的新范式。具体而言,我们考虑两种直播序列来监控高光时刻并生成直播未来信息。

对于第一个挑战——挖掘直播高光时刻的分发时机,我们的关键思路是识别哪些直播正在经历用户正向行为的增长趋势。因此,为描述这种正向行为增长趋势,我们首先利用直播侧用户正向行为序列(如点击、购买)的统计特征来预测未来行为趋势。这样,我们的模型不仅可以实时监控内容质量以检测直播是否处于正向行为增长趋势和高光时刻,还能感知未来趋势以确保直播在一段时间内保持高质量。

对于第二个挑战——确保未来内容符合用户兴趣,本文通过LiveForesighter增强电商直播推荐,我们的关键思路是利用一系列历史销售商品来预测未来商品。通过这种方式,我们的模型不仅能判断用户当前是否喜欢直播,还能预测他们在不久的将来是否会继续喜欢其内容。

总之,我们的贡献如下: • 我们通过深入分析展示了直播推荐中的挑战,据我们所知,本文是首个从未来信息预测角度增强直播推荐的研究,这将为其他研究者探索更健壮的直播推荐系统提供启示。 • 我们开发了LiveForesighter,该模型考虑直播侧观众正向行为和历史内容序列,以监控直播行为增长趋势并生成未来内容信息。 • 我们在快手真实直播场景中进行了大量实验。结果验证了LiveForesighter的有效性,该模型已在快手部署,为我们的平台带来了显著提升。

2 方法

本节将详细介绍我们的生成模型[4] LiveForesighter。我们首先说明工业级直播推荐系统[13,46]的通用背景,然后深入探讨用于实时内容质量监控的统计序列建模细节,最后描述如何利用历史销售商品预测未来商品。

2.1 工业推荐系统背景

通常,推荐系统旨在从大量隐式反馈[20]中生成一个小规模物品集合,以最大化用户兴趣。然而在工业场景中,从数亿规模的物品池中准确高效地搜索出这些物品并非易事。为了在成本和精度之间取得平衡,近年来主流公司广泛采用两阶段范式:候选生成[19,48]和排序[34,37]:

  • 候选生成阶段:旨在利用多种来源、信号和模型,从百万级物品池中找出用户感兴趣的数百个候选物品[16]。例如,识别与用户偏好类别相符的高质量作者。

  • 排序阶段:旨在从检索到的数百个候选物品中找出最佳的少量物品[7]。例如,从所有候选中找出处于高光时刻或正向行为增长趋势状态的直播间。

显然,候选生成阶段(如用户兴趣建模)和排序阶段(如用户-物品对建模)在推荐系统链中扮演着非常不同的角色,因此使用的技术也有很大差异。例如,候选生成侧重于物品-物品关系挖掘[41]、用户兴趣压缩[19],而排序阶段则侧重于用户-物品交叉特征挖掘[27,30]和多任务学习[45]。在本文中,我们重点扩展后者的排序阶段,以构建更全面的直播推荐系统。

2.1.1 基础排序模型架构

我们首先简要回顾基础排序模型设计。在实践中,排序模型的目标是预测特定概率(例如点击率CTR、长观率LVTR、购买率CVR),以衡量用户-商品对的推荐价值。具体来说,在排序模型训练中,每个用户-商品样本由一系列离散化分类特征组成,例如用户ID、用户性别、商品ID、商品类目ID等,以及跨序列特征(如同类目下用户历史点击序列)。为简化表达,我们将每个训练样本的特征和标签表示为 $[V_{\text{user}}, V_{\text{live}}, V_{\text{cross}}]$ 和 ${y^{\text{ctr}}, y^{\text{lvtr}}, …} \in {0,1}$。基于用户-商品对的输入信息及其收集的标签,排序模型 $\text{Rank}(\cdot)$ 的训练过程可公式化为:

\[\begin{aligned} \hat{y}^{\text{ctr}}, \hat{y}^{\text{lvtr}}, \cdots &= \text{Rank}\left([V_{\text{user}}, V_{\text{live}}, V_{\text{cross}}]\right), \\ \mathcal{L}_{\text{rank}} &= -\sum_{\text{xtr}\in\{\text{ctr,lvtr},...\}} \left[ y^{\text{xtr}} \log\hat{y}^{\text{xtr}} + (1-y^{\text{xtr}}) \log(1-\hat{y}^{\text{xtr}}) \right] \end{aligned} \tag{1}\]

其中 $\text{Rank}(\cdot)$ 是基于多层感知机(MLP)的网络,$\hat{y}^{\cdot}$ 表示模型预测分数,$\mathcal{L}{\text{rank}}$ 是由多个二元交叉熵损失组成的排序损失函数。本文中,我们的LiveForesighter专注于生成直播信息表示 $V{\text{livefore}}$ 以增强排序模型能力。

2.2 统计序列建模

尽管广泛使用的直播侧特征(如主播ID、直播类目ID等)能在一定程度上表征主播信息,但仍难以描述实时变化的直播内容并回答关键挑战:对于直播而言,何时是最佳分发时机?

通过观察发现,用户正向行为增长趋势可自适应地反映高光时刻。因此我们首先显式引入统计序列来注入此类行为趋势知识以增强直播侧信息。实践中,我们添加以下统计序列类别:

  • 直播间外信息:曝光量、观众数等
  • 转化信息:GMV值、订单数、礼物价值等
  • 互动信息:评论数、点赞数等
  • 直播间内信息:点击商品/购物车等

我们以30秒为间隔采集这些序列,形成 $S = {s_1,…,s_N} \in \mathbb{R}^{N \times T}$ 表示$N$个序列在$T$个时间步长的数据。具体地,每个序列 $s_i = [s_{i,1},…,s_{i,T}]$ 其中 $s_{i,j}$ 为整型统计值。我们使用 $S_{1:T-5} \in \mathbb{R}^{N \times (T-5)}$ 表示时间步索引在$[1,T-5]$范围内的完整序列。

受自监督序列生成[33]启发,我们通过序列生成任务使模型捕获序列变换模式(假设预测后续5步): \(\begin{aligned} \bar{S}_{1:T-5}, \bm{\mu}, \bm{\delta} &= \text{ReVIN}(S_{1:T-5}), \\ \bar{S}_{T-4:T}, E^{\text{Stat}}_{1:T-5} &= \text{StatisticTransformer}(\bar{S}_{1:T-5}), \\ \hat{S}_{T-4:T} &= \text{De-ReVIN}(\bar{S}_{T-4:T}, \bm{\mu}, \bm{\delta}), \\ \mathcal{L}_{\text{Statistic}} &= \text{MSE}(\hat{S}_{T-4:T}, S_{T-4:T}) \end{aligned} \tag{2}\)

其中 $\text{ReVIN}(\cdot)$ 和 $\text{De-ReVIN}(\cdot)$ 是序列归一化技术[17]($\bm{\mu} \in \mathbb{R}^N, \bm{\delta} \in \mathbb{R}^N$),$E_{1:T-5} \in \mathbb{R}^{N \times D}$ 为输入序列编码结果,$\hat{S}_{T-4:T} \in \mathbb{R}^{N \times 5}$ 为多步预测结果,$\text{MSE}(\cdot)$ 为反映预测精度的训练损失,$\text{StatisticTransformer}(\cdot)$ 表示任意Transformer风格序列编码方法。本文为简化实现,使用iTransform[21]作为$\text{StatisticTransformer}(\cdot)$。

通过优化 $\mathcal{L}_{\text{Stat}}$,模型可获得预测不同直播未来行为趋势的能力。在实时推荐中,我们利用完整当前行为趋势预测未来信息: \(\begin{aligned} \bar{S}_{5:T}, \bm{\mu}, \bm{\delta} &= \text{ReVIN}(S_{5:T}), \\ \bar{S}_{T:T+5}, E^{\text{Stat}}_{5:T} &= \text{StatisticTransformer}(\bar{S}_{5:T}), \\ \hat{S}_{T:T+5} &= \text{De-ReVIN}(\bar{S}_{T:T+5}, \bm{\mu}, \bm{\delta}), \\ V_{\text{livefore}} &\leftarrow \text{stop}\left(\text{flatten}(\hat{S}_{T:T+5}), \text{flatten}(E^{\text{Stat}}_{5:T})\right) \end{aligned} \tag{3}\)

其中 $\hat{S}{T:T+5}$ 表示未来用户行为趋势预测,$\text{flatten}(\cdot)$ 为重塑操作,$\text{stop}(\cdot)$ 为停止梯度操作。通过结合当前序列表示 $E^{\text{Stat}}{1:T}$ 和预测结果 $\bar{S}_{T:T+5}$,排序模型既能实时监测内容质量以检测直播是否处于正向增长趋势和高光时刻,也能感知未来趋势以确保直播在一段时间内保持高质量。

2.3 商品序列建模

除寻找高质量直播外,推荐系统的另一目标是促使用户赠送礼物或购买商品,这需要用户长时间深度关注直播内容。本节旨在回答另一挑战:除当前时刻外,未来内容是否符合用户兴趣?

由于主播在直播中具有”一致性风格”,我们可利用历史直播内容预测未来信息。本文聚焦于预测未来商品信息以增强电商直播推荐。实践中,我们收集直播历史售卖商品ID及对应类目信息,形成商品序列: \(I = \{[p_1,c^1_1,c^2_1,c^3_1],...,[p_T,c^1_T,c^2_T,c^3_T]\} \in \mathbb{R}^{T \times 4}\) 其中 $p_i$ 为商品ID,$c^1/c^2/c^3$ 为从粗到细的类目信息。考虑到时间成本和生成空间,我们仅生成下一商品的最细粒度类目信息以平衡效果与效率: \(\begin{aligned} \bar{I}_{1:T-1} &= \text{EmbeddingLookup}(I_{1:T-1}, P, C^1, C^2, C^3), \\ \hat{c}^3_T, E^{\text{Prod}}_{1:T-1} &= \text{ProductTransformer}(\bar{I}_{1:T-1}), \\ \mathcal{L}_{\text{Product}} &= \text{Softmax}(\hat{c}^3_T, c^3_T) \end{aligned} \tag{4}\)

其中 $P \in \mathbb{R}^{ p \times D}, C^1 \in \mathbb{R}^{50 \times D}, C^2 \in \mathbb{R}^{1000 \times D}, C^3 \in \mathbb{R}^{5000 \times D}$ 为可训练嵌入矩阵,$ p $ 表示商品总数,$\bar{I}{1:T-1} \in \mathbb{R}^{(T-1) \times 4D}$ 为下游Transformer的输入嵌入,$E{1:T-1} \in \mathbb{R}^{(T-1) \times D}$ 为序列编码结果,$\hat{c}^3_T \in \mathbb{R}^{5000}$ 为细粒度类目预测分布,$c^3_T \in \mathbb{R}$ 为真实标签。

通过优化 $\mathcal{L}_{\text{Product}}$,LiveForesighter可捕获商品间潜在关联。随后利用最新商品信息预测未来商品类目: \(\begin{aligned} \bar{I}_{2:T} &= \text{EmbeddingLookup}(I_{2:T}, P, C^1, C^2, C^3), \\ \hat{c}^3_{T+1}, E^{\text{Prod}}_{2:T} &= \text{ProductTransformer}(\bar{I}_{2:T}), \\ V_{\text{livefore}} &\leftarrow \text{stop}(\hat{c}^3_{T+1}) \cdot \tilde{C}^3 \oplus \text{stop}(\text{flatten}(E^{\text{Prod}}_{2:T})) \end{aligned} \tag{5}\)

其中 $\hat{c}^3{T+1} \in \mathbb{R}^{5000}$ 为预测的下个商品类目信息,$\tilde{C}^3 \in \mathbb{R}^{5000 \times D}$ 为排序模型可训练参数矩阵。通过结合当前序列表示 $E^{\text{Prod}}{1:T}$ 和预测结果 $\hat{c}^3_{T+1}$,排序模型不仅能判断用户当前是否喜爱直播,还能预测其未来是否会持续感兴趣。LiveForesighter整体框架如图3所示。

图片名称

图3

实验

https://arxiv.org/pdf/2502.06557

kuaishou直播团队在《Moment&Cross: Next-Generation Real-Time Cross-Domain CTR Prediction for Live-Streaming Recommendation at Kuaishou》提出了它们的直播推荐:

摘要

快手作为全球领先的短视频与直播平台之一,其直播推荐(Live-Streaming Recommendation)相较于短视频推荐更为复杂,主要体现在:

  • (1) 内容具有瞬时性
  • (2) 用户可能长时间观看导致反馈延迟
  • (3) 直播内容不可预测且动态变化

事实上,即使用户对主播(live-streaming author)感兴趣,也可能因实时内容吸引力不足而产生消极观看行为(如观看时长<3秒)。因此,直播推荐面临核心挑战:如何为用户推荐恰逢其时的直播内容?

此外,平台主要曝光内容为短视频,其曝光量级是直播的9倍。这导致用户行为数据严重倾向于短视频,使得直播数据难以完整反映用户兴趣。由此衍生第二项挑战:如何利用短视频行为数据优化直播推荐?

针对第一项挑战,我们通过数据分析发现了一个有趣现象:当直播进入高光时刻(如舞蹈片段),点击率(CTR)会显著攀升。受此启发,我们认为可通过群体用户对当前直播片段的实时行为数据,自动识别”高光时刻”。因此,我们致力于让模型快速感知实时行为,从而识别处于CTR上升阶段的直播。为实现这一目标,我们升级了数据流引擎至30秒实时上报机制,并设计了创新的首帧掩码学习策略(first-only mask learning strategy)来监督我们的模型:Moment)。

针对第二项挑战,我们主要基于搜索式兴趣建模思路:先通过通用搜索单元(GSUs)检索用户历史短视频/直播行为,再利用压缩搜索单元(ESUs)进行特征提炼。此外,引入对比学习目标对齐短视频与直播的嵌入空间以增强关联性(Cross)。通过大量离在线实验与消融研究,我们验证了Moment&Cross框架的有效性。

1 引言

近年来,快手、抖音等短视频与直播平台快速发展,吸引了大量用户并积累了庞大的活跃用户群体。在快手平台上,用户主要通过滑动页(slide page)浏览内容——系统会根据用户的上下滑动行为自动播放推荐内容。因此,强大的推荐系统(RecSys)[9, 10] 是服务的基础,它直接影响用户体验,决定用户接下来观看什么内容。

相较于已被广泛研究的短视频推荐 [29, 31, 34, 39],直播推荐 [25] 更具挑战性,主要源于其媒介特性:

  1. 瞬时生命周期:短视频可长期分发,而直播内容具有临时性(平均1小时)。
  2. 长反馈延迟(Longterm feedback delay) [2]:短视频平均时长约55秒,用户行为可快速上报并用于模型训练;而直播时长较长,部分高价值反馈(如用户购买虚拟礼物)可能延迟半小时才发生。
  3. 动态内容变化 [30]:短视频始终从0秒播放,而直播内容实时变化,用户在不同时间点进入直播间可能产生截然不同的行为。

因此,直播推荐系统需解决一个关键问题:如何为用户推荐恰逢其时的直播内容? 我们通过图1中的两个案例说明:

图片名称

图1 介于“高光时刻”、实时观众和点击率趋势之间的典型的直播模式

  • 才艺直播(talent show):主播大部分时间与观众聊天或PK,偶尔展示才艺(如舞蹈)。数据分析显示,高光时刻(如才艺展示)的用户进入率显著提升,结束后则快速下降。
  • 游戏直播:主播逐局进行比赛,实时观众数随比赛进程累积,比赛结束时骤降。

实际上,无论创作者属于何种类型,用户点击直播的动机往往是:为了观看高光时刻。但由于直播内容瞬息万变,准确预判哪些直播间即将出现高光时刻并非易事。值得庆幸的是,基于海量用户实时行为数据,我们可能找到自动识别”高光时刻”的潜在解决方案:如图1所示,CTR趋势曲线与用户点击行为呈现高度同步性(波峰波谷完全对应)。这意味着,如果模型能够捕捉CTR的上升趋势,就能通过大量用户正向反馈自动发现潜在的高光时刻。

除了高光时刻捕捉的挑战外,我们的直播模型还面临更严峻的问题:数据稀疏性。在滑动页面上,用户通过上下滑动屏幕可以交替观看短视频和直播内容。然而该页面约90%的曝光内容为短视频,导致直播推荐系统存在无法充分学习用户兴趣以进行精准CTR预测的风险。由此引出一个关键问题:如何利用用户丰富的短视频行为来优化直播推荐?

为解决这个问题,我们首先说明系统架构的工作流程(如图2所示)。工业实践中,不同业务线独立部署——例如用户的短视频实时交互行为(长观看、点赞等)仅由短视频数据流引擎汇总并组织成特定训练样本格式,短视频模型通过消费该数据流来拟合实时数据分布以实现精准推荐。由于不同数据流引擎生成的训练样本格式各异,直播模型只能通过用户的直播数据流进行监督训练。

虽然无法直接消费短视频数据流,但我们已构建历史存储服务来保存用户交互日志[8,13]。数据流引擎可通过请求获取用户在其他业务线的交互历史,将其整合为输入特征的一部分。通过这种方式,我们实现了直播与短视频嵌入空间的对齐,使模型能根据用户的短视频兴趣偏好,推荐风格相似的直播内容。

图片名称

图2 快手短视频与直播服务的Slide页面推荐系统架构中,各业务采用独立的数据流与模型体系。系统仅能通过调用”交互日志”存储服务来追溯用户历史短视频行为,以此挖掘关联的小众内容项,作为获取跨业务用户日志的唯一途径。

本文提出高效解决方案Moment&Cross,旨在构建下一代直播推荐框架。针对首个挑战,我们的目标是:使直播模型能够感知哪些直播间存在点击率(CTR)上升趋势。为此,需要实时利用用户行为数据快速训练模型,以捕捉每个直播间的实时CTR状态。如图2所示,CTR信号首先上报至直播数据流引擎,再输入模型。但如同多数工业级推荐系统,上报模块需等待约5分钟收集足够行为数据后批量上报。虽然快手直播服务多年来一直采用5分钟固定窗口的数据流机制,但这种延迟已无法满足实时捕捉CTR趋势的需求。为此,我们将训练框架从”快慢上报”升级为”30秒实时上报“,并设计名为Moment的新型首曝掩码学习策略进行模型监督。

针对第二个挑战,我们致力于挖掘用户历史短视频序列并将其嵌入空间与直播内容对齐。由于用户短视频历史过长(例如活跃用户单月观看量可达万级),我们主要采用级联搜索式兴趣建模框架:

  • (1)通过通用搜索单元(GSU)回溯用户全生命周期历史,筛选获取百量级相关项序列;
  • (2)设计精确搜索单元(ESU)压缩序列信息获取用户兴趣,如序列池化、目标项注意力等机制。

此外,引入对比学习目标对齐短视频与直播的嵌入空间以增强关联性,使模型能根据用户丰富的短视频交互历史推荐风格相近的直播内容,该模块命名为Cross。本文主要贡献如下:

  • 我们提出了一种创新的实时学习框架,旨在自动发现”高光时刻”直播内容,从而构建下一代直播推荐系统:
  • 首创实时学习框架:开发了能自动识别直播高光时刻的新型算法架构
  • 设计高效迁移技术:通过简洁而有效的技术方案,实现用户短视频兴趣向直播推荐的迁移
  • 验证系统有效性:通过大量离线与在线实验验证Moment&Cross框架,目前已在快手直播服务中部署,为4亿用户提供服务

2 快手直播中的Moment&Cross框架

工业级CTR预测模型[14]的训练过程包含两个核心组件:

  • (1)用于组织训练样本特征与标签的数据流引擎,
  • (2)基于多任务学习[23]的模型架构(用于拟合点击、点赞、长观看等真实交互行为)。

在本节中,我们将:

  • 首先回顾原有5分钟快慢(Fast-Slow)直播数据流引擎构建与CTR模型学习范式的总体框架,
  • 继而介绍新型30秒实时数据流引擎及其首创的首曝掩码学习策略
  • 最后阐述我们用于捕捉用户长短期短视频交互模式的跨域技术方案

2.1 基础架构:5分钟快慢窗口数据流

数据流引擎作为工业级推荐系统的基础组件,其原始实现方案是:在用户完成内容消费(如观看并滑动至下一个短视频、听完一首歌曲)后收集行为日志进行上报。这种方案对短视频服务已足够”实时”——由于用户平均在1分钟内就会离开当前短视频,所有交互反馈都能快速收集完成。然而在直播场景中,用户可能持续观看较长时间(如30分钟甚至80分钟),若仍采用退出时统一收集的机制,将导致模型训练无法达到足够的实时性。

为此,当前主流直播数据流引擎普遍采用固定时间窗口(如5分钟)的模式来上报和组装训练样本特征与标签。但直播服务的一个显著特点是:不同类型用户行为的时间分布差异极大,某些高价值交互(如观看半小时后打赏主播)很难在小时间窗口内被观测到。如图3所示,我们通过快慢窗口(fast-slow windows)混合机制实现平衡:快窗口负责上报所有交互实现快速训练,慢窗口则补报快窗口中未观测到的正样本

图片名称

图3 该报告对比了快慢双流(5分钟&1小时数据流)与实时30秒数据流在生成训练样本时的差异。我们仅展示最基础的样本格式(用户、直播间、点击、长观、点赞、评论、打赏)。具体而言:在快慢双流机制中,快流上报5分钟窗口内观测到的全量用户行为,慢流补充上报5分钟窗口未捕获但1小时窗口内观测到的正向行为;而在实时数据流中,我们每30秒立即上报用户首次正向行为,并在用户退出直播间时上报所有负向行为。根据样本上报的指示性关联关系,实时数据流能极速生成训练样本,从而助力模型实时捕捉直播间点击率上升趋势。

根据统计数据,大部分用户观看时长不超过1小时。因此我们将用户观看过程划分为三个监测周期来指导模型训练:

  • 快窗口(5分钟):上报所有观测到的正负样本,保障训练时效性;
  • 慢窗口(1小时)仅补报快窗口中遗漏的正样本,修正标签偏差;
  • 忽略窗口:超时后不再上报任何标签

该方案虽能缓解长尾行为缺失问题,但5分钟延迟仍不足以捕捉直播高光时刻的CTR瞬变。例如,才艺表演的高点击率可能在1分钟内达到峰值,而传统引擎需等待多个窗口周期才能响应。

2.2 理论基础:基于正样本未标注学习的CTR模型训练

广义而言,点击率预测(CTR)模型[36]位于推荐系统(RecSys)[26]的最终环节,用于对每个用户最相关的数十个物品进行排序,因此也被称为全排序模型(fullrank)[38]。实际上,全排序模型不仅要预测用户点击候选物品的概率(即CTR),还需同时预测:

  • 长观看概率(LVTR: long-view)
  • 点赞概率(LTR: like)
  • 评论概率(CMTR: comment)
  • 其他XTR指标

基于这些预测概率,我们可以设计复杂的加权计算规则,通过综合这些概率值来控制物品的最终排序得分。

通常,全排序模型的学习过程被建模为一个多任务[33]二分类问题,其目标是基于数据流训练样本学习预测函数 $f_\theta(\cdot)$。每个样本包含:

  • 用户/物品ID
  • 原始特征 $V$
  • 多个二元标签(表示行为是否发生): $y^{ctr} \in \lbrace0,1\rbrace, \quad y^{lvtr} \in \lbrace0,1\rbrace, \quad y^{ltr} \in \lbrace0,1\rbrace, \quad y^{cmtr} \in \lbrace0,1\rbrace$

具体而言,原始特征 $V$ 主要分为四类:

  • 用户/物品ID
  • 统计/分类特征
  • 历史交互序列
  • 基于预训练LLM的多模态[1,4]嵌入

这些特征通过投影转换为低维嵌入向量:

\[V = [v_1, v_2, \dots, v_n]\]

其中:

  • n 表示特征数量

在我们的直播场景模型中,人工设计了 $n > 400$ 维原始特征来表征用户、物品及上下文状态。基于输入样本特征和标签,模型学习过程可形式化为:

\[\widehat{y}^{ctr}, \widehat{y}^{lvtr}, \widehat{y}^{ltr}, \dots = f_\theta([v_1, v_2, \dots, v_n]) \quad (1)\]

其中:

  • $\widehat{y}^{ctr}$、$\widehat{y}^{lvtr}$、$\widehat{y}^{ltr}$ 等表示模型预测的概率值
  • $f_\theta(\cdot)$ 是一个多任务学习模块,可采用 MMoE[22] 或 PLE[28] 等架构实现。

接着,我们利用用户的真实行为数据监督模型训练,以优化模型参数。

对于快速数据流(5分钟延迟样本),它会上报所有观测到的正label和负label,因此采用标准的负对数似然loss进行训练:

\[L_{fast} = -\sum_{xtr \in \{ctr, \dots\}} \left[ y^{xtr} \log(\widehat{y}^{xtr}) + (1 - y^{xtr}) \log(1 - \widehat{y}^{xtr}) \right] \quad (2)\]

对于慢速数据流(1小时延迟样本),它仅上报缺失的正标签(即未被及时记录的正样本),掩码掉其他一致的正标签。因此,我们采用 正-无标记损失(Positive-Unlabeled Loss)[11,18,19] 来修正历史数据中因延迟上报导致的“伪负样本(false negative)”误差梯度:

\[L_{slow} = -\sum_{xtr \in missing} \left[ \log(\widehat{y}^{xtr}) - \log(1 - \widehat{y}^{xtr}) \right]\]

其中:

  • $missing$ 表示仅在1小时时间窗口内观测到的正样本标签

通过结合这两种损失函数 $L_{fast}$ 和 $L_{slow}$,我们的模型在直播推荐服务中实现了效果与效率的平衡训练。当模型收敛后,可将其部署为在线全排序模型,用于实时响应用户请求并选取最高分物品,计算方式如下:

\[Ranking\_Score = (1 + \widehat{y}^{ctr})^\alpha * (1 + \widehat{y}^{lvtr})^\beta * (1 + \widehat{y}^{ltr})^\gamma * ...\]

其中:

  • $\alpha,\beta,\gamma$为调节各行为权重的超参数。

2.3 Moment:实时30秒数据流(Real-time 30s)与首标签掩码学习机制(First-Only Label-Mask Learning)

如我们先前版本所示,这种结合5分钟快速数据流与1小时慢速数据流的正-无标记学习框架已在直播场景中迭代多年,是一个稳定可靠且经过验证的成熟学习框架。尽管效果显著,该框架仍存在若干局限性:

  • 固定时间窗口的覆盖不足:较小的固定窗口(1小时)不可避免地会遗漏部分高价值正样本(如礼物打赏行为)。表1展示了5分钟快速流与1小时慢速流在主要行为(点击、点赞等)上的标签一致性对比,数据显示稀疏行为(尤其是礼物及礼物金额)的标签覆盖率显著偏低。
  • 实时性瓶颈:即使5分钟的快速窗口仍无法满足实时性需求,难以捕捉CTR上升趋势以解决核心挑战:如何为用户推荐”高光时刻”的直播内容?

图片名称

表1 5-Min&1-Hour数据流的标签一致性

为此,我们已将训练框架从”快慢双流”升级为”30秒实时上报“机制,使模型能够近乎实时感知所有用户行为。理想情况下,当直播进入”高光时刻”时,短时间内会产生大量正样本梯度来优化模型参数,从而使模型能够:

  • 动态识别CTR处于上升趋势的直播间
  • 即时提升该直播间的在线CTR预测分数
  • 推动内容推荐给更多观看用户

然而,30秒的极短窗口可能带来与前面提到的数据流的不匹配风险:

  • 伪负样本(FN):与5分钟固定窗口相比,如果我们在用户观看30秒后上报所有正负行为,会引入大量“伪负样本(FN)”标签,因为部分行为是延迟发生而非未发生。
  • 频繁上报:相较于快慢双通道(5分钟&1小时)数据流对每种行为仅上报一次正样本标签,我们的30秒实时流可能多次上报同一行为(例如用户可能多次评论)。
  • 行为割裂:30秒实时数据流可能按时间顺序将同一行为的正样本标签拆分到多个训练样本中。这种方式下,早期正行为(如点击和长观看)更新的梯度可能影响后续正行为(如点赞或评论)的预测,导致模型参数被两次更新,从而高估后续行为的预测概率。

为解决伪负样本问题,受慢速1小时数据流中掩码标签(mask label)思路启发,我们设计了以下上报机制:

  • 正样本标签立即上报
  • 负样本标签仅在用户退出直播时上报

实验表明:尽管上报窗口大幅缩短(从5分钟→30秒),但数据量并未显著增加(约为快慢双通道数据流的2倍),因为新增样本主要依赖稀疏的互动行为(如点赞、评论、送礼)。

针对频繁上报问题,我们进一步引入首次正样本掩码策略(first-only mask),即仅学习每种行为的首次正样本,以保持与原有数据流的学习规则一致。因此,Moment模型的首次掩码学习可表示为:

\[L_{moment} = -\sum\limits_{first,exit}^{xtr} \Big[ y^{xtr} \log(\widehat{y}_{xtr}) + (1 - y^{xtr}) \log(1 - \widehat{y}^{xtr}) \Big]\]

…(5)

其中:

  • $𝑓𝑖𝑟𝑠𝑡$ :表示每种行为的首个正标签(其余标签被掩码)
  • $𝑒𝑥𝑖𝑡$ :表示用户退出直播时其他行为的正/负标签

在标签掩码设置下,我们可以用公式(5)替代公式(2)和(3)来支持模型训练,同时避免长期反馈延迟问题。对于超出风险阈值的交互行为,我们未观测到该现象,推测原因是:模型参数优化旨在拟合全体用户数据分布,难以对特定用户的直播模式过拟合。快慢数据流与30秒实时数据流的差异报告如图3所示。

2.4 Cross跨域方案:短视频兴趣迁移

在我们的模型部署页面中,曝光内容约90%为短视频,10%为直播。由于流量分布不均,我们必须解决以下挑战:如何利用用户的短视频行为优化直播推荐?

如图2所示,不同业务模型仅允许使用自身的训练数据流,因此我们的直播模型只能通过用户的直播行为进行监督训练。但幸运的是,我们已构建历史存储服务来保存用户交互日志,数据流引擎可向其他业务发起请求,获取用户历史交互记录,并将其整合为输入特征的一部分。

具体而言,在“交互日志”中,我们可以回溯用户最近观看的10,000条内容ID,并获取辅助信息(如时间间隔、内容多模态标签、标注等)。为建模此类长序列,业界常用方案是两级级联的“搜索-提取”方法[9,24,27]:

  • 通用搜索单元(GSUs):检索用户历史行为,筛选出数百条相关内容的序列;
  • 精确搜索单元(ESUs):聚合序列信息以压缩用户兴趣,例如通过序列池化(sequence pooling)或目标项注意力机制(target-item-attention)。

在实现中,我们引入多个GSU模块,从多维度搜索与目标直播候选相关的短视频交互行为,包括:

  • 最新短期短视频GSU:检索用户最近的数百条短视频交互行为$V_{short}$,精准反应用户的短期兴趣点。
  • 点积搜索长期短视频GSU:通过向量点积检索与直播候选内容嵌入相似度最高的短视频(记为$V_{long}$),判断用户对此类直播的偏好。
  • 作者ID硬搜索短视频GSU:检索用户历史中与目标直播作者ID相同的短视频(记为$V_{aidhard}$),直接反应用户对该作者的偏好。
  • 点积搜索长期直播GSU:获取$V_{livelong}$,通过相似短视频行为推断用户对此类直播的潜在兴趣。
  • 长观看行为混合GSU:基于用户长观看行为(如完整播放)硬搜索,生成直播与短视频的混合序列$V_{mixed}$。

(为简洁起见,我们使用以下符号表示不同的GSU序列嵌入:$V_{short} \in \mathbb{R}^{L \times D}$、$V_{long} \in \mathbb{R}^{L \times D}$、$V_{aidhard} \in \mathbb{R}^{L \times D}$、$V_{livelong} \in \mathbb{R}^{L \times D}$ 和 $V_{mixed} \in \mathbb{R}^{L \times D}$,其中$L$为序列长度。在获得序列嵌入后,我们首先通过对比学习目标对齐其嵌入空间:

\[\begin{aligned} \mathcal{L}_{cl}^{short} &= \text{Contrastive}\left( L_2(\text{Mean}(V_{mixed})),\ L_2(\text{Mean}(V_{short})) \right) \\ \mathcal{L}_{cl}^{long} &= \text{Contrastive}\left( L_2(\text{Mean}(V_{mixed})),\ L_2(\text{Mean}(V_{long})) \right) \\ \mathcal{L}_{cl}^{aidhard} &= \text{Contrastive}\left( L_2(\text{Mean}(V_{mixed})),\ L_2(\text{Mean}(V_{aidhard})) \right) \\ \mathcal{L}_{cl}^{livelong} &= \text{Contrastive}\left( L_2(\text{Mean}(V_{mixed})),\ L_2(\text{Mean}(V_{livelong})) \right) \end{aligned} \tag{6}\]

其中:

  • $\text{Mean}(\cdot): \mathbb{R}^{L \times D} \to \mathbb{R}^{D}$是压缩序列表示的简单池化函数,
  • $L_2(\cdot)$表示L2归一化函数,
  • $\text{Contrastive}(\cdot, \cdot)$是通过批内采样收集负样本的对比函数。

受C2DSR启发,我们发现混合的直播&短视频序列因其与其他序列存在部分相似性但非完全相同的特性,可作为对齐其他序列的基石。

随后,我们通过ESU模块执行目标项注意力机制,根据目标直播候选嵌入$V_{live}$实现细粒度兴趣提取:

\[V_{\cdot}^{ESU} = \text{target-item-attention}(V_{live}W^q,\ V {\cdot}W^k,\ V {\cdot} W^v) \tag{7}\]

其中:

  • $V_{live}$表示训练样本的所有直播侧特征(例如物品标签、直播间ID、作者ID等)

在获得增强的跨域短视频兴趣表示后,我们将其拼接以估计每个交互概率,如图中所示。

4.3 实验

本节中,我们在快手直播服务平台上进行了详细的离线实验和在线A/B测试,以评估提出的方法 Moment&Cross

4.3.1 基线模型与评估指标

如图4所示,在工业级排序模型中,多门混合专家模型(Multi-gate Mixture-of-Experts) 在估计多种交互概率中起关键作用,其常见实现包括MMoE [22]、CGC [28]、PLE [28]、AdaTT [20] 等。本文选择代表性的多任务学习方法CGC和PLE验证方案有效性。我们通过离线指标AUC和GAUC [37](用户分组AUC)评估模型排序质量,并在模型收敛后将其部署至快手和快手极速版的在线A/B测试平台,通过核心指标(如观看时长、礼物价值等)验证效果。

4.3.2 整体性能

表2展示了Moment和Cross模块的独立性能。具体而言,快手每日需处理数十亿请求,AUC和GAUC的0.10%离线提升足以带来显著在线收益。实验结果如下:

图片名称

表2

  • (1)实时数据流有效性验证
    我们实现两种多任务变体:PLE(Moment&Cross) 和 CGC(Moment&Cross),其中PLE是CGC的双层堆叠版本,也是实际部署的在线模型。表2显示,PLE变体较CGC变体性能更优,表明实时数据流可无缝支持其他模型,并通过首样本标签掩码学习策略提升效果。
  • (2)跨域短视频兴趣有效性验证
    通过消融实验逐步移除各GSU序列(如无短期短视频序列的Cross),发现:
    1. 所有Cross变体均显著性能下降,表明用户历史短视频或直播序列能增强兴趣捕捉能力;
    2. 相较直播序列,短视频序列(如短期序列$V_{short}$)对直播排序模型的预测信息贡献更大(提升0.9%),可能因用户90%的观看内容为短视频,其兴趣点更易通过短视频历史序列反映。

4.3.3 在线A/B测试

为量化Moment&Cross对直播服务的贡献,我们在快手和快手极速版进行在线测试,评估核心指标(如观看时长、礼物价值、点击率等)。表3展示了Moment和Cross的独立在线结果,并细分低/中/高付费用户群体验证跨域兴趣迁移效果:

图片名称

表3

  • Moment模块:实时训练模型在点击率(+1.63%/+0.64%)和观看时长(+4.13%/+1.85%)上提升显著,但礼物数量轻微下降(-0.55%/-1.22%),因礼物指标本身波动性较大且处于系统合理范围内。
  • Cross模块:观看时长(+2.27%/+2.48%)和礼物价值(+6.91%/+8.91%)提升显著,且低付费用户增长最明显,表明跨域兴趣迁移能有效缓解数据稀疏问题。

4.3.4 案例分析

本节通过三个案例说明Moment&Cross的实际影响:

  1. 高光时刻捕捉(图5(a)):
    滑动页可更多推荐“才艺主播的高光片段”,表明基于30秒实时数据流和掩码学习的范式能精准捕捉CTR上升趋势,提升用户体验并助力主播曝光。
  2. 跨域兴趣迁移(图5(b)):
    系统可为长期观看钓鱼短视频的用户推荐户外钓鱼直播。由于钓鱼直播属小众类别,缺乏短视频信号时难以有效推荐。
  3. 用户激活效果(表4):
    将用户分为低/中/高/全活跃群体,发现低活跃群体的点击、长观、点赞等指标提升最显著,表明跨域兴趣迁移能有效挖掘直播服务的潜在用户。

图片名称

表4:短视频兴趣对不同用户群体的影响

4 相关工作

近年来,直播已成为一种时尚现象,大量专业创作者通过直播媒体与观众互动。与传统推荐场景(连接用户与物品)不同,直播推荐旨在将用户与其感兴趣的主播进行匹配。相关研究进展包括:

  • 用户-主播关系建模:开创性工作LiveRec [25]通过自注意力机制建模用户-主播的重复消费关系;[12]提出损失重加权策略,根据观看时长动态调整损失权重。
  • 多模态信息融合:MTA [30]和ContentCTR [16]引入多模态组件融合文本、图像帧信息;Sliver [21]设计重推荐机制捕捉直播动态变化。
  • 图表示学习扩展:MMBee [17]通过图表示学习与元路径行为扩展策略,丰富用户与物品的多跳邻域信息。
  • 跨域信号利用:DIAGAE [35]通过直播域用户表征对齐其他富服务域表征;eLiveRec [32]针对电商直播推荐设计解耦编码器,分离用户对直播与商品的共享意图和直播特有意图。

与现有工作的区别
本文提出的Moment&Cross聚焦于解决两个核心问题:

  1. 时机感知推荐:如何为用户在合适时机推荐直播内容?
  2. 跨域兴趣迁移:如何利用丰富的短视频行为提升直播推荐效果?

方法创新性

  1. 数据流优化:升级实时数据流架构,提出”首样本标签掩码学习策略”(first-only mask learning),加速模型训练效率;
  2. 跨域框架设计:引入基于搜索的对比学习框架,通过对比目标挖掘跨域交互序列的关联性。

现有工作多关注静态特征或单域建模,而Moment&Cross通过动态数据流和跨域兴趣迁移,实现了对用户实时兴趣与跨域行为的联合建模,为直播推荐提供新的技术路径。 #

https://arxiv.org/pdf/2408.05709

清北研究者对于正负反馈,在用户者做了用户调研,并做了总结《Beyond Explicit and Implicit: How Users Provide Feedback to Shape Personalized Recommendation Content》,从用户的视角来看隐式反馈问题:

摘要

随着个性化推荐算法在社交媒体平台中变得不可或缺,用户越来越意识到他们影响推荐内容的能力。然而,关于用户如何通过其行为和平台机制提供反馈以塑造推荐内容的研究仍然有限。我们对34位算法驱动的社交媒体平台(如小红书、抖音)的活跃用户进行了半结构化访谈。除了显式和隐式反馈外,本研究还引入了有意隐式反馈,强调了用户通过感知到的反馈机制有意采取的行动来优化推荐内容。此外,研究发现反馈行为的选择与特定目的相一致。显式反馈主要用于定制信息流,而无意的隐式反馈则更多地与内容消费相关。有意的隐式反馈则被用于多种目的,特别是在增加内容多样性和提高推荐相关性方面。这项工作强调了显式-隐式反馈二分法中的用户意图维度,并为设计更能响应用户需求的个性化推荐反馈提供了见解。

1 引言

Ariela 是中国的一名设计专业本科生,同时也是一位热衷于社交媒体的用户。她对小红书上的个性化信息流着迷,这些信息流充满了时尚潮流、旅行建议和护肤产品,这些内容不仅引导她的购买决策,还帮助她探索新的兴趣爱好(见图1a和图1b,小红书用户界面)。随着每一次互动,平台似乎越来越了解她,持续推送符合她偏好的内容。与此同时,Ariela 使用抖音(中国版的 TikTok)在休息时进行轻松娱乐(见图1c,抖音用户界面)。她喜欢在抖音上观看短小有趣的视频。当算法推荐她不感兴趣的内容时,她会快速滑过,微妙地引导平台向她推送更多关于猫咪或搞笑短剧的内容

然而,Ariela 很快意识到,两个平台上的信息流曾经是多样化的,现在却变得重复,仅仅反映了她过去的选择。为了摆脱这种模式,Ariela 故意在小红书上搜索新的风格和趋势,或点击某些帖子的“不感兴趣”按钮,打破平台的常规推荐。而在抖音上,她会快速跳过她通常喜欢的视频,希望告诉平台推送一些不同的内容。

正如 Ariela 一样,我们越来越多地消费由社交媒体平台上的个性化推荐算法策划的内容,例如小红书、抖音等。这些算法旨在通过每一次点击、浏览或互动捕捉用户偏好,为每个用户创建一个档案,推荐不仅相关而且引人入胜的内容,从而吸引用户持续使用。用户通过民间理论(即“个人为解释技术系统的结果、影响或后果而发展的直观、非正式的理论”)形成对这些算法的理解,这些理论影响了他们与算法的互动方式。随着个性化推荐算法逐渐渗透到用户的线上和线下活动中,人们开始担心平台“窥探”他们的偏好,或将他们推入同质化的“回音室”或“信息茧房”。作为回应,用户开发了各种策略来影响推荐给他们的内容,例如不点赞、点击“不感兴趣”、搜索某些话题,或忽略他们喜欢的内容。这些策略基于一个假设,即用户的行为将被平台捕捉为对算法的反馈,从而影响未来的推荐

在系统工程的背景下,反馈已被广泛研究以提高信息检索和推荐系统的性能。这些系统依赖于显式和隐式反馈,这是现有文献中一个成熟的两分法:

  • 显式反馈是指用户为表达偏好而提供的直接输入,例如指定关键词、评分或回答有关兴趣的问题
  • 隐式反馈是指用户与系统的各种互动,例如浏览、选择、保存或转发内容,系统从中间接推断用户偏好

由于这两个概念都需要用户行为或互动作为输入,我们认为在个性化推荐平台上,用户策略性地利用他们的行为来塑造推荐信息流,构成了对系统的一种反馈形式。

事实上,用户对算法系统的策略性使用已经在人机交互(HCI)社区中得到了探索。例如,学者们研究了用户对算法的抵抗以及用户自主性。尽管这些研究强调了用户的意图和影响推荐信息流的潜力,但很少有研究将用户的感知与系统反馈机制联系起来。研究这种联系可以改进个性化推荐中的反馈设计。为了填补这一空白,我们的研究从一个更广泛的问题开始:用户如何通过他们的行为和平台机制提供反馈,以塑造和控制个性化推荐平台上呈现给他们的内容?

我们对34位个性化推荐平台(如小红书和抖音)的活跃用户进行了半结构化访谈。我们发现,用户采用了多种反馈机制来影响他们接收到的内容。这些机制从显式反馈(如将内容标记为“不感兴趣”)到隐式反馈(如点击和点赞),系统从中间接推断用户偏好。我们发现,传统的显式-隐式两分法未能完全捕捉到用户有意识地利用先前被归类为隐式反馈的行为来塑造推荐信息流的主动性。为了解决这一问题,我们将隐式反馈类别进一步划分为有意隐式反馈无意隐式反馈

与传统的隐式反馈作为被动或自然互动的理解不同,有意隐式反馈是指用户有意识地执行的行为,期望系统将其解释为他们偏好的信号。例如,快速跳过不喜欢的帖子,或故意点击感兴趣的帖子以获取更多相关内容的行为,在我们的研究中频繁出现。这些行为在以往的研究中被归类为隐式反馈,但其本质是明显有意的。同时,与显式反馈不同,有意隐式反馈允许用户在不直接表达偏好的情况下引导推荐。通过将意图维度引入两分法,我们强调了用户通过显式和隐式反馈行为主动参与塑造信息流的能力。通过识别有意隐式反馈,平台可以更准确地捕捉用户意图,并为用户提供更大的信息流控制感。

此外,我们发现用户的反馈行为与其目的密切相关。显式反馈主要用于信息流定制目标,例如减少不适当的内容和提高推荐相关性,而有意隐式反馈则在增加内容多样性和提高推荐相关性方面发挥了关键作用。无意隐式反馈则最常与内容消费相关。这些发现强调了在个性化推荐中更好地设计隐式反馈,并使反馈机制与用户的具体目的保持一致的必要性。

本研究的贡献如下:

  • 首先,研究提供了实证证据,展示了用户如何利用不同的反馈机制来实现他们在使用个性化推荐平台时的目的。
  • 其次,研究引入了有意隐式反馈的概念,扩展了传统的显式和隐式反馈两分法。有意隐式反馈捕捉了用户通过其行为影响算法及未来推荐信息流的意图。
  • 第三,研究为个性化推荐平台提供了设计启示,以支持更透明和目的导向的反馈机制。

2 相关工作

2.1 用户对个性化推荐的感知

个性化推荐平台利用算法根据用户的偏好和行为(如订阅、点击、喜欢与不喜欢、停留时间等)为用户定制内容 [1, 74, 84]。此前,推荐系统已广泛应用于搜索引擎、新闻消费和电子商务网站 [54, 68, 71]。在推荐算法的驱动下,推荐系统捕捉并分析用户的互动行为(如点击、购买或显式评分),以构建代表用户偏好和行为的用户模型。基于这些模型,协同过滤等推荐算法通过分析用户或物品之间的相似性,生成与每个用户档案匹配的个性化推荐 [85]。近年来,社交媒体平台越来越多地集成个性化推荐算法 [27],通过推送与用户偏好高度一致的内容来延长用户的参与时间,同时促进用户的内容创作和社交互动 [39, 72, 82]。

因此,个性化推荐算法逐渐在塑造用户所看到和了解的内容中扮演编辑角色 [26]。它们重塑了社交媒体中的内容消费 [7]、内容创作 [8, 14] 和在线社交 [19]。像抖音和小红书这样的平台在中国国内用户和国际受众(分别称为 TikTok 和 RedNote)中获得了极大的欢迎。这类平台允许用户直接与内容互动,并严重依赖算法来捕捉这些互动,而不仅仅依赖于账户关注,以优化个性化的图片或视频信息流 [11, 32, 47]。

然而,由于底层算法的不透明性 [26, 65],用户对个性化推荐平台的运作方式了解非常有限 [21]。这种理解的缺乏常常导致用户发展出“民间理论” [7, 15, 20, 62],以解释系统如何定制推送给他们的内容。例如,Klug 等人发现,TikTok 用户通常认为视频参与度、发布时间和标签的积累是影响平台算法推荐的关键因素 [47]。这些民间理论并非静态的,而是随着用户遇到新的经验和信息而不断演变,帮助他们更好地与算法系统互动 [14]。这些民间理论直接影响用户如何感知和与算法互动,基于此,用户会采取行动来控制算法,以改善内容个性化 [29] 或增加他们在社交媒体平台上的可见性 [8, 9]。内容创作者还会分享和讨论他们与算法的互动经验,即“算法八卦”,以共同优化他们的内容推广策略 [4]。

总之,个性化推荐平台重塑了用户在线消费、创建和分享内容的方式。然而,用户往往不清楚他们的互动行为是如何被平台处理的。随着用户形成“民间理论”来理解底层机制,探索用户如何与这些个性化推荐平台互动并提供反馈以塑造他们的推荐信息流变得至关重要,这也引出了文献综述的下一部分。

2.2 用户与推荐算法的策略性互动

用户越来越意识到他们的互动行为可能会影响算法,并进一步塑造他们的在线体验,有时甚至会让他们感到个性化推荐算法在“窥探”他们的想法 [18, 47]。这种意识导致了一系列用户行为,旨在“教导”、抵抗和重新利用算法 [43],以及个性化内容审核 [37]。

其中一些行为是微妙的内容修改操作,例如“伏地魔式操作”(即不提及某些词语或名称)和“截图”(即在不增加网站流量的情况下使内容可见)以控制他们的在线存在 [82],或者使用“算法语言”(即在创建或分享在线内容时故意更改或替换词语)以绕过算法审核 [48]。此外,用户花费大量时间和精力使用各种策略来对抗不想要的推荐内容 [64, 69],例如不点赞、点击“不感兴趣”、搜索新关键词 [43]、忽略他们喜欢的内容 [10],以及通过屏蔽特定关键词来配置个性化内容审核工具 [36]。一些研究挑战了那些加剧不平等和不公正的算法推荐和内容审核系统 [3, 40, 41, 70]。例如,TikTok 用户通过修改他们的互动行为(如关注用户和分享他们的内容)来影响他们的推荐信息流,使其与个人身份保持一致,并影响其他用户的信息流,以抵抗对边缘化社会身份的压制 [40]。他们还通过与特定标签和点赞互动来策划理想的“为你推荐”信息流,以应对感知到的不平等 [78]。为了避免社交媒体中的错误审核,用户使用编码语言或在感知到平台不成比例地删除边缘化用户身份相关内容时停止使用平台 [57],有时他们会在被“影子封禁”后选择切换账户 [55]。用户驱动的算法审计也被用来揭示有害的算法行为 [16, 75]。

因此,算法不仅通过用户与平台的有机互动来塑造,还通过用户策略性地尝试影响推荐信息流来塑造 [49]。例如,Haupt 等人将这一策略过程建模为一个两阶段的噪声信号博弈,用户首先在初始“冷启动”阶段策略性地消费呈现给他们的内容,以影响未来的推荐信息流,然后系统根据这些互动优化其建议,最终达到用户偏好被清晰区分的均衡状态 [29]。Taylor 和 Choi 扩展了人机互动的研究,指出用户注意到个性化并认为算法对他们的身份有响应,这进一步塑造了他们在平台上的互动和结果 [81]。一些研究还将用户有目的的操纵行为称为“游戏化”算法 [28, 67, 77]。内容创作者可能通过利用关系和模拟影响力来“玩可见性游戏”,以获得商业利益 [13]。虽然游戏化可能激发创新并发现现有平台的新用途 [2],但行为的策略性适应也可能被算法误解并降低其准确性 [10]。

这些研究表明,用户有意识地利用各种行为来影响算法并塑造他们的推荐信息流,这些行为受到他们对算法运作方式的感知或“民间理论”的指导。然而,很少有研究将这些用户感知与平台的底层反馈机制联系起来。理解用户的感知如何与算法的预期响应一致或分歧,以及它们如何相互作用以塑造推荐信息流,可以为个性化推荐系统的反馈设计改进提供参考。

3 研究方法

为了回答研究问题,我们对34位使用过个性化推荐平台(如小红书、抖音、快手和哔哩哔哩短视频)的用户进行了半结构化访谈研究。我们采用了归纳和演绎相结合的方法来分析数据。本研究已获得雪城大学机构审查委员会的批准,并遵循所有作者所在机构的伦理准则进行。

3.1 参与者招募

我们的目标是使用过个性化推荐平台的活跃用户。我们通过社交媒体平台、在线论坛和个人网络分发了预筛选问卷。入选标准包括:

  • (1)年满18岁;
  • (2)至少有六个月使用个性化推荐平台的经验

我们要求参与者自我报告他们常用的个性化推荐平台。预筛选问卷帮助我们选择了一组多样化的参与者,确保在性别、年龄、教育背景和日常使用模式上的差异。此外,我们采用了滚雪球抽样法,要求初始参与者推荐符合研究标准的其他用户。这种方法有效地覆盖了不同参与程度的用户,从主要消费内容的“潜水者”到积极发布和互动内容的“重度用户”。

我们总共招募了34名参与者:

  • 大多数参与者年龄在18-25岁之间(𝑛 = 25),女性参与者较多(𝑛 = 19)
  • 参与者报告使用了多个个性化推荐平台。抖音(𝑛 = 29,占参与者的85%)和小红书(𝑛 = 24,占参与者的71%)是最常用的平台;其他使用的平台包括哔哩哔哩短视频(𝑛 = 10)、快手(𝑛 = 7)和TikTok(𝑛 = 1)。这些平台都提供个性化推荐内容,包括短视频、图片和文本。小红书和抖音的主要界面如图1所示。快手的界面(见附录A中的图2a和图2b)与小红书类似,哔哩哔哩短视频的界面(见附录A中的图2c)则与抖音相似。
  • 参与者最常使用的平台的使用时长从不到一年到超过四年不等

根据报告,这些平台的大多数用户是35岁以下的年轻一代 [23, 56, 80],而小红书的用户中超过70%是女性 [23]。我们的参与者样本在年龄和性别分布上与这些平台的总体用户人口统计数据一致。更多参与者信息见附录C中的表5。

3.2 访谈流程

我们从2022年12月至2023年4月进行了半结构化访谈。每次访谈持续40至60分钟。访谈通过面对面或视频会议平台进行,以适应参与者的时间安排和地理位置。所有访谈均以普通话进行。参与者获得了25元人民币的补偿。参与者被告知他们可以随时退出研究而不会受到任何惩罚。

访谈协议旨在探索参与者与个性化推荐平台的互动。首先,我们询问了参与者的平台使用情况,包括他们使用的平台、感兴趣的内容以及与内容和平台的互动(如浏览、发布、点赞和搜索)。然后,我们询问了他们对个性化推荐和平台算法的理解与态度,以及平台使用的感知影响。特别是,我们深入探讨了参与者如何应对算法,例如他们管理内容曝光和内容偏好以及避免不想要内容的策略。最后,我们询问了他们对个性化推荐平台设计的总体建议

在访谈开始前,参与者被告知研究的目标和流程。每次访谈均在参与者同意的情况下进行录音,并详细记录关键点。录音被逐字转录并匿名化以供分析。

3.3 数据分析

我们对访谈数据进行了编码本主题分析 [5, 6]。首先,我们进行了归纳编码,允许主题从数据中自然浮现。然后,我们通过整合现有文献中的反馈概念进行了演绎分析,以进一步完善和应用编码。最后,我们进行了编码共现分析 [60],以探索用户反馈行为与平台互动目的之间的关系。

数据分析在MAXQDA上进行,编码本在研究人员之间共享以供讨论。所有访谈均以普通话进行分析,以保留原始细微差别和意义。选定的引述随后被翻译成英文以在本文中呈现。

归纳编码阶段,研究人员首先通读所有转录文本以熟悉数据,然后各自独立对转录文本的不同部分进行开放式编码,通过不断比较和备忘录记录使主题浮现 [59]。在此过程中,研究人员定期讨论以比较他们的编码并完善开放式编码方案。他们将编码综合为类别,并编写了初始编码本。类别包括:用户行为、互动目的、感知与态度、民间理论以及与算法互动的挑战。

过渡到演绎阶段,我们将编码结果与现有文献进行比较。我们发现,用户与算法的互动方式可以解释为用户向推荐系统提供反馈。根据现有文献,推荐系统反馈通常分为显式反馈和隐式反馈 [34, 35, 42]。显式反馈需要用户在其正常行为之外提供额外输入,例如评分和回答有关兴趣的问题,而隐式反馈则从用户与系统的自然互动中无干扰地得出,例如浏览、选择和转发 [42]。

我们观察到,在我们的研究中,参与者有意识地利用隐式反馈机制(例如点击帖子)向个性化推荐提供反馈。尽管一些塑造推荐信息流的策略性行为已在先前文献中记录 [10],但很少有研究将用户的感知与系统反馈机制联系起来。

通过与文献比较,我们完善了编码本。

  • 首先,我们缩小了重点,专注于两个编码类别:互动目的和用户行为。我们参考了文献中显式反馈和隐式反馈的既定类别 [34],对用户与系统的互动进行分类。
  • 然后,我们发现,在隐式反馈行为中,用户有意识地主动塑造推荐信息流,这与隐式反馈的原始定义相矛盾。

因此,我们将隐式反馈分为有意隐式反馈无意隐式反馈,以区分用户在隐式反馈行为中是否存在意图。总体而言,我们将用户的反馈行为分为三类:

  • 显式反馈:用户直接输入以表达其偏好或兴趣。
  • 有意隐式反馈:用户有意识地执行以影响推荐内容的行为,他们知道这些行为可能会被平台解释为推断其兴趣。
  • 无意隐式反馈:用户与平台的自然互动,没有任何刻意影响推荐内容的意图。

为了进一步理解和解释反馈行为,我们为每个识别出的行为映射了三个关键属性:

  • 特征(即支持反馈行为的特定平台功能,如“点赞”按钮或搜索框)、
  • 极性 [31, 35](即“正面”或“负面”反馈)
  • 最小范围 [63](即反馈应用的最小级别:“片段”、“对象”或“类别”)

我们仔细分析了所有提到的平台,以确定每个行为对应的功能,并根据参与者转录文本和平台功能的解释分配极性和范围。

然后,两名研究人员根据完善的编码本完成了演绎编码。对于前八份转录文本,他们独立编码并一起审查编码,以解决任何差异并相应地完善编码指南。这一迭代过程有助于确保解释的一致性。然后,他们独立编码了剩余的转录文本,每人负责13份。在此过程中,两名研究人员继续分享总结备忘录,并在每周与研究团队的讨论中解决任何歧义。

我们确定了反馈行为类型与平台互动目的(即内容消费、定向信息搜索、内容创作与推广以及信息流定制)以及特定信息流定制子目的之间的潜在相关模式。为了探索它们的关系,我们使用了编码共现分析。具体来说,我们识别了用户行为代码和用户目的代码在同一访谈片段中同时出现的实例。为了避免重复,我们使用MAXQDA对每个行为-目的共现实例在每位参与者中仅计数一次。例如,如果某个行为-目的共现在单个参与者的访谈中被多次提及,则仅计为该参与者的一个共现实例。然后,我们在三种反馈类型(即显式反馈、有意隐式反馈和无意隐式反馈)中汇总了这些共现实例。我们还对子目的(即提高推荐相关性、增加内容多样性、减少不适当内容和保护隐私)与用户反馈行为之间的共现进行了分析。值得注意的是,我们仅在有意隐式反馈和显式反馈中对子目的进行了计数,因为参与者未指定与四个子目的对应的无意隐式反馈行为。

4 研究发现

我们的分析揭示了三种用户反馈类型以及这些反馈如何与用户的目的相匹配。

  • 我们首先介绍三种反馈类型:显式反馈、有意隐式反馈和无意隐式反馈。
  • 然后,我们总结了用户与算法互动的四个目的:内容消费、定向信息搜索、内容创作与推广以及信息流定制。
  • 最后,我们展示了目的与所采用反馈类型之间的关系。

我们发现,显式反馈主要用于信息流定制,而有意隐式反馈在信息流定制中尤为关键,特别是在增加内容多样性和提高推荐相关性方面。无意隐式反馈则最常与内容消费和定向信息搜索相关。我们利用访谈数据来解释用户采用不同反馈类型以实现其目的的潜在动机。

4.1 个性化推荐内容的用户反馈类型

我们识别了六种显式反馈行为、九种有意隐式反馈行为和13种无意隐式反馈行为。正如在方法部分提到的,有意隐式反馈和无意隐式反馈的区别在于用户的行为是否有意向平台提供反馈。例如,用户可能出于欣赏而点赞帖子或关注用户,或者他们可能这样做是为了向算法传达他们的偏好。鉴于无意隐式反馈是平台常见且自然的使用方式,并且在大量先前研究中已被作为“隐式反馈”进行研究 [34, 42],本节我们重点解释显式反馈和有意隐式反馈。表1展示了这些行为及其对应的功能、极性、作用范围以及报告这些行为的参与者数量。附录B中的表4展示了无意隐式反馈的行为,包括创建、收藏和分享帖子、评论和查看评论、浏览个人主页、购买等。

4.1.1 显式反馈

在我们的分析中,显式反馈行为主要发生在对象范围内,并且都得到了特定平台功能的支持。最常用的显式反馈是:标记帖子为“不感兴趣”,共有21名参与者报告了这一行为。

  • 参与者将其用作负面反馈,以告知算法他们不希望在未来看到类似内容:P06表示这是“表达不喜欢的最直接和简单的方式,只需额外一步即可主动干预算法”。
  • 参与者提供了使用“不感兴趣”功能的各种原因,例如对帖子内容缺乏兴趣、广告以及内容质量差。有时,表达不感兴趣更多是在细粒度和微妙的内容层面上。例如,用户可能总体上喜欢时尚内容,但他们的品味差异很大,因此并非所有与时尚相关的帖子都对他们有吸引力(P08)。
  • 一些参与者强调了使用此功能减少同质化内容以获取多样化和吸引人的信息流的重要性。P13指出:“在将许多类似推荐标记为‘不感兴趣’后,可能会出现更多小众内容,使你的信息流更加多样化,并鼓励你在平台上花费更多时间。”尽管这一功能被广泛使用,但一些参与者发现平台并未有效或立即响应此反馈。
  • P12提到效果并不令人满意,因为“它停止推荐密切相关的内容,但继续推荐一些相关的内容”,这导致她减少了使用频率。与此同时,P08和P12观察到,通常需要多次尝试后,算法才会显著减少类似内容。P12推测平台需要一致的反馈才能逐步调整:“这不是一次性解决方案……我认为平台通过略微减少频率来测试你是否注意到,然后进一步减少。你需要持续提供反馈或明确表示你真的不喜欢这些内容,然后它才会逐渐调整。”(P12)

其他负面显式反馈包括屏蔽、举报和禁用个性化功能,这些行为使用频率较低:

  • 屏蔽是为了防止与特定用户的进一步互动,从而有效地从参与者的信息流中移除他们的内容。
  • 举报是为了将内容标记给平台的审核团队,表明该内容违反了社区准则。参与者只有在遇到强烈负面反应时才会选择屏蔽或举报,例如当内容具有冒犯性和不适当性时。
  • 与屏蔽和举报不同,屏蔽和举报针对特定对象(帖子或用户),而禁用个性化功能则在类别范围内传达整体不满

三名参与者曾尝试在小红书中禁用“个性化选项”功能,原因可能是隐私问题或为了避免平台过度学习他们的偏好而导致上瘾。然而,他们最终重新启用了该功能,因为发现非个性化信息流的相关性和吸引力大大降低。正如P01在禁用和重新启用个性化功能后反思的那样:

“禁用个性化后,我的小红书使用量显著下降,因为内容不再吸引我,所以我重新启用了个性化功能。重新启用后,我的观点发生了变化。我意识到启用个性化的好处在于它通过提供有针对性的推荐节省了大量时间,尤其是在搜索特定内容时。”(P01)

虽然大多数显式反馈是负面的,但参与者提到了两种正面显式反馈机制

  • 一种是使用标签在发布帖子时增加可见性,或关注感兴趣的内容。在小红书上,非内容创作者的用户可以收藏特定标签以关注更新并接收带有这些标签的推荐内容。然而,P09认为标签功能“主要有利于内容创作者增加流量,而不是观众”。她希望平台能够通过提供新帖通知,使收藏标签在类别层面上更有用,尤其是在小众领域。
  • 另一种正面显式反馈是订阅感兴趣的主题,这涉及选择偏好的内容类别或主题。这与关注单个用户或频道不同,因为它向平台传达了用户的总体兴趣,而不是订阅特定用户生成的内容。尽管平台允许后续编辑,但参与者要么没有注意到此功能,要么觉得没有必要进行更改。

4.1.2 有意隐式反馈

大多数有意隐式反馈行为是正面的。这些行为没有直接平台功能提示用户,主要依赖于用户自发提供反馈的意图。

忽略(在小红书中)或快速滑过(在抖音中)帖子,是20名参与者观察到的最常见的有意隐式反馈。忽略帖子是指故意不点击小红书推荐信息流中的某些帖子。参与者会“主动跳过”(P01, P07)、“过滤掉”(P04)或“不关注”(P11)他们不感兴趣的帖子。参与者通常将此行为与其相反行为——有意点击(一种正面反馈行为,14名参与者报告)结合使用。在抖音中快速滑过帖子是指快速跳过视频而不与之互动。作为一种负面反馈形式,以避免不感兴趣或同质化内容,一些参与者更喜欢忽略或快速滑过内容,而不是标记为“不感兴趣”,因为这种方式更高效且微妙。例如,P25认为某些内容是“现实世界的缩影”,不应被标记,即使这些内容对她个人没有吸引力,它们代表了社会和现实的多样性。P07认为,如果许多人将内容标记为“不感兴趣”,它可能无法到达需要它的人手中,因此她选择简单地滑过内容。P25和P07都使用忽略或滑过内容来传达微妙的负面反馈,因为标记“不感兴趣”会导致内容立即消失。尽管这种反馈很微妙,但参与者发现它相当有效。例如,P27说:“滑过是我处理不感兴趣视频的最快方式,平台会从这种行为中学习。”

另一种参与者常用的有意隐式反馈是发起新搜索。这是一种主动获取更有针对性的推荐内容的方法。参与者认为,搜索特定主题会促使算法更新他们的档案并推送更多相关内容。一些参与者还利用搜索或点击不相关的搜索推荐来寻求多样化内容或逃离“信息茧房”(P22, P29, P34)。P12表示,这可以被视为负面反馈,表明推荐信息流过于局限。她会“尝试发起一个新的搜索来覆盖压倒性的内容”,以告知平台向她展示其他内容。

尽管许多参与者观察到搜索反馈后推荐信息流的明显变化,但有时算法的响应可能不如预期那样准确或即时。例如,P12搜索了考试中心,但收到了各种与考试相关的帖子,例如好运仪式,她并不相信这些内容,但却引发了焦虑。P11强调了算法未能捕捉到她兴趣转变的问题:

“我非常喜欢《排球少年!!》,并多次搜索它。频繁的搜索和主页上相关内容的重复点击导致算法推送了大量《排球少年!!》的周边商品。但后来我转向了另一部动漫,系统仍然在我的信息流中充斥着《排球少年!!》的内容。即使我搜索了新动漫,平台仍然没有意识到我的兴趣已经转移。”(P11)

4.2 个性化推荐平台的使用目的

我们将用户与算法互动的动机分为以下几类:内容消费、定向信息搜索、内容创作与推广以及信息流定制。理解这些目的为解释反馈提供了背景,并有助于更好地调整推荐信息流以满足用户需求。

4.2.1 内容消费

所有参与者都报告的一个常见目的是消费推荐内容。这包括在小红书中无目的地浏览“探索”页面,或在抖音、快手或哔哩哔哩短视频的“为你推荐”页面中与连续的视频流互动。有时,这成为参与者日常习惯的一部分。例如,P09将小红书的探索页面用作“图书馆”,以获取与书法或绘画相关的创意灵感。当用户遇到他们觉得有趣或有用的内容时,他们会自然地采取进一步行动,例如与朋友分享、收藏或下载以备后用。相反,用户对推荐内容的不满(如感知到的低相关性或高度同质化)会引发信息流定制的目的。

4.2.2 定向信息搜索

另一个目的是更直接地搜索信息,例如搜索护肤技巧、食谱或旅行建议。这通常涉及验证和交叉检查信息,并根据内容的感知质量和真实性采取进一步行动,例如跨平台搜索或咨询朋友。其他几位参与者强调了个性化推荐平台上信息的即时性和相关性,指出他们现在较少依赖搜索引擎进行“日常查询”(P12)。例如,P12使用它来搜索可用的考试中心并比较其条件,她指出“平台提供了及时且有用的信息,而百度(中国搜索引擎)的结果往往过时或更官方。”

4.2.3 内容创作与推广

一些参与者分享了他们在这些平台上发布内容的经历,指出帖子能否获得广泛传播通常取决于他们对算法的理解以及他们能否有效利用它。忠实的发布者会密切关注他们的帖子流量并推测其背后的机制。例如,P14提到她的帖子浏览量有时会让她感到焦虑。她将流量有限归因于缺乏评论。P18提到策略性地使用标签和制作吸引人的标题以提高帖子的可见性。通过内容创作和推广,参与者更多地了解了算法。他们不仅利用这些知识作为内容创作者增加帖子的可见性,还作为内容消费者策划自己的推荐信息流。例如,P12观察到使用特定标签提高了她帖子的可见性。然后,她通过搜索这些标签来获取更多相关内容。

4.2.4 信息流定制

当用户对个性化推荐信息流不满意时,信息流定制的需求就会出现,从而引发用户采取有意识的行动来塑造他们的内容。我们的分析确定了信息流定制的四个具体目标:提高推荐相关性、增加内容多样性、减少不适当内容和保护隐私。

提高推荐相关性是最常见的目标,23名参与者报告了这一目标,他们主动采取行动以增加信息流中更相关和感兴趣的内容,或减少不感兴趣或无关的内容。特别是,参与者注意到,虽然算法最初很好地捕捉了他们的偏好,但当这些兴趣发生变化时,算法难以快速适应。这种算法响应的延迟要求用户不断引导算法以保持信息流的相关性和吸引力。

增加内容多样性由18名参与者报告,他们试图摆脱同质化内容,并通过更广泛的主题丰富他们的信息流。许多参与者对看到重复内容感到厌倦或烦恼。P15提到她不想再打开抖音,说:“我现在甚至感到浏览疲劳,经常觉得自己没有接触到任何新想法。”一些参与者担心,推荐内容与他们的个人偏好过于一致可能会缩小他们的视野或加剧极化观点。例如,P12觉得平台“故意试图取悦你,并希望你知道它在取悦你,这并不聪明,可能会让你陷入信息茧房。”P28说:“我们过去是让手机跟随我们的思想,但现在我们的思想跟随手机,所以结果不可避免地变得越来越狭窄。”这些担忧促使他们主动增加内容多样性。

减少不适当内容由11名参与者报告,当他们遇到引发强烈负面反应的内容时,他们会采取行动。这一目标主要是为了过滤掉广告或不适当和冒犯性的内容,以维持更愉快的在线环境。

保护隐私是一个较少报告的信息流定制目标。尽管许多参与者对平台侵犯隐私的行为(例如监控平台内与朋友分享的帖子、跟踪其他社交媒体上的对话,甚至窃听线下对话)表示反感和担忧,但只有两名参与者提到采取行动保护隐私。

4.3 用户目的与反馈类型的差异

在对参与者使用个性化推荐平台的目的进行分类后,我们进一步分析了这些目的与反馈类型之间的关系。我们通过编码共现分析将反馈类型映射到相应的目的。结果显示,所使用的反馈类型与目的高度相关。具体而言,有意隐式反馈显式反馈主要用于信息流定制,其中有意隐式反馈更多用于增加内容多样性和提高推荐相关性,而显式反馈则用于提高推荐相关性和减少不适当内容。无意隐式反馈则最常与内容消费相关。

4.3.1 反馈类型与一般目的的对应关系

表2展示了三种反馈类型与四个一般目的的频率分布。每位参与者可能报告了多种反馈行为及其对应的目的,因此总出现次数(𝑛 = 198)大于参与者人数。无意隐式反馈在不同目的中出现了105次,其次是有意隐式反馈(58次)和显式反馈(35次)。

总体而言,有意隐式反馈(75.9%,58次中的44次)和显式反馈(88.6%,35次中的31次)主要用于信息流定制,而无意隐式反馈(60%,105次中的63次)则最常与内容消费相关。

内容消费方面,63次实例强调了与平台的自然互动,例如点赞、分享或收藏帖子以表达欣赏或供未来参考。参与者还可能浏览内容创作者的个人主页、查看搜索提示或搜索更多信息以深入了解感兴趣的内容。例如,P18经常展开评论区以查看抖音提供的“热门搜索”,以快速找到关于帖子的解释或相关内容。所有这些自然行为随后会被算法视为无意隐式反馈,以优化推荐信息流。尽管参与者执行这些行为时并未报告有意影响算法,但一些参与者注意到算法已经对他们的行为做出了响应。P18注意到,当她在某人的个人主页停留时,平台开始推荐相关内容。

信息流定制方面,有意隐式反馈出现了44次,例如忽略或快速滑过帖子、点击帖子查看或发起搜索以塑造推荐信息流。例如,P27提到,在定制信息流时,他会花更多时间观看关于滑雪(新兴趣)而不是羽毛球(已知兴趣)的视频。此外,显式反馈出现了31次,例如将内容标记为“不感兴趣”或屏蔽内容,以主动干预算法。

定向信息搜索内容创作与推广方面,最常见的反馈行为分别是搜索信息和创建帖子。尽管在这些情况下,搜索和发布行为并非专门用于定制信息流,但系统仍将其解释为反馈并相应调整推荐内容。P11指出,在发布关于她最喜欢的偶像的帖子后,平台开始在她的信息流中推荐更多相关和流行的内容,尽管她的帖子本身并未引起太多关注。两名参与者提到明确使用标签进行内容推广。例如,P05在小红书上使用“笔记灵感”标签来提高帖子的可见性。

这些发现表明,当用户的意图是定制信息流时,反馈类型与他们在内容创作或消费等活动中的反馈类型存在明显差异。虽然信息流定制主要依赖于有意隐式反馈和显式反馈,其他目的则更多与无意隐式反馈相关。

4.3.2 特定信息流定制目的驱动的反馈类型

如表3所示,对于旨在提高推荐相关性的用户,有意隐式反馈(18次)和显式反馈(14次)都被频繁使用。忽略或快速滑过帖子是最常用的有意隐式反馈,而标记为“不感兴趣”则是最常见的显式反馈。P27断言,滑过内容已经有效地表达了不感兴趣,无需显式标记。P11解释说,她在这些反馈方法之间的选择取决于上下文和厌恶程度。她只会在“极度厌恶”推荐内容时使用标记为“不感兴趣”的选项。

“我之前没有搜索过《流浪地球》,但它仍然推荐给我。这可能是因为《流浪地球》最近很受欢迎,所以系统试图看看我是否感兴趣。如果我不关注,它们可能会消失。因此,对于这些探索性推荐,除非我极度厌恶,否则我通常只是滑过它们以获取一些新内容。”(P11)

如表3所示,当参与者试图增加内容多样性时,29次实例中有24次使用了有意隐式反馈,只有5次选择了显式反馈。主要的隐式反馈行为是发起新搜索。参与者发现,搜索某些主题会增加推荐信息流中相关内容的重要性,因此他们策略性地搜索新主题。正如P06推测的那样:“系统可能会根据该搜索更新您的用户档案或数据,然后开始推送与您新兴趣相关的内容。”

相比之下,12次实例中有10次选择了显式反馈来减少不适当内容。显式反馈被认为更快速、更直接地解决不适当内容问题。当参与者发现内容质量低劣、充满广告或令人不安时,他们倾向于将其标记为“不感兴趣”(P09和P16)。在遇到冒犯性的人身攻击或强烈不同意创作者观点的情况下,用户更有可能举报或屏蔽内容。

只有两名参与者提到他们通过显式禁用个性化选项来保护隐私。P01担心平台的数据收集和用户画像行为,决定关闭个性化功能以防止小红书利用他的互动建立详细的用户档案。P14表示,她尝试禁用个性化功能以保护隐私,但不确定“这是否真的有效”。

这些结果强调了用户的信息流定制目标及其对算法的理解如何驱动他们对个性化推荐平台的反馈类型选择。总体而言,参与者更多地依赖有意隐式反馈来增加内容多样性,而显式反馈则更常用于减少不适当内容。旨在提高推荐相关性的参与者则混合使用了隐式和显式反馈。与此同时,关注隐私保护的参与者采取了更被动的方式,很少使用反馈机制,这与旨在增加内容多样性的参与者积极使用有意隐式反馈形成鲜明对比。

6 结论

我们通过对34名小红书和抖音等平台上的活跃用户进行半结构化访谈,探讨了用户如何利用多样化的反馈机制来影响推荐信息流以实现特定目的。我们将各种用户反馈行为分为三类:显式反馈、有意隐式反馈和无意隐式反馈。我们还发现,用户选择的反馈类型与其目的密切相关。显式反馈主要用于信息流定制目标,例如减少不适当内容和提高推荐相关性,而有意隐式反馈在增加内容多样性和提高推荐相关性方面发挥了关键作用。无意隐式反馈则最常与内容消费相关。

本研究将意图维度引入传统的显式-隐式反馈二分法,并建议个性化推荐平台应更好地支持透明的有意隐式反馈和目的导向的反馈设计。通过更准确地捕捉用户的意图并提供灵活的反馈机制,平台可以增强用户的控制感和满意度,同时优化推荐系统的性能。未来的研究可以进一步探索用户反馈行为与算法响应之间的动态关系,以及如何通过设计创新来平衡个性化推荐与用户隐私保护之间的关系。

#

https://arxiv.org/pdf/2502.09869

kuaishou团队在《Unleashing the Potential of Two-Tower Models: Diffusion-Based Cross-Interaction for Large-Scale Matching》提出了使用diffusion的方法来做双塔模型:

摘要

双塔模型在工业规模的匹配阶段被广泛采用,覆盖了众多应用领域,例如内容推荐、广告系统和搜索引擎。该模型通过分离user和item表示,有效地处理大规模候选item筛选。然而,这种解耦网络也导致了对user和item表示之间潜在信息交互的忽视。当前最先进的(SOTA)方法包括添加一个浅层全连接层(例如,COLD),但其性能受限,且只能用于排序阶段。出于性能考虑,另一种方法尝试通过将历史正向交互信息视为输入特征(例如,DAT),从另一塔中捕获这些信息。后来的研究表明,这种方法获得的收益仍然有限,因为缺乏对下一次user意图的指导。为了解决上述挑战,我们在匹配范式中提出了一个“跨交互解耦架构”。该user塔架构利用扩散模块重建下一次正向意图表示,并采用混合注意力模块促进全面的跨交互。在生成下一次正向意图的过程中,我们通过显式提取user行为序列中的时间漂移,进一步提高了其重建的准确性。在两个真实世界数据集和一个工业数据集上的实验表明,我们的方法显著优于SOTA双塔模型,并且我们的扩散方法在重建item表示方面优于其他生成模型。

1 引言

推荐系统旨在通过推荐user感兴趣的内容,提升user体验和商业价值,从而促进user参与度和满意度。在工业场景中,如图1(a)所示,两阶段推荐系统被广泛用于在严格延迟要求下为user提供个性化内容。第一阶段称为匹配阶段,从大规模语料库中筛选出候选集。第二阶段称为排序阶段[1, 11],从中选择user可能感兴趣的最终结果。

图片名称

图1 现实世界中的两阶段推荐系统。(a) 两阶段架构包括匹配阶段和排序阶段,匹配阶段对大量item进行评分,而排序阶段则对较小的子集进一步优化评分。(b) 匹配和排序方法在准确性和效率上的直观展示,其中所提出的匹配方法源自排序方法,并优化为一种交叉交互架构。

匹配阶段是推荐系统的关键环节,它需要从数十亿规模的语料库中快速过滤掉不相关的候选内容。由于匹配模型对高精度和低延迟的要求,双塔模型[13, 23, 33, 35]成为候选匹配的主流范式,并支持高效的top-k检索[26]。双塔模型由两个独立的塔组成,一个塔处理查询(user、上下文)的所有信息,另一个塔处理候选内容的信息。两个塔的输出是低维嵌入,随后通过相乘对候选内容进行评分。

由于双塔模型是独立训练的,它们无法充分利用user和item特征之间的交叉特征或交互信息,直到最后阶段才进行交互,这被称为“晚期交互”[17]。最近关于获取交互信号的研究主要分为两种方法。一种方法通过在双塔架构中添加一个浅层全连接层,将其转换为单塔结构(例如COLD[32]和FSCD[22]),但效率仍然受限,且仅适用于排序阶段。另一种方法尝试通过从另一个塔中捕捉历史正向交互信息的向量来增强每个塔的嵌入输入(例如DAT[35]),但最近研究表明,由于缺乏对user下一个正向意图的指导,其增益仍然有限[18]。当前的最先进方法难以在模型效果和推理效率之间取得平衡。图1(b)从推理效率和预测准确性的角度描述了上述模型。

为了解决效率与准确性之间的权衡问题,我们提出了一种生成式交叉交互解耦架构的匹配范式,名为释放双塔模型潜力:基于扩散(diffusion)的大规模匹配交叉交互(T2Diff)。T2Diff通过扩散模块恢复目标item的指导,提取user-item交叉特征,突破了双塔架构的限制。考虑到匹配阶段大规模语料库带来的性能问题,我们没有采用单塔结构,而是通过生成式方法,在user塔中通过扩散模型重建item塔中包含的user正向交互。为了充分建模user和item特征之间的交互,我们引入了一个混合注意力模块,以增强从另一个塔中获取的user正向交互。该混合注意力模块通过与item信息和user历史行为序列的交互,更准确地提取user表示。

本文的主要贡献如下:

  • 我们提出了一种新的匹配范式T2Diff,它是一种生成式交叉交互解耦架构,强调信息交互,释放了双塔模型的潜力,同时实现了高精度和低延迟。
  • T2Diff引入了两项关键创新:
    • 1)通过基于扩散的模型生成user的下一个正向意图;
    • 2)通过混合注意力机制[29, 38]在模型架构的基础层面促进更复杂和丰富的user-item特征交互,从而解决“晚期交互”的挑战。
  • T2Diff不仅在两个真实世界数据集和一个工业数据集上优于基线模型,还展现了出色的推理效率。​

2 相关工作

基于嵌入的检索(Embedding-based Retrieval, EBR)

EBR 是一种使用嵌入表示user和item的技术,将检索问题转化为嵌入空间中的最近邻(NN)搜索问题[5, 15]。EBR 模型广泛应用于匹配阶段[12],根据user的历史行为从大规模语料库中筛选候选列表。通常,EBR 模型由两个并行的深度神经网络组成,分别学习user和item的编码,这种架构也被称为双塔模型[13, 33, 34]。这种架构具有高吞吐量和低延迟的优势,但在捕捉user和item表示之间的交互信号方面能力有限。为了解决这一问题,DAT[35] 引入了一种自适应模仿机制,为每个user和item定制增强向量,以弥补交互信号的不足。然而,后续研究[18]表明,仅引入增强向量作为输入特征的增益有限。因此,T2Diff 利用混合注意力模块提取高阶特征交互和user历史行为,并结合扩散模块生成的目标表示。

基于会话的推荐与兴趣漂移

Feng 等人[3]观察到,user在单个会话内的行为表现出高度同质性,但在不同会话之间往往会发生兴趣漂移。Zhou 等人[37]发现,当预测与兴趣漂移趋势一致时,点击率(CTR)预测的准确性显著提高。

生成模型在序列推荐中的应用

尽管传统的序列模型(如 SASRec[16]、Mamba4Rec[20])已经表现出令人满意的性能,但生成模型的出现为这一领域开辟了新的方向。变分自编码器(VAEs)[2, 8, 31]被用于学习item和user的潜在空间表示,并从中生成新序列。然而,这类生成模型可能会过度简化数据分布,导致信息丢失和表示准确性下降。扩散模型在许多领域取得了显著成功,包括推荐系统[10, 19, 30, 39]、自然语言处理[8, 14, 21]和计算机视觉[9, 24, 25]。DiffuRec[19]首次尝试将扩散模型应用于序列推荐(SR),并利用其分布生成和多样性表示的能力,采用单一嵌入捕捉user的多种兴趣。在计算机视觉中应用的 VAEs 和扩散模型[8, 14, 21]通常依赖于 Kullback-Leibler 散度损失(KL-loss)来衡量学习到的潜在分布与先验分布(通常是高斯分布)之间的差异,而 DiffuRec 在重建目标item的过程中选择了交叉熵损失。为了稳定且准确地恢复item表示,T2Diff 采用了基于 Kullback-Leibler 散度损失(KL-loss)的扩散模块。该模块能够以低延迟准确重建目标item,为在双塔结构中捕捉交叉信息提供了坚实的基础。

3 预备知识

在本节中,我们简要介绍扩散模型作为预备知识。

3.1 扩散模型

扩散模型可以分为两个阶段:扩散过程反向过程。扩散模型的基本原理是通过在扩散过程中逐步添加高斯噪声来破坏训练数据,然后在反向过程中通过逆向去噪过程学习恢复数据。

扩散过程

在扩散过程中,扩散模型通过马尔可夫链(即 $ x_0 \rightarrow x_1 \rightarrow \dots \rightarrow x_T $)逐步向原始表示 $ x_0 $ 添加高斯噪声,定义如下:

\[q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1 - \beta_t} x_{t-1}, \beta_t I) \tag{1}\]

其中:

  • $ \mathcal{N}(x; \mu, \sigma^2) $ 是均值为 $ \mu $、方差为 $ \sigma^2 $ 的高斯分布。
  • $ \beta_t $ 表示添加的高斯噪声的幅度,
  • $ \beta_t $ 值越大,引入的噪声越多。
  • $ I $ 是单位矩阵。

我们可以通过一种可处理的方式从输入数据 $ x_0 $ 推导到 $ x_T $,后验概率可以定义为:

\[q(x_{1:T} | x_0) = \prod_{t=1}^T q(x_t | x_{t-1}) \tag{2}\]

根据 DDPM[9],通过重参数化技巧,我们发现后验 $ q(x_r \mid x_0) $ 服从高斯分布。令 $ \alpha_r = 1 - \beta_r $ 且 $ \bar{\alpha}r = \prod{i=1}^r \alpha_i $,则公式 (2) 可以改写为:

\[q(x_r | x_0) = \mathcal{N}(x_r; \sqrt{\bar{\alpha}_r} x_0, (1 - \alpha_r) I) \tag{3}\]

反向过程

在反向过程中,我们从标准高斯表示 $ x_T $ 逐步去噪,并以迭代方式逼近真实表示 $ x_0 $(即 $ x_T \rightarrow x_{T-1} \rightarrow \dots \rightarrow x_0 $)。特别地,给定当前恢复的表示 $ x_t $ 和原始表示 $ x_0 $,下一个表示 $ x_{t-1} $ 可以计算如下:

\[p(x_{t-1} | x_t, x_0) = \mathcal{N}(x_{t-1}; \tilde{\mu}_t(x_t, x_0), \tilde{\beta}_t I) \tag{4}\]

其中:

\[\tilde{\mu}_t(x_t, x_0) = \frac{\sqrt{\bar{\alpha}_{t-1}} \beta_t}{1 - \bar{\alpha}_t} x_0 + \frac{\sqrt{\alpha_t (1 - \bar{\alpha}_{t-1})}}{1 - \bar{\alpha}_t} x_t \tag{5}\] \[\tilde{\beta}_t = \frac{1 - \bar{\alpha}_{t-1}}{1 - \bar{\alpha}_t} \beta_t \tag{6}\]

然而,在反向过程中,原始表示 $ x_0 $ 通常是未知的,因此需要深度神经网络来估计 $ x_0 $。反向过程通过最小化以下变分下界(VLB)进行优化:

\[\mathcal{L}_{VLB} = \mathbb{E}_{q(x_1 | x_0)} [\log p_\theta(x_0 | x_1)] - D_{KL}(q(x_T | x_0) || p_\theta(x_T)) - \sum_{t=2}^T \mathbb{E}_{q(x_t | x_0)} [D_{KL}(q(x_{t-1} | x_t, x_0) || p_\theta(x_{t-1} | x_t))] \tag{7}\]

其中,$ p_\theta(x_t) = \mathcal{N}(x_t; 0, I) $,$ D_{KL}(\cdot) $ 是 KL 散度。在 $ \mathcal{L}{VLB} $ 中,除了 $ L_0 $ 之外,每个 KL 散度项都涉及两个高斯分布的比较,因此这些项可以以闭式解析计算。$ L_T $ 项在训练过程中是常数,对优化没有影响,因为分布 $ q $ 没有可训练的参数,且 $ x_T $ 只是高斯噪声。对于建模 $ L_0 $,Ho 等人[9] 使用了一个从 $ \mathcal{N} $ 派生的离散解码器。根据[9],$ \mathcal{L}{VLB} $ 可以简化为一个高斯噪声学习过程,表示为:

\[\mathcal{L}_{simple} = \mathbb{E}_{t \in [1,T], x_0, \epsilon_t} \left[ ||\epsilon_t - \epsilon_\theta(x_t, t)||^2 \right] \tag{8}\]

其中,$ \epsilon \sim \mathcal{N}(0, I) $ 是从标准高斯分布中采样的噪声,$ \epsilon_\theta(\cdot) $ 表示一个可以通过深度神经网络学习的估计器。

4 方法

在本节中,我们首先介绍与 T2Diff 相关的符号和背景,然后详细描述模型的框架。如图2(a)所示,我们的模型由扩散模块混合注意力模块组成。

图片名称

图2

4.1 符号与问题定义

假设我们有一个user集合 $ \mathcal{U} $ 和一个item集合 $ \mathcal{M} $。我们收集每个user的行为序列,并将其表示为 $ X_{sequence} \in \mathcal{M} $。对于user $ u \in \mathcal{U} $ 的每个行为,我们记为 $ x_j^u $,其中 $ j $ 表示行为序列中的第 $ j $ 个item。对于每个user,假设我们有 $ n $ 个历史行为,则索引 $ j \in {1, 2, \dots, n+1} $,且 $ X_{sequence} = [x_1, x_2, \dots, x_n] $。基于[3]中提出的概念,我们希望通过根据每个行为之间的时间间隔将行为序列划分为两个部分,从而实现对user行为序列的更精细建模。具体来说,我们将有序的行为序列划分为当前会话历史行为,其中当前会话包含最近的 $ k $ 个交互行为,记为 $ X_{session} = [x_{n-k+1}, \dots, x_n] $,而历史行为记为 $ X_{history} = [x_1, x_2, \dots, x_{n-k}] $。我们认为,user在最近会话中的行为在时间上是连续的,反映了user最近的意图。最后,最重要的是,我们通过引入从真实行为 $ x_{n+1} $ 预测的下一个正向行为 $ \hat{x}_{n+1} $,释放了双塔模型的潜力。

基于嵌入的检索(EBR)方法通过两个独立的深度神经网络将user和item特征编码为嵌入。item $ \mathcal{M} $ 与user $ \mathcal{U} $ 的相关性基于user嵌入 $ e_u $ 和item嵌入 $ e_i $ 之间的距离(最常见的是内积)。

我们提出的 T2Diff 包含两个主要部分:

  1. 扩散模块:在训练阶段识别相邻行为之间的兴趣漂移,并在推理阶段重新引入下一个行为。
  2. 基于会话的混合注意力模块:通过自注意力模块提取最近会话中的当前兴趣,并通过目标注意力机制获取历史兴趣。这两个组件的结合实现了user行为序列与下一个行为之间的全面交叉交互。

4.3 混合注意力模块

为了克服双塔模型中的“晚期交互”问题,我们提出了一种混合注意力机制,通过将多层user表示与扩散模块(第4.2节)重建的user最近正向item表示相结合,促进复杂的特征交互。在短视频推荐领域,user消费行为表现出时间连续性。我们认为最近会话中包含了user的近期正向意图,为了增强历史序列与下一个正向item表示之间的交叉交互,我们将 $ X_{session} $ 和 $ \hat{x}_{n+1} $ 沿时间维度连接。在我们的方法中,我们部署了Transformer架构[29]的编码器组件和平均池化,以生成当前兴趣嵌入 $ h_s $,用于“早期交互”。

\[h_s = \text{avg}(\text{Transformer}(\text{concat}([X_{session}, \hat{x}_{n+1}]))) \tag{19}\]

为了进一步利用交叉交互的优势,我们遵循[38],使用 $ h_s $ 作为指导,从user的历史行为 $ X_{history} $ 中提取相似信息。在激活单元中,历史行为嵌入 $ X_{history} $、当前兴趣嵌入 $ h_s $ 以及它们的外积作为输入,生成注意力权重 $ A_{history} $,如图3所示。

图片名称

图3

最终,$ h_t $ 和 $ h_s $ 共同决定user嵌入 $ e_u $。

\[a_j = \frac{\text{FFN}(\text{concat}([x_j, x_j - h_s, x_j * h_s, h_s]))}{\sum_{i=1}^{n-k} \text{FFN}(\text{concat}([x_i, x_i - h_s, x_i * h_s, h_s]))} \tag{20}\] \[h_l = f(h_s, [x_1, x_2, \dots, x_{n-k}]) = \sum_{j=1}^{n-k} a_j x_j \tag{21}\] \[e_u = \text{FFN}(\text{concat}([h_l, h_s])) \tag{22}\]

其中,$ a_j $ 是 $ A_{history} $ 的第 $ j $ 个元素。考虑到会话内的时间依赖性和跨会话行为模式的相关性,我们引入了目标行为与历史行为之间的时间滞后作为关键特征。

图片名称

算法 1

图片名称

算法 2

4.4 模型优化

在每一步扩散过程中,我们直接从 $ z_r $ 推导 $ \hat{z}0 $,其中 $ \hat{z}_0 $ 和 $ z_0 $ 都表示通过重参数化得到的分布的均值。因此,公式7中 $ \mathcal{L}{VLB} $ 的简化版本可以改写为 $ \mathcal{L}_{KL} $,如下所示:

\[\mathcal{L}_{KL} = \mathbb{E}_{r \in [1,T], x_0, \mu_r} \left[ ||\mu_r - \mu_\theta(z_r, r)||^2 \right] \tag{23}\]

其中,$ \mu_r $ 和 $ z_r $ 分别表示在扩散过程第 $ r $ 步中添加的噪声和添加噪声后的结果,$ \mu_\theta $ 表示具有参数 $ \theta $ 的估计器。

在 $ \mathcal{L}_{KL} $ 的帮助下,我们可以减少 $ z_0 $ 和 $ \hat{z}_0 $ 之间的差异,并通过梯度下降更新估计器中的参数。扩散模块的扩散过程如算法1所示。

遵循推荐系统中损失函数的一般原则,我们使用softmax损失 $ \mathcal{L}{TOWER} $ 使user嵌入 $ e_u $ 接近目标item嵌入 $ e_i $,同时远离其他不相关的item嵌入 $ e{m \in \mathcal{M}} $,其定义为:

\[\mathcal{L}_{TOWER} = -\log \frac{\exp(e_u \cdot e_i)}{\sum_{m \in \mathcal{M}} \exp(e_u \cdot e_m)} \tag{24}\]

在损失函数 $ \mathcal{L}_{TOWER} $ 的驱动下,稀疏嵌入表经过充分训练,从而为扩散过程训练奠定了坚实的基础。总损失可以表示为:

\[\mathcal{L}_{TOTAL} = \mathcal{L}_{TOWER} + \lambda \mathcal{L}_{KL} \tag{25}\]

其中,$ \lambda $ 是一个超参数,通常设置为1或10。由于扩散模块中估计器的优化方向与传统推荐系统不一致,这容易导致梯度相互抵消的情况,因此我们采用停止梯度机制来隔离扩散模块的梯度更新,有效提高了估计器和塔参数的优化效率,如图2(a)底部所示。

5.实验

#

https://arxiv.org/pdf/2502.20687

字节在《Adaptive Domain Scaling for Personalized Sequential Modeling in Recommenders》提出了它们的关于序列建模的多场景建模实现ADS:

摘要

在像抖音这样的超级应用中,用户通常会在多个业务场景中展现出复杂的行为模式和多样化的意图,这对当前工业界的多领域推荐系统提出了巨大的挑战。为了缓解不同领域之间的差异,研究和工业实践通常强调采用复杂的网络结构以适应多样化的数据分布,而忽视了从多领域角度对用户行为序列的深入理解。

本文提出了自适应领域缩放(Adaptive Domain Scaling, ADS)模型,该模型全面增强了跨多个领域的目标感知序列建模中的个性化能力。具体而言,ADS包含两个主要模块:

  1. 个性化序列表示生成(Personalized Sequence Representation Generation, PSRG)
  2. 个性化候选表示生成(Personalized Candidate Representation Generation, PCRG)

这些模块通过动态学习不同领域下的用户行为序列item表示和候选目标item表示,促进了自适应用户意图理解,从而实现了量身定制的多领域学习。我们在一个公共数据集和两个十亿级别的工业数据集上进行了实验,广泛的结果验证了ADS的高效性和兼容性。

此外,我们在两个有影响力的业务场景(包括抖音广告平台抖音电商服务平台)上进行了在线实验,两者均显示出显著的业务改进。目前,ADS已在字节跳动的多个推荐服务中全面部署,服务于数十亿用户。

1 引言

随着数字内容的指数级增长和互联网的广泛使用,推荐系统在提升用户体验和缓解信息过载方面发挥了至关重要的作用[29]。在实际应用中,为了提高用户留存率并促进商业利益,工业推荐的需求广泛分布在多个领域[12, 14]。例如,如图1所示,在抖音(全球最大的视频观看应用之一)中,主要领域包括短视频直播预览直播滑动,用户可以在这些场景中观看短视频、直播流,并享受电商和本地生活服务。此外,由于其亿级用户规模,不同的用户群体(如来自不同国家、不同性别、高活跃度或低活跃度的用户)也构成了不同的领域。由于不同领域的数据分布差异较大,这为推荐系统带来了显著的多领域建模问题[30]。

图片名称

图1

为此,工业界的常见实践通常是构建一个共享底层-多头输出的模型结构,利用分离和统一混合建模的优势来处理多领域问题[4]。为了进一步改进这一点,最近的研究致力于构建精细的网络结构以增强多领域建模,例如领域级方法如星型拓扑自适应推荐器(STAR)[18]、渐进分层提取(PLE)[19],以及实例级方法如自适应参数生成网络(APG)[25]、AdaSparse[27]等。然而,大多数现有方法都专注于复杂的特征交互网络结构,而多领域序列建模的方法却较少受到关注。

序列建模在工业推荐系统中扮演着至关重要的角色,其中最流行且有效的方法是基于target attention的方法,例如深度兴趣网络(DIN)[32]、特征协同网络(CAN)[2]和多头注意力(MHA)[20]。在抖音的广告系统中,从转化率预测(CVR)模型中移除target attention模块后,ROC曲线下面积(AUC)指标下降了超过0.2%,这是一个显著且不可接受的损失,证明了基于target attention的序列建模的有效性。尽管其重要性,现有target attention方法较少考虑多领域差异的影响,这为多领域建模留下了显著的空白。

一般来说,当前用户序列的target attention机制可以表述为一个典型的query-key-value建模范式:

\[g(Rep_{cand}, Rep_{seq}) \times Rep_{seq}\]

其中:

  • $Rep_{cand}$表示需要预测点击/转化概率的候选target item的表示
  • $Rep_{seq}$表示用户序列嵌入
  • $g$计算任意序列item与target item对之间的注意力权重

如前所述,当前工业推荐系统通常遵循共享底层嵌入范式,这意味着:

  1. 候选item和用户行为item的嵌入表完全共享,未考虑不同领域item和用户之间的差异
  2. 候选item作为不同key/value的共享查询,未考虑用户序列中多领域item的差异

因此,这从两个方面对当前多领域推荐系统提出了潜在挑战:

  • 序列表示的个性化:在多领域中,相同item在不同用户序列中的表示是必要的。例如,新用户可能喜欢观看高点赞视频,而长期用户可能更关注他们关注的视频创作者。因此,相同的视频对不同用户领域表现出不同的吸引力,而其嵌入是不同用户序列中的共享表示,这阻碍了推荐系统捕捉用户的实际意图。

  • 候选item的个性化:对于不同用户或同一用户序列中的不同item,候选item由于多领域影响具有不同的影响和功能。例如,用户在抖音商城中的购物行为可能主要受产品价格影响,而在抖音短视频场景中,视频创作者对内容偏好用户的影响更为显著。因此,相同的候选item应在不同领域中个性化,以适应用户序列中的不同历史项。

为了克服这些局限性并填补多领域target attention建模的空白,我们提出了自适应领域缩放(Adaptive Domain Scaling, ADS)模型,该模型充分挖掘了当前基于target attention的推荐系统的个性化建模能力,并在多领域任务中提供了更准确和自适应的意图理解能力。具体而言,ADS包含两个模块:

  • 个性化序列表示生成(PSRG)
  • 个性化候选表示生成(PCRG)

在PSRG中,我们设计了一种新颖的共享-私有结构,用于学习用户行为中的多领域项表示,旨在为序列items生成个性化表示,即相同item在不同用户序列中具有不同的表示。在PCRG中,候选item通过为不同序列items生成不同的目标候选表示,进一步增强了个性化建模能力。通过将领域相关信息作为生成结构的输入,多领域的影响被充分注入序列建模中,从而增强了用户意图理解能力。值得注意的是,ADS是一个高效的即插即用网络,可以轻松集成到现有推荐系统中。

本工作的贡献总结如下:

  • 我们提出了自适应领域缩放(ADS)模型,这是一种有效的即插即用个性化网络结构,通过个性化target attention建模来实现多领域用户意图理解。我们在一个公共数据集和两个十亿规模的工业数据集上进行了广泛实验,结果验证了其优越性。
  • 我们在框架中开发了个性化序列表示生成个性化候选表示生成模块,从用户行为序列和候选target item的角度捕捉多领域特征,增强了当前target attention机制的多领域学习效果。
  • 我们在字节跳动抖音的广告系统和电商系统中部署了ADS,分别带来了抖音广告系统总收入的1.09%提升和电商系统的0.79%提升。目前,ADS已在字节跳动的多个推荐系统中全面部署,服务于数十亿用户。

2 方法论

2.1 预备知识

2.1.1 问题定义

本文主要关注推荐系统中的排序建模任务,这是一个典型的二分类问题。以点击率(CTR)预测为例,概率 $\hat{y}$ 可以通过以下公式计算:

\[\widehat{y} = f(\mathbf{E}_U, \mathbf{E}_I, \mathbf{E}_O) \quad (1)\]

其中:

  • $E(\cdot)$ 表示嵌入函数,将原始分类特征直接转换为嵌入,连续特征则先分桶再嵌入为稠密向量。
  • $f$ 是基于多层感知机(MLP)的转换函数。
  • $U$、$I$ 和 $O$ 分别表示用户侧、目标候选item侧和其他特征。用户侧特征通常包括:人口统计特征(如用户位置和语言)和行为特征(如用户的观看列表或购物列表)。item侧特征包括项的描述性特征(如类别、创作者等)。此外,其他特征 $O$ 通常包含context特征和user-item交叉特征。

2.2 提出的ADS模型

图片名称

图2

ADS模型的结构如图2所示,整体由两个主要部分组成:

  • 个性化序列表示生成(PSRG):通过共享-私有学习结构生成动态行为item嵌入,使得相同item在不同领域中具有不同的表示
  • 个性化候选表示生成(PCRG):捕捉序列items的不同方面,并为每个序列items生成多个自适应查询(即候选item),以反映不同查询对多样化序列items的影响

通过PCRG和PSRG生成的自适应Q、K和V,目标感知建模机制(如MHA、DIN和CAN)可以轻松集成到该框架中,促进多领域场景中的兴趣捕捉。

2.2.1 个性化序列表示生成(PSRG)

当前大规模工业推荐系统通常采用共享嵌入层将原始ID和其他特征嵌入为dense向量。这种方式下,嵌入表中的特定item具有统一的嵌入表示,在不同用户序列中共享,忽略了多领域差异的影响。

PSRG的基本思想是:为用户行为序列中的每个item嵌入动态生成一个个性化层,使得原始共享表示可以在多领域中多样化。具体而言,我们使用领域相关特征嵌入 $E_D \in R^{d_D}$ 作为PSRG生成部分的输入,这些特征包括:

    1. 显式领域指示特征(explicit-domain-indicator features):区分样本所属的领域。例如,指示器范围为[0, 2],表示抖音中的三个不同业务场景。
    1. 隐式领域指示特征(implicit-domain-indicator features):在推荐系统中,某些领域难以明确定义。例如,用户是否高活跃度。因此,需要结合工程师构建的统计特征以进一步捕捉和区分不同领域。

如图2所示,序列items的weight和bias生成过程旨在动态调整原始item嵌入。

序列权重生成网络(Sequence-Weight Gen-Net)

用户序列嵌入表示为:$E_S \in R^{T \times d_S}$

其中:

  • $T$ 和 $d_S$ 分别表示用户序列长度和每个序列items的嵌入维度。

基于领域特征 $E_D$,权重生成过程包括:私有权重部分和共享权重部分,以捕捉多领域的共性和个性。私有部分通过两层MLP生成私有权重:

\[\mathbf{W}_{private} = Sigmoid(ReLU(\mathbf{E}_D \mathbf{W}_1^T + \mathbf{b}_1) \mathbf{W}_2^T + \mathbf{b}_2) \quad (2)\]

其中:

  • $\mathbf{W}_1^T \in \mathbb{R}^{d_D \times d_h}$,$\mathbf{W}_2^T \in \mathbb{R}^{d_h \times (d_S \times d_S)}$:表示weight
  • $\mathbf{b}_1 \in \mathbb{R}^{d_h}$,$\mathbf{b}_2 \in \mathbb{R}^{(d_S \times d_S)}$:表示bias
  • $d_h$ 表示隐藏层维度

通过引入两层函数而非单层,不仅可以提高模型的表达能力,还能显著减少模型参数和计算成本。

基于 $\mathbf{W}{private}$,进一步定义一个全局权重 $\mathbf{W}{shared} \in \mathbb{R}^{(d_S \times d_S)}$,作为可学习矩阵在所有用户间共享。生成的权重定义为:

\[\mathbf{W}_{generated} = \eta * (\mathbf{W}_{shared} \odot \mathbf{W}_{private}) \quad (3)\]

其中:

  • $\odot$ 表示逐元素乘积。由于引入了 $Sigmoid$,$\mathbf{W}{private}$ 的值范围为[0, 1],因此引入缩放超参数 $\eta$ 以扩大 $\mathbf{W}{private}$ 的表达范围。

序列偏置生成网络(Sequence-Bias Gen-Net)

类似于权重生成过程,偏置生成可以通过以下公式实现:

\[\mathbf{b}_{generated} = ReLU(\mathbf{E}_D \mathbf{W'}_1^T + \mathbf{b'}_1) \mathbf{W'}_2^T + \mathbf{b'}_2 \quad (4)\]

其中:

  • $\mathbf{W’}_1^T \in \mathbb{R}^{d_D \times d_h}$,$\mathbf{W’}_2^T \in \mathbb{R}^{d_h \times d_S}$:为weight
  • $\mathbf{b’}_1 \in \mathbb{R}^{d_h}$,$\mathbf{b’}_2 \in \mathbb{R}^{d_S}$:为bias

通过生成的权重和偏置,PSRG可以通过以下公式实现:

\[\mathbf{E}_{S-personalized} = \mathbf{E}_S Reshape(\mathbf{W}_{generated})^T + \mathbf{b}_{generated} \quad (5)\]

其中:

  • $Reshape$ 操作将一维向量形式的 $\mathbf{W}_{generated}$ 重塑为二维矩阵形式,形状为 $d_S \times d_S$。

2.2.2 个性化候选表示生成(PCRG)

除了序列的个性化建模,另一个重要部分是:对target item的多领域建模,target item通常在target attention中扮演query的角色。个性化候选item包括两个方面:

  • 1.类似于序列表示,target item本身的表示也通过共享嵌入层嵌入,未在不同领域中个性化。
  • 2.候选item在不同领域的序列items中扮演不同角色。例如,用户在抖音商城频道中的观看列表反映其购物兴趣,而在短视频频道中反映其内容偏好。

多查询生成网络(Multi-Query Gen-Net)

图片名称

图3

为此,我们提出了多查询生成网络(如图3中间子图所示),在领域相关特征 $E_D$ 和原始target item嵌入 $E_Q \in R^{d_Q}$ 的指导下,生成多个查询:

\[\mathbf{E}_{Q-private} = ReLU(\left(\mathbf{E}_D \oplus \mathbf{E}_Q\right) \mathbf{W}_{q1}^T + \mathbf{b}_{q1}) \mathbf{W}_{q2}^T + \mathbf{b}_{q2} \quad (6)\]

其中:

  • $\oplus$ 表示拼接操作
  • $\mathbf{W}{q1}^T \in \mathbb{R}^{(d_D + d_Q) \times d_h}$,$\mathbf{b}{q1} \in \mathbb{R}^{d_h}$:表示第一层的w, b
  • $\mathbf{W}{q2}^T \in \mathbb{R}^{d_h \times (T \times d_Q)}$,$\mathbf{b}{q2} \in \mathbb{R}^{T \times d_Q}$:表示第二层的w, b
  • 隐藏层维度 $d_h « (T \times d_Q)$,使得计算成本可控。

分块查询生成(Chunked-Query Generation)

对于长序列($T$ 为数百或更高)的情况,我们还设计了一种轻量级的分块查询生成方法以提高计算效率。如图3右侧子图所示,由于用户的相邻行为往往发生在同一领域,原始序列可以划分为 $G$ 个块,相邻item形成一个组。因此,生成的 $\mathbf{E}_{Q-private} \in \mathbb{R}^{(G \times d_Q)}$ 可以进一步重复为 $\mathbb{R}^{(T \times d_Q)}$,计算成本进一步降低。

最终生成的多查询

对应于多个私有查询 $\mathbf{E}{Q-private} \in \mathbb{R}^{(T \times d_Q)}$,我们使用原始查询 $\mathbf{E}_Q$ 作为共享基,即 $\mathbf{E}{Q-shared} = tile(\mathbf{E}_Q)$,其中 $tile$ 表示将 $\mathbf{E}_Q$ 重复 $T$ 次。最终生成的多查询通过残差方式获得:

\[\mathbf{E}_{Q-personalized} = Reshape(\mathbf{E}_{Q-private} + \mathbf{E}_{Q-shared}) \quad (7)\]

其中:

  • $Reshape$ 操作将一维向量重塑为二维矩阵形式,形状为 $T \times d_Q$。

2.2.3 目标感知注意力与预测

通过上述个性化查询 $\mathbf{E}{Q-personalized} \in \mathbb{R}^{T \times d_Q}$ 和个性化序列items $\mathbf{E}{S-personalized} \in \mathbb{R}^{T \times d_S}$,target attention模块计算每个项的注意力权重,并在查询的指导下聚合序列。通常,个性化查询和项可以轻松集成到许多流行的注意力方法中,如多头target attention、DIN和CAN。

以多头target attention为例,对于每个头,候选item和序列items首先通过以下公式转换:

\[\mathbf{Q} = \mathbf{E}_{Q-personalized} \mathbf{W}_Q \quad (8)\] \[\mathbf{K} = \mathbf{E}_{S-personalized} \mathbf{W}_K \quad (9)\] \[\mathbf{V} = \mathbf{E}_{S-personalized} \mathbf{W}_V \quad (10)\]

其中:

  • $\mathbf{W}_Q \in \mathbb{R}^{d_Q \times d_A}$,$\mathbf{W}_K$ 和 $\mathbf{W}_V \in \mathbb{R}^{d_S \times d_A}$,$d_A$ 表示target attention中的维度大小。第 $t$ 个查询-键对的注意力权重 $\mathbf{z}’[t]$ 可以通过以下公式计算: \(\mathbf{z}'[t] = \frac{\mathbf{Q}_t^T \mathbf{K}_t}{\sqrt{d_A}} \quad (11)\) 随后通过softmax操作对个性化权重进行归一化并聚合个性化序列:
\[\mathbf{z} = softmax(\mathbf{z}'), \quad \mathbf{s} = \sum_{t=1}^T (\mathbf{z}[t] \cdot \mathbf{V}_t) \quad (12)\]

通过序列建模输出 $\mathbf{s}$ 和其他特征嵌入(包括 $\mathbf{E}_U$、$\mathbf{E}_I$ 和 $\mathbf{E}_O$),拼接层和多个高层MLP将所有信息合并并输出预测结果,训练损失通过二元交叉熵函数计算:

\[\mathbf{E}_{all} = \mathbf{s} \oplus \mathbf{E}_U \oplus \mathbf{E}_I \oplus \mathbf{E}_O, \quad \hat{y} = MLP(\mathbf{E}_{all}) \quad (13)\]

3 实验

3.1 实验设置

数据集和实验设置
为了充分评估所提出的ADS模型,我们在一个公共数据集(即淘宝数据集)和两个来自抖音的十亿级工业数据集(即抖音广告平台抖音电商平台)上进行了实验。表1报告了这三个数据集的统计信息。

  • 淘宝数据集:淘宝数据集来自[33],提供了淘宝用户行为数据,目前广泛用于序列建模方法[3]。前7天数据用于训练,其余用于测试。过滤了至少有200次交互和10次正向行为的用户,以及至少有10次交互的项。数据集中有9,439个类别,我们将每个类别视为一个领域。在该数据集中,页面浏览被视为负向交互,其他行为被视为正向标签(订单)。

  • 抖音广告数据集:我们选择了抖音广告中的转化率(CVR)预测任务,并收集了从2022年12月14日到2023年3月10日的在线流量日志子集,共87天,17.3亿样本。前77天用于模型训练,其余10天用于评估。在抖音广告平台中,根据用户的外部行为,数据集可以分为三个主要领域:直播支付、直播订单和短视频购物,分别表示为领域1、2和3。

  • 抖音电商数据集:我们选择了抖音直播电商服务中的两种用户购物行为(点击和订单)作为预测目标。收集了从2024年1月1日到3月1日的在线流量日志子集,共61天,25.2亿样本。前54天用于训练,最后一周用于验证。数据集涉及抖音直播中的两个典型场景:直播预览和直播滑动,分别表示为领域1和2。

对比方法和评估指标
为了全面比较所提出的ADS与现有方法,我们选择了几个代表性的SOTA模型,分为两类:

  1. 基于DNN的方法:包括DNN、DeepFM[9]、DCNv2[23]、APG[25]、AdaSparse[27]、DFFM[10]、MaskNet[24]。
  2. 基于target attention的骨干方法:包括DIN[32]、MHA[20]和CAN[2],并在此基础上添加了最近的多领域嵌入学习方法进行比较,包括FRNet[21]和PEPNet[6]。

所有方法均基于Tensorflow实现,并通过交叉熵损失进行优化。采用Adam[13]优化器,初始学习率为0.00002。使用AUC指标评估排序模型的性能。此外,我们引入了相对改进(Imp.)[26]来衡量相对AUC增益,计算公式如下(随机策略的AUC值为0.5): \(AUC\ Imp. = \left(\frac{AUC(MeasuredModel) - 0.5}{AUC(BaselineModel) - 0.5} - 1\right) \times 100\% \quad (14)\)

3.2 实验结果

整体性能
表2展示了不同方法在三个数据集上的对比结果。对于淘宝数据集,由于领域数量较多,仅提供了整体结果。为清晰起见,结果按四组进行报告:第一组列出基于DNN的方法,其余三组分别列出基于DIN、MHA和CAN的多领域target attention方法。从结果中可以得出以下几点观察:

  1. 与基于DNN的方法相比,基于target attention的序列建模在排序模型中起着至关重要的作用。从表中可以看出,DIN、MHA和CAN在淘宝数据集上分别提升了0.54%、0.23%和0.17%,在抖音广告数据集上分别提升了0.22%、0.19%和0.04%,在抖音电商的点击预测任务中分别提升了0.49%、0.31%和0.11%。

  2. 现有的多领域方法对排序模型普遍有积极影响。具体而言,在基于DNN的方法中,AdaSparse在淘宝和抖音广告数据集上优于基线。FRNet和PEPNet在不同组中也表现出改进的性能。

  3. 所提出的ADS在基于DIN、MHA和CAN的组中始终表现最佳,显示出其高效性和兼容性。具体而言,在淘宝数据集中,ADS在DIN、MHA和CAN组中分别比第二好的方法提升了0.47%、0.20%和0.20%。在抖音广告数据集中,ADS比第二好的方法分别提升了0.20%、0.12%和0.14%。在抖音电商数据集中,ADS在点击预测任务中分别比第二好的方法提升了0.05%、0.07%和0.15%,在订单预测任务中分别提升了0.11%、0.15%和0.18%。此外,在两个工业数据集的每个领域中,ADS均显著优于对比方法,证明了其个性化target attention机制的优势。

3.3 消融实验与敏感性分析

消融实验
为了进一步评估ADS中两个模块(PCRG和PSRG)的性能,我们在抖音广告数据集上进行了消融实验。如表3所示,移除PCRG模块后,整体性能在基于DIN、MHA和CAN的方法中分别下降了0.06%、0.03%和0.23%。此外,移除PCRG和PSRG模块后,整体性能分别下降了0.23%、0.23%和0.29%。因此可以得出结论,个性化target item和个性化序列对ADS均有积极影响,验证了这些模块的有效性。

ADS中分块数量的敏感性分析
为了研究分块数量的影响,我们对ADS进行了敏感性分析。具体而言,我们通过改变每个分块中的项数(从[1, 2, 5, 10])来研究性能模式,并从训练效率和模型性能两个方面进行分析。

  • 训练效率模式:我们通过总结和比较不同分块下的模型参数和训练浮点操作(FLOPs)来评估模型训练效率,结果如图4所示。从图中可以明显看出,随着模型个性化程度的提高,模型参数和训练FLOPs持续增加。

  • 性能模式:图5展示了通过改变每个分块中的项数得到的模型性能模式。具体而言,首先,与原始的DIN、MHA和CAN相比,ADS及其不同分块版本在点击和订单预测任务中均表现出明显的性能提升。此外,随着分块中项数的减少,模型性能持续提升,最个性化的模型(即无分块的ADS)表现最佳,表明考虑候选item的个性化特征具有重要意义。

总体而言,随着ADS个性化能力的提高,性能和训练成本均有所增加,但我们观察到,即使训练成本略有增加(如分块10的ADS与原始方法相比),模型性能仍能实现显著提升,因此实践者可以根据效果和效率的平衡灵活选择参数。

3.4 在线部署

ADS模型通过分片和数据并行策略在多GPU上分布式部署。为了减少存储,低频嵌入被消除。为了进一步提高GPU吞吐量,我们引入了密集计算异步策略,将计算图分为稀疏前向和密集计算部分,从而实现流水线效果,大大提高了训练和推理效率。得益于这些优化,离线训练资源与基线相同,即64个Nvidia A100。以抖音广告为例,训练时间成本从41.3小时略微增加到42.8小时(+3.6%)。在线延迟保持在30ms,无明显变化。

3.5 在线A/B实验

为了研究所提出的ADS在真实工业场景中的性能,我们在抖音的广告系统和电商系统中分别进行了仔细的在线A/B测试。

  • 抖音广告:抖音广告的在线实验于2023年11月2日至11月8日进行,覆盖了74,079,729名抖音APP用户。选择了两个指标进行比较:每千次展示成本(CPM)和广告主价值(ADVV)。需要注意的是,部署场景是字节跳动广告的主要流量来源,基线非常强,ADVV或CPM的0.5%提升被认为是显著的。对比结果如表4所示。从表中可以看出,部署ADS后,整体CPM提升了0.52%,ADVV提升了1.00%,显示了ADS自适应序列建模的优势。此外,在抖音广告的两个主要领域(直播和短视频)中,ADS均优于基线并实现了一致的提升,表明其在领域感知序列建模中的有效性。

  • 抖音电商:在线实验于2024年1月23日至1月29日在抖音电商平台进行,覆盖了508,926,918名抖音APP用户。实验结果如表5所示。选择了三个指标进行比较:每用户总交易额(GMV/U)、每用户订单数(Order/U)和每千次展示交易额(GPM),这些都是抖音电商中的重要商业指标。与抖音广告实验类似,该部署场景贡献了字节跳动最高的GMV,基线非常强,GMV的0.5%提升被认为是显著的。如表5所示,整体GMV/U、Order/U和GPM分别提升了0.79%、0.36%和0.89%。此外,在直播预览和直播滑动两个领域中均观察到一致的提升,所有提升均经过统计显著性检验(𝑝值<0.01),验证了其有效性。

#

https://arxiv.org/pdf/2502.05523