kuaishou直播团队在《LiveForesighter: Generating Future Information for Live-Streaming Recommendations at Kuaishou》提出了它们的电商直播推荐LiveForesighter:

摘要

作为一种连接用户与主播的新兴媒介,直播近年来备受关注并实现快速增长。相较于内容静态的短视频推荐,直播推荐在满足用户体验方面面临更大挑战:(1)直播内容随时间动态变化;(2)高价值行为(如赠送虚拟礼物、购买商品)往往需要用户长时间观看(>10分钟)。结合这两个特性,直播推荐面临一个核心难题:如何精准发现用户当前时刻感兴趣、且在未来一段时间内仍保持兴趣的直播内容?

针对这一问题,我们通过分析直播数据发现两个关键现象:(1)当直播进入”高光时刻”时,用户体验显著提升;(2)主播具有”风格一致性”,使得基于历史内容预测未来信息成为可能。基于这些发现,我们提出LiveForesighter框架,通过预测未来直播信息提升推荐质量。具体而言:

• 针对”高光时刻”检测,我们构建用户正向行为(点击、购买等)的统计指标序列,实时捕捉直播的高光状态
• 针对未来信息预测,利用历史商品销售序列预测未来可能推广的商品,以增强电商直播推荐效果

据我们所知,这是首个从未来信息预测角度提升直播推荐的研究。通过大量离线/在线实验及消融分析,我们验证了LiveForesighter的有效性。自2024年7月起,该框架已在快手多个业务场景全面部署,日均服务4亿活跃用户。

1 引言

近年来,快手、抖音、小红书等新一代短视频与直播媒体应用在全球范围内获得广泛关注并快速发展。从广义上看,这些平台主要扮演着娱乐角色,用户通过算法推荐观看有趣内容。因此,构建强大稳健的短视频/直播推荐系统[12,30,39]是保障快手用户满意体验的基石。

与内容静态的短视频不同,直播作为一种更复杂的媒介形式,在连接用户与主播方面面临更大推荐挑战[18]:

  • (1)直播内容随时间动态变化,用户在同一直播间的不同时间点会获得不同体验,进而产生不同行为
  • (2)作为具有营收属性的服务,某些高价值行为(如才艺直播中赠送虚拟礼物、电商直播中购买商品)需要用户长时间观看(>10分钟)[8]。

对于直播服务而言,成功的推荐需要遵循以下数据漏斗链[25]:曝光→点击(对当前内容感兴趣)→长观看/打赏/购买(对未来内容感兴趣)。

因此,我们的直播推荐系统不仅需要捕捉用户兴趣[6,32]以了解其偏好的直播类型,更重要的是在合适时机向用户推荐这些直播。具体而言,用户兴趣建模技术已被DIN[47]、ETA[11]等众多研究深入探讨。因此,在直播推荐系统中,我们首先需要考虑的是:对于某个直播,何时是最佳分发时机

我们在图1中分析了直播的实证表现。

图片名称

图1

  • 图1(a)展示了一个才艺直播案例:这类主播会花费大量时间与观众聊天、与其他主播进行PK对决,偶尔展示歌舞等才艺。从观众数量的用户反馈可以看出,当主播处于歌舞状态时,观众数量会显著增加
  • 图1(b)展示了另一个电商直播案例:这类主播通常逐个销售商品。对于每个商品,他们会先花费大量时间介绍产品优势并与观众互动,然后在商品开售前提供倒计时,通常伴有折扣优惠。同样地,从观众数量指标可以看出,当主播介绍商品时,进入直播间的观众数量相对稳定,但当商品即将开售时,观众数量会突然增加

从这两个案例可以看出,不同类型的直播具有不同特征,其”高光时刻”内容也代表着不同的含义。但我们可以得出另一个结论:当直播处于”高光时刻”时,用户体验更好,表现出更多正向行为。因此,我们可以利用用户正向行为的增长趋势,自适应地发现高光时刻以实现更智能的推荐。

除了寻找最佳直播分发时机外,我们推荐系统的另一个目标是:促使用户为主播打赏或购买商品,这需要用户对直播内容保持长期兴趣。因此,在直播推荐系统中,我们需要进一步考虑的第二个问题是:除了当前时刻,未来内容是否符合用户兴趣?

我们以电商直播为例,在图2中展示了两个主播的销售商品及其对应类别的三级时序序列。左侧主播主要销售女装,但类别非常多样(如衣服、裤子、鞋子等),二级和三级类别不断变化。右侧主播主要销售美妆产品,产品相对垂直,主要是三级类别在变化。幸运的是,尽管产品多样,我们发现垂直领域中高度相关的产品会连续介绍/销售,例如夹克→大衣→毛衣,粉底液→遮瑕膏→定妆粉。从这两个案例可以看出,主播在直播中具有”风格一致性”,这使得我们可以预测未来产品与之前产品存在一定关联。

图片名称

图2

本文提出了一种简单而有效的生成模型LiveForesighter,这是一种实现更高质量直播推荐的新范式。具体而言,我们考虑两种直播序列来监控高光时刻并生成直播未来信息。

对于第一个挑战——挖掘直播高光时刻的分发时机,我们的关键思路是识别哪些直播正在经历用户正向行为的增长趋势。因此,为描述这种正向行为增长趋势,我们首先利用直播侧用户正向行为序列(如点击、购买)的统计特征来预测未来行为趋势。这样,我们的模型不仅可以实时监控内容质量以检测直播是否处于正向行为增长趋势和高光时刻,还能感知未来趋势以确保直播在一段时间内保持高质量。

对于第二个挑战——确保未来内容符合用户兴趣,本文通过LiveForesighter增强电商直播推荐,我们的关键思路是利用一系列历史销售商品来预测未来商品。通过这种方式,我们的模型不仅能判断用户当前是否喜欢直播,还能预测他们在不久的将来是否会继续喜欢其内容。

总之,我们的贡献如下: • 我们通过深入分析展示了直播推荐中的挑战,据我们所知,本文是首个从未来信息预测角度增强直播推荐的研究,这将为其他研究者探索更健壮的直播推荐系统提供启示。 • 我们开发了LiveForesighter,该模型考虑直播侧观众正向行为和历史内容序列,以监控直播行为增长趋势并生成未来内容信息。 • 我们在快手真实直播场景中进行了大量实验。结果验证了LiveForesighter的有效性,该模型已在快手部署,为我们的平台带来了显著提升。

2 方法

本节将详细介绍我们的生成模型[4] LiveForesighter。我们首先说明工业级直播推荐系统[13,46]的通用背景,然后深入探讨用于实时内容质量监控的统计序列建模细节,最后描述如何利用历史销售商品预测未来商品。

2.1 工业推荐系统背景

通常,推荐系统旨在从大量隐式反馈[20]中生成一个小规模物品集合,以最大化用户兴趣。然而在工业场景中,从数亿规模的物品池中准确高效地搜索出这些物品并非易事。为了在成本和精度之间取得平衡,近年来主流公司广泛采用两阶段范式:候选生成[19,48]和排序[34,37]:

  • 候选生成阶段:旨在利用多种来源、信号和模型,从百万级物品池中找出用户感兴趣的数百个候选物品[16]。例如,识别与用户偏好类别相符的高质量作者。

  • 排序阶段:旨在从检索到的数百个候选物品中找出最佳的少量物品[7]。例如,从所有候选中找出处于高光时刻或正向行为增长趋势状态的直播间。

显然,候选生成阶段(如用户兴趣建模)和排序阶段(如用户-物品对建模)在推荐系统链中扮演着非常不同的角色,因此使用的技术也有很大差异。例如,候选生成侧重于物品-物品关系挖掘[41]、用户兴趣压缩[19],而排序阶段则侧重于用户-物品交叉特征挖掘[27,30]和多任务学习[45]。在本文中,我们重点扩展后者的排序阶段,以构建更全面的直播推荐系统。

2.1.1 基础排序模型架构

我们首先简要回顾基础排序模型设计。在实践中,排序模型的目标是预测特定概率(例如点击率CTR、长观率LVTR、购买率CVR),以衡量用户-商品对的推荐价值。具体来说,在排序模型训练中,每个用户-商品样本由一系列离散化分类特征组成,例如用户ID、用户性别、商品ID、商品类目ID等,以及跨序列特征(如同类目下用户历史点击序列)。为简化表达,我们将每个训练样本的特征和标签表示为 $[V_{\text{user}}, V_{\text{live}}, V_{\text{cross}}]$ 和 ${y^{\text{ctr}}, y^{\text{lvtr}}, …} \in {0,1}$。基于用户-商品对的输入信息及其收集的标签,排序模型 $\text{Rank}(\cdot)$ 的训练过程可公式化为:

\[\begin{aligned} \hat{y}^{\text{ctr}}, \hat{y}^{\text{lvtr}}, \cdots &= \text{Rank}\left([V_{\text{user}}, V_{\text{live}}, V_{\text{cross}}]\right), \\ \mathcal{L}_{\text{rank}} &= -\sum_{\text{xtr}\in\{\text{ctr,lvtr},...\}} \left[ y^{\text{xtr}} \log\hat{y}^{\text{xtr}} + (1-y^{\text{xtr}}) \log(1-\hat{y}^{\text{xtr}}) \right] \end{aligned} \tag{1}\]

其中 $\text{Rank}(\cdot)$ 是基于多层感知机(MLP)的网络,$\hat{y}^{\cdot}$ 表示模型预测分数,$\mathcal{L}{\text{rank}}$ 是由多个二元交叉熵损失组成的排序损失函数。本文中,我们的LiveForesighter专注于生成直播信息表示 $V{\text{livefore}}$ 以增强排序模型能力。

2.2 统计序列建模

尽管广泛使用的直播侧特征(如主播ID、直播类目ID等)能在一定程度上表征主播信息,但仍难以描述实时变化的直播内容并回答关键挑战:对于直播而言,何时是最佳分发时机?

通过观察发现,用户正向行为增长趋势可自适应地反映高光时刻。因此我们首先显式引入统计序列来注入此类行为趋势知识以增强直播侧信息。实践中,我们添加以下统计序列类别:

  • 直播间外信息:曝光量、观众数等
  • 转化信息:GMV值、订单数、礼物价值等
  • 互动信息:评论数、点赞数等
  • 直播间内信息:点击商品/购物车等

我们以30秒为间隔采集这些序列,形成 $S = {s_1,…,s_N} \in \mathbb{R}^{N \times T}$ 表示$N$个序列在$T$个时间步长的数据。具体地,每个序列 $s_i = [s_{i,1},…,s_{i,T}]$ 其中 $s_{i,j}$ 为整型统计值。我们使用 $S_{1:T-5} \in \mathbb{R}^{N \times (T-5)}$ 表示时间步索引在$[1,T-5]$范围内的完整序列。

受自监督序列生成[33]启发,我们通过序列生成任务使模型捕获序列变换模式(假设预测后续5步): \(\begin{aligned} \bar{S}_{1:T-5}, \bm{\mu}, \bm{\delta} &= \text{ReVIN}(S_{1:T-5}), \\ \bar{S}_{T-4:T}, E^{\text{Stat}}_{1:T-5} &= \text{StatisticTransformer}(\bar{S}_{1:T-5}), \\ \hat{S}_{T-4:T} &= \text{De-ReVIN}(\bar{S}_{T-4:T}, \bm{\mu}, \bm{\delta}), \\ \mathcal{L}_{\text{Statistic}} &= \text{MSE}(\hat{S}_{T-4:T}, S_{T-4:T}) \end{aligned} \tag{2}\)

其中 $\text{ReVIN}(\cdot)$ 和 $\text{De-ReVIN}(\cdot)$ 是序列归一化技术[17]($\bm{\mu} \in \mathbb{R}^N, \bm{\delta} \in \mathbb{R}^N$),$E_{1:T-5} \in \mathbb{R}^{N \times D}$ 为输入序列编码结果,$\hat{S}_{T-4:T} \in \mathbb{R}^{N \times 5}$ 为多步预测结果,$\text{MSE}(\cdot)$ 为反映预测精度的训练损失,$\text{StatisticTransformer}(\cdot)$ 表示任意Transformer风格序列编码方法。本文为简化实现,使用iTransform[21]作为$\text{StatisticTransformer}(\cdot)$。

通过优化 $\mathcal{L}_{\text{Stat}}$,模型可获得预测不同直播未来行为趋势的能力。在实时推荐中,我们利用完整当前行为趋势预测未来信息: \(\begin{aligned} \bar{S}_{5:T}, \bm{\mu}, \bm{\delta} &= \text{ReVIN}(S_{5:T}), \\ \bar{S}_{T:T+5}, E^{\text{Stat}}_{5:T} &= \text{StatisticTransformer}(\bar{S}_{5:T}), \\ \hat{S}_{T:T+5} &= \text{De-ReVIN}(\bar{S}_{T:T+5}, \bm{\mu}, \bm{\delta}), \\ V_{\text{livefore}} &\leftarrow \text{stop}\left(\text{flatten}(\hat{S}_{T:T+5}), \text{flatten}(E^{\text{Stat}}_{5:T})\right) \end{aligned} \tag{3}\)

其中 $\hat{S}{T:T+5}$ 表示未来用户行为趋势预测,$\text{flatten}(\cdot)$ 为重塑操作,$\text{stop}(\cdot)$ 为停止梯度操作。通过结合当前序列表示 $E^{\text{Stat}}{1:T}$ 和预测结果 $\bar{S}_{T:T+5}$,排序模型既能实时监测内容质量以检测直播是否处于正向增长趋势和高光时刻,也能感知未来趋势以确保直播在一段时间内保持高质量。

2.3 商品序列建模

除寻找高质量直播外,推荐系统的另一目标是促使用户赠送礼物或购买商品,这需要用户长时间深度关注直播内容。本节旨在回答另一挑战:除当前时刻外,未来内容是否符合用户兴趣?

由于主播在直播中具有”一致性风格”,我们可利用历史直播内容预测未来信息。本文聚焦于预测未来商品信息以增强电商直播推荐。实践中,我们收集直播历史售卖商品ID及对应类目信息,形成商品序列: \(I = \{[p_1,c^1_1,c^2_1,c^3_1],...,[p_T,c^1_T,c^2_T,c^3_T]\} \in \mathbb{R}^{T \times 4}\) 其中 $p_i$ 为商品ID,$c^1/c^2/c^3$ 为从粗到细的类目信息。考虑到时间成本和生成空间,我们仅生成下一商品的最细粒度类目信息以平衡效果与效率: \(\begin{aligned} \bar{I}_{1:T-1} &= \text{EmbeddingLookup}(I_{1:T-1}, P, C^1, C^2, C^3), \\ \hat{c}^3_T, E^{\text{Prod}}_{1:T-1} &= \text{ProductTransformer}(\bar{I}_{1:T-1}), \\ \mathcal{L}_{\text{Product}} &= \text{Softmax}(\hat{c}^3_T, c^3_T) \end{aligned} \tag{4}\)

其中 $P \in \mathbb{R}^{ p \times D}, C^1 \in \mathbb{R}^{50 \times D}, C^2 \in \mathbb{R}^{1000 \times D}, C^3 \in \mathbb{R}^{5000 \times D}$ 为可训练嵌入矩阵,$ p $ 表示商品总数,$\bar{I}{1:T-1} \in \mathbb{R}^{(T-1) \times 4D}$ 为下游Transformer的输入嵌入,$E{1:T-1} \in \mathbb{R}^{(T-1) \times D}$ 为序列编码结果,$\hat{c}^3_T \in \mathbb{R}^{5000}$ 为细粒度类目预测分布,$c^3_T \in \mathbb{R}$ 为真实标签。

通过优化 $\mathcal{L}_{\text{Product}}$,LiveForesighter可捕获商品间潜在关联。随后利用最新商品信息预测未来商品类目: \(\begin{aligned} \bar{I}_{2:T} &= \text{EmbeddingLookup}(I_{2:T}, P, C^1, C^2, C^3), \\ \hat{c}^3_{T+1}, E^{\text{Prod}}_{2:T} &= \text{ProductTransformer}(\bar{I}_{2:T}), \\ V_{\text{livefore}} &\leftarrow \text{stop}(\hat{c}^3_{T+1}) \cdot \tilde{C}^3 \oplus \text{stop}(\text{flatten}(E^{\text{Prod}}_{2:T})) \end{aligned} \tag{5}\)

其中 $\hat{c}^3{T+1} \in \mathbb{R}^{5000}$ 为预测的下个商品类目信息,$\tilde{C}^3 \in \mathbb{R}^{5000 \times D}$ 为排序模型可训练参数矩阵。通过结合当前序列表示 $E^{\text{Prod}}{1:T}$ 和预测结果 $\hat{c}^3_{T+1}$,排序模型不仅能判断用户当前是否喜爱直播,还能预测其未来是否会持续感兴趣。LiveForesighter整体框架如图3所示。

图片名称

图3

实验

https://arxiv.org/pdf/2502.06557

kuaishou直播团队在《Moment&Cross: Next-Generation Real-Time Cross-Domain CTR Prediction for Live-Streaming Recommendation at Kuaishou》提出了它们的直播推荐:

摘要

快手作为全球领先的短视频与直播平台之一,其直播推荐(Live-Streaming Recommendation)相较于短视频推荐更为复杂,主要体现在:

  • (1) 内容具有瞬时性
  • (2) 用户可能长时间观看导致反馈延迟
  • (3) 直播内容不可预测且动态变化

事实上,即使用户对主播(live-streaming author)感兴趣,也可能因实时内容吸引力不足而产生消极观看行为(如观看时长<3秒)。因此,直播推荐面临核心挑战:如何为用户推荐恰逢其时的直播内容?

此外,平台主要曝光内容为短视频,其曝光量级是直播的9倍。这导致用户行为数据严重倾向于短视频,使得直播数据难以完整反映用户兴趣。由此衍生第二项挑战:如何利用短视频行为数据优化直播推荐?

针对第一项挑战,我们通过数据分析发现了一个有趣现象:当直播进入高光时刻(如舞蹈片段),点击率(CTR)会显著攀升。受此启发,我们认为可通过群体用户对当前直播片段的实时行为数据,自动识别”高光时刻”。因此,我们致力于让模型快速感知实时行为,从而识别处于CTR上升阶段的直播。为实现这一目标,我们升级了数据流引擎至30秒实时上报机制,并设计了创新的首帧掩码学习策略(first-only mask learning strategy)来监督我们的模型:Moment)。

针对第二项挑战,我们主要基于搜索式兴趣建模思路:先通过通用搜索单元(GSUs)检索用户历史短视频/直播行为,再利用压缩搜索单元(ESUs)进行特征提炼。此外,引入对比学习目标对齐短视频与直播的嵌入空间以增强关联性(Cross)。通过大量离在线实验与消融研究,我们验证了Moment&Cross框架的有效性。

1 引言

近年来,快手、抖音等短视频与直播平台快速发展,吸引了大量用户并积累了庞大的活跃用户群体。在快手平台上,用户主要通过滑动页(slide page)浏览内容——系统会根据用户的上下滑动行为自动播放推荐内容。因此,强大的推荐系统(RecSys)[9, 10] 是服务的基础,它直接影响用户体验,决定用户接下来观看什么内容。

相较于已被广泛研究的短视频推荐 [29, 31, 34, 39],直播推荐 [25] 更具挑战性,主要源于其媒介特性:

  1. 瞬时生命周期:短视频可长期分发,而直播内容具有临时性(平均1小时)。
  2. 长反馈延迟(Longterm feedback delay) [2]:短视频平均时长约55秒,用户行为可快速上报并用于模型训练;而直播时长较长,部分高价值反馈(如用户购买虚拟礼物)可能延迟半小时才发生。
  3. 动态内容变化 [30]:短视频始终从0秒播放,而直播内容实时变化,用户在不同时间点进入直播间可能产生截然不同的行为。

因此,直播推荐系统需解决一个关键问题:如何为用户推荐恰逢其时的直播内容? 我们通过图1中的两个案例说明:

图片名称

图1 介于“高光时刻”、实时观众和点击率趋势之间的典型的直播模式

  • 才艺直播(talent show):主播大部分时间与观众聊天或PK,偶尔展示才艺(如舞蹈)。数据分析显示,高光时刻(如才艺展示)的用户进入率显著提升,结束后则快速下降。
  • 游戏直播:主播逐局进行比赛,实时观众数随比赛进程累积,比赛结束时骤降。

实际上,无论创作者属于何种类型,用户点击直播的动机往往是:为了观看高光时刻。但由于直播内容瞬息万变,准确预判哪些直播间即将出现高光时刻并非易事。值得庆幸的是,基于海量用户实时行为数据,我们可能找到自动识别”高光时刻”的潜在解决方案:如图1所示,CTR趋势曲线与用户点击行为呈现高度同步性(波峰波谷完全对应)。这意味着,如果模型能够捕捉CTR的上升趋势,就能通过大量用户正向反馈自动发现潜在的高光时刻。

除了高光时刻捕捉的挑战外,我们的直播模型还面临更严峻的问题:数据稀疏性。在滑动页面上,用户通过上下滑动屏幕可以交替观看短视频和直播内容。然而该页面约90%的曝光内容为短视频,导致直播推荐系统存在无法充分学习用户兴趣以进行精准CTR预测的风险。由此引出一个关键问题:如何利用用户丰富的短视频行为来优化直播推荐?

为解决这个问题,我们首先说明系统架构的工作流程(如图2所示)。工业实践中,不同业务线独立部署——例如用户的短视频实时交互行为(长观看、点赞等)仅由短视频数据流引擎汇总并组织成特定训练样本格式,短视频模型通过消费该数据流来拟合实时数据分布以实现精准推荐。由于不同数据流引擎生成的训练样本格式各异,直播模型只能通过用户的直播数据流进行监督训练。

虽然无法直接消费短视频数据流,但我们已构建历史存储服务来保存用户交互日志[8,13]。数据流引擎可通过请求获取用户在其他业务线的交互历史,将其整合为输入特征的一部分。通过这种方式,我们实现了直播与短视频嵌入空间的对齐,使模型能根据用户的短视频兴趣偏好,推荐风格相似的直播内容。

图片名称

图2 快手短视频与直播服务的Slide页面推荐系统架构中,各业务采用独立的数据流与模型体系。系统仅能通过调用”交互日志”存储服务来追溯用户历史短视频行为,以此挖掘关联的小众内容项,作为获取跨业务用户日志的唯一途径。

本文提出高效解决方案Moment&Cross,旨在构建下一代直播推荐框架。针对首个挑战,我们的目标是:使直播模型能够感知哪些直播间存在点击率(CTR)上升趋势。为此,需要实时利用用户行为数据快速训练模型,以捕捉每个直播间的实时CTR状态。如图2所示,CTR信号首先上报至直播数据流引擎,再输入模型。但如同多数工业级推荐系统,上报模块需等待约5分钟收集足够行为数据后批量上报。虽然快手直播服务多年来一直采用5分钟固定窗口的数据流机制,但这种延迟已无法满足实时捕捉CTR趋势的需求。为此,我们将训练框架从”快慢上报”升级为”30秒实时上报“,并设计名为Moment的新型首曝掩码学习策略进行模型监督。

针对第二个挑战,我们致力于挖掘用户历史短视频序列并将其嵌入空间与直播内容对齐。由于用户短视频历史过长(例如活跃用户单月观看量可达万级),我们主要采用级联搜索式兴趣建模框架:

  • (1)通过通用搜索单元(GSU)回溯用户全生命周期历史,筛选获取百量级相关项序列;
  • (2)设计精确搜索单元(ESU)压缩序列信息获取用户兴趣,如序列池化、目标项注意力等机制。

此外,引入对比学习目标对齐短视频与直播的嵌入空间以增强关联性,使模型能根据用户丰富的短视频交互历史推荐风格相近的直播内容,该模块命名为Cross。本文主要贡献如下:

  • 我们提出了一种创新的实时学习框架,旨在自动发现”高光时刻”直播内容,从而构建下一代直播推荐系统:
  • 首创实时学习框架:开发了能自动识别直播高光时刻的新型算法架构
  • 设计高效迁移技术:通过简洁而有效的技术方案,实现用户短视频兴趣向直播推荐的迁移
  • 验证系统有效性:通过大量离线与在线实验验证Moment&Cross框架,目前已在快手直播服务中部署,为4亿用户提供服务

2 快手直播中的Moment&Cross框架

工业级CTR预测模型[14]的训练过程包含两个核心组件:

  • (1)用于组织训练样本特征与标签的数据流引擎,
  • (2)基于多任务学习[23]的模型架构(用于拟合点击、点赞、长观看等真实交互行为)。

在本节中,我们将:

  • 首先回顾原有5分钟快慢(Fast-Slow)直播数据流引擎构建与CTR模型学习范式的总体框架,
  • 继而介绍新型30秒实时数据流引擎及其首创的首曝掩码学习策略
  • 最后阐述我们用于捕捉用户长短期短视频交互模式的跨域技术方案

2.1 基础架构:5分钟快慢窗口数据流

数据流引擎作为工业级推荐系统的基础组件,其原始实现方案是:在用户完成内容消费(如观看并滑动至下一个短视频、听完一首歌曲)后收集行为日志进行上报。这种方案对短视频服务已足够”实时”——由于用户平均在1分钟内就会离开当前短视频,所有交互反馈都能快速收集完成。然而在直播场景中,用户可能持续观看较长时间(如30分钟甚至80分钟),若仍采用退出时统一收集的机制,将导致模型训练无法达到足够的实时性。

为此,当前主流直播数据流引擎普遍采用固定时间窗口(如5分钟)的模式来上报和组装训练样本特征与标签。但直播服务的一个显著特点是:不同类型用户行为的时间分布差异极大,某些高价值交互(如观看半小时后打赏主播)很难在小时间窗口内被观测到。如图3所示,我们通过快慢窗口(fast-slow windows)混合机制实现平衡:快窗口负责上报所有交互实现快速训练,慢窗口则补报快窗口中未观测到的正样本

图片名称

图3 该报告对比了快慢双流(5分钟&1小时数据流)与实时30秒数据流在生成训练样本时的差异。我们仅展示最基础的样本格式(用户、直播间、点击、长观、点赞、评论、打赏)。具体而言:在快慢双流机制中,快流上报5分钟窗口内观测到的全量用户行为,慢流补充上报5分钟窗口未捕获但1小时窗口内观测到的正向行为;而在实时数据流中,我们每30秒立即上报用户首次正向行为,并在用户退出直播间时上报所有负向行为。根据样本上报的指示性关联关系,实时数据流能极速生成训练样本,从而助力模型实时捕捉直播间点击率上升趋势。

根据统计数据,大部分用户观看时长不超过1小时。因此我们将用户观看过程划分为三个监测周期来指导模型训练:

  • 快窗口(5分钟):上报所有观测到的正负样本,保障训练时效性;
  • 慢窗口(1小时)仅补报快窗口中遗漏的正样本,修正标签偏差;
  • 忽略窗口:超时后不再上报任何标签

该方案虽能缓解长尾行为缺失问题,但5分钟延迟仍不足以捕捉直播高光时刻的CTR瞬变。例如,才艺表演的高点击率可能在1分钟内达到峰值,而传统引擎需等待多个窗口周期才能响应。

2.2 理论基础:基于正样本未标注学习的CTR模型训练

广义而言,点击率预测(CTR)模型[36]位于推荐系统(RecSys)[26]的最终环节,用于对每个用户最相关的数十个物品进行排序,因此也被称为全排序模型(fullrank)[38]。实际上,全排序模型不仅要预测用户点击候选物品的概率(即CTR),还需同时预测:

  • 长观看概率(LVTR: long-view)
  • 点赞概率(LTR: like)
  • 评论概率(CMTR: comment)
  • 其他XTR指标

基于这些预测概率,我们可以设计复杂的加权计算规则,通过综合这些概率值来控制物品的最终排序得分。

通常,全排序模型的学习过程被建模为一个多任务[33]二分类问题,其目标是基于数据流训练样本学习预测函数 $f_\theta(\cdot)$。每个样本包含:

  • 用户/物品ID
  • 原始特征 $V$
  • 多个二元标签(表示行为是否发生): $y^{ctr} \in \lbrace0,1\rbrace, \quad y^{lvtr} \in \lbrace0,1\rbrace, \quad y^{ltr} \in \lbrace0,1\rbrace, \quad y^{cmtr} \in \lbrace0,1\rbrace$

具体而言,原始特征 $V$ 主要分为四类:

  • 用户/物品ID
  • 统计/分类特征
  • 历史交互序列
  • 基于预训练LLM的多模态[1,4]嵌入

这些特征通过投影转换为低维嵌入向量:

\[V = [v_1, v_2, \dots, v_n]\]

其中:

  • n 表示特征数量

在我们的直播场景模型中,人工设计了 $n > 400$ 维原始特征来表征用户、物品及上下文状态。基于输入样本特征和标签,模型学习过程可形式化为:

\[\widehat{y}^{ctr}, \widehat{y}^{lvtr}, \widehat{y}^{ltr}, \dots = f_\theta([v_1, v_2, \dots, v_n]) \quad (1)\]

其中:

  • $\widehat{y}^{ctr}$、$\widehat{y}^{lvtr}$、$\widehat{y}^{ltr}$ 等表示模型预测的概率值
  • $f_\theta(\cdot)$ 是一个多任务学习模块,可采用 MMoE[22] 或 PLE[28] 等架构实现。

接着,我们利用用户的真实行为数据监督模型训练,以优化模型参数。

对于快速数据流(5分钟延迟样本),它会上报所有观测到的正label和负label,因此采用标准的负对数似然loss进行训练:

\[L_{fast} = -\sum_{xtr \in \{ctr, \dots\}} \left[ y^{xtr} \log(\widehat{y}^{xtr}) + (1 - y^{xtr}) \log(1 - \widehat{y}^{xtr}) \right] \quad (2)\]

对于慢速数据流(1小时延迟样本),它仅上报缺失的正标签(即未被及时记录的正样本),掩码掉其他一致的正标签。因此,我们采用 正-无标记损失(Positive-Unlabeled Loss)[11,18,19] 来修正历史数据中因延迟上报导致的“伪负样本(false negative)”误差梯度:

\[L_{slow} = -\sum_{xtr \in missing} \left[ \log(\widehat{y}^{xtr}) - \log(1 - \widehat{y}^{xtr}) \right]\]

其中:

  • $missing$ 表示仅在1小时时间窗口内观测到的正样本标签

通过结合这两种损失函数 $L_{fast}$ 和 $L_{slow}$,我们的模型在直播推荐服务中实现了效果与效率的平衡训练。当模型收敛后,可将其部署为在线全排序模型,用于实时响应用户请求并选取最高分物品,计算方式如下:

\[Ranking\_Score = (1 + \widehat{y}^{ctr})^\alpha * (1 + \widehat{y}^{lvtr})^\beta * (1 + \widehat{y}^{ltr})^\gamma * ...\]

其中:

  • $\alpha,\beta,\gamma$为调节各行为权重的超参数。

2.3 Moment:实时30秒数据流(Real-time 30s)与首标签掩码学习机制(First-Only Label-Mask Learning)

如我们先前版本所示,这种结合5分钟快速数据流与1小时慢速数据流的正-无标记学习框架已在直播场景中迭代多年,是一个稳定可靠且经过验证的成熟学习框架。尽管效果显著,该框架仍存在若干局限性:

  • 固定时间窗口的覆盖不足:较小的固定窗口(1小时)不可避免地会遗漏部分高价值正样本(如礼物打赏行为)。表1展示了5分钟快速流与1小时慢速流在主要行为(点击、点赞等)上的标签一致性对比,数据显示稀疏行为(尤其是礼物及礼物金额)的标签覆盖率显著偏低。
  • 实时性瓶颈:即使5分钟的快速窗口仍无法满足实时性需求,难以捕捉CTR上升趋势以解决核心挑战:如何为用户推荐”高光时刻”的直播内容?

图片名称

表1 5-Min&1-Hour数据流的标签一致性

为此,我们已将训练框架从”快慢双流”升级为”30秒实时上报“机制,使模型能够近乎实时感知所有用户行为。理想情况下,当直播进入”高光时刻”时,短时间内会产生大量正样本梯度来优化模型参数,从而使模型能够:

  • 动态识别CTR处于上升趋势的直播间
  • 即时提升该直播间的在线CTR预测分数
  • 推动内容推荐给更多观看用户

然而,30秒的极短窗口可能带来与前面提到的数据流的不匹配风险:

  • 伪负样本(FN):与5分钟固定窗口相比,如果我们在用户观看30秒后上报所有正负行为,会引入大量“伪负样本(FN)”标签,因为部分行为是延迟发生而非未发生。
  • 频繁上报:相较于快慢双通道(5分钟&1小时)数据流对每种行为仅上报一次正样本标签,我们的30秒实时流可能多次上报同一行为(例如用户可能多次评论)。
  • 行为割裂:30秒实时数据流可能按时间顺序将同一行为的正样本标签拆分到多个训练样本中。这种方式下,早期正行为(如点击和长观看)更新的梯度可能影响后续正行为(如点赞或评论)的预测,导致模型参数被两次更新,从而高估后续行为的预测概率。

为解决伪负样本问题,受慢速1小时数据流中掩码标签(mask label)思路启发,我们设计了以下上报机制:

  • 正样本标签立即上报
  • 负样本标签仅在用户退出直播时上报

实验表明:尽管上报窗口大幅缩短(从5分钟→30秒),但数据量并未显著增加(约为快慢双通道数据流的2倍),因为新增样本主要依赖稀疏的互动行为(如点赞、评论、送礼)。

针对频繁上报问题,我们进一步引入首次正样本掩码策略(first-only mask),即仅学习每种行为的首次正样本,以保持与原有数据流的学习规则一致。因此,Moment模型的首次掩码学习可表示为:

\[L_{moment} = -\sum\limits_{first,exit}^{xtr} \Big[ y^{xtr} \log(\widehat{y}_{xtr}) + (1 - y^{xtr}) \log(1 - \widehat{y}^{xtr}) \Big]\]

…(5)

其中:

  • $𝑓𝑖𝑟𝑠𝑡$ :表示每种行为的首个正标签(其余标签被掩码)
  • $𝑒𝑥𝑖𝑡$ :表示用户退出直播时其他行为的正/负标签

在标签掩码设置下,我们可以用公式(5)替代公式(2)和(3)来支持模型训练,同时避免长期反馈延迟问题。对于超出风险阈值的交互行为,我们未观测到该现象,推测原因是:模型参数优化旨在拟合全体用户数据分布,难以对特定用户的直播模式过拟合。快慢数据流与30秒实时数据流的差异报告如图3所示。

2.4 Cross跨域方案:短视频兴趣迁移

在我们的模型部署页面中,曝光内容约90%为短视频,10%为直播。由于流量分布不均,我们必须解决以下挑战:如何利用用户的短视频行为优化直播推荐?

如图2所示,不同业务模型仅允许使用自身的训练数据流,因此我们的直播模型只能通过用户的直播行为进行监督训练。但幸运的是,我们已构建历史存储服务来保存用户交互日志,数据流引擎可向其他业务发起请求,获取用户历史交互记录,并将其整合为输入特征的一部分。

具体而言,在“交互日志”中,我们可以回溯用户最近观看的10,000条内容ID,并获取辅助信息(如时间间隔、内容多模态标签、标注等)。为建模此类长序列,业界常用方案是两级级联的“搜索-提取”方法[9,24,27]:

  • 通用搜索单元(GSUs):检索用户历史行为,筛选出数百条相关内容的序列;
  • 精确搜索单元(ESUs):聚合序列信息以压缩用户兴趣,例如通过序列池化(sequence pooling)或目标项注意力机制(target-item-attention)。

在实现中,我们引入多个GSU模块,从多维度搜索与目标直播候选相关的短视频交互行为,包括:

  • 最新短期短视频GSU:检索用户最近的数百条短视频交互行为$V_{short}$,精准反应用户的短期兴趣点。
  • 点积搜索长期短视频GSU:通过向量点积检索与直播候选内容嵌入相似度最高的短视频(记为$V_{long}$),判断用户对此类直播的偏好。
  • 作者ID硬搜索短视频GSU:检索用户历史中与目标直播作者ID相同的短视频(记为$V_{aidhard}$),直接反应用户对该作者的偏好。
  • 点积搜索长期直播GSU:获取$V_{livelong}$,通过相似短视频行为推断用户对此类直播的潜在兴趣。
  • 长观看行为混合GSU:基于用户长观看行为(如完整播放)硬搜索,生成直播与短视频的混合序列$V_{mixed}$。

(为简洁起见,我们使用以下符号表示不同的GSU序列嵌入:$V_{short} \in \mathbb{R}^{L \times D}$、$V_{long} \in \mathbb{R}^{L \times D}$、$V_{aidhard} \in \mathbb{R}^{L \times D}$、$V_{livelong} \in \mathbb{R}^{L \times D}$ 和 $V_{mixed} \in \mathbb{R}^{L \times D}$,其中$L$为序列长度。在获得序列嵌入后,我们首先通过对比学习目标对齐其嵌入空间:

\[\begin{aligned} \mathcal{L}_{cl}^{short} &= \text{Contrastive}\left( L_2(\text{Mean}(V_{mixed})),\ L_2(\text{Mean}(V_{short})) \right) \\ \mathcal{L}_{cl}^{long} &= \text{Contrastive}\left( L_2(\text{Mean}(V_{mixed})),\ L_2(\text{Mean}(V_{long})) \right) \\ \mathcal{L}_{cl}^{aidhard} &= \text{Contrastive}\left( L_2(\text{Mean}(V_{mixed})),\ L_2(\text{Mean}(V_{aidhard})) \right) \\ \mathcal{L}_{cl}^{livelong} &= \text{Contrastive}\left( L_2(\text{Mean}(V_{mixed})),\ L_2(\text{Mean}(V_{livelong})) \right) \end{aligned} \tag{6}\]

其中:

  • $\text{Mean}(\cdot): \mathbb{R}^{L \times D} \to \mathbb{R}^{D}$是压缩序列表示的简单池化函数,
  • $L_2(\cdot)$表示L2归一化函数,
  • $\text{Contrastive}(\cdot, \cdot)$是通过批内采样收集负样本的对比函数。

受C2DSR启发,我们发现混合的直播&短视频序列因其与其他序列存在部分相似性但非完全相同的特性,可作为对齐其他序列的基石。

随后,我们通过ESU模块执行目标项注意力机制,根据目标直播候选嵌入$V_{live}$实现细粒度兴趣提取:

\[V_{\cdot}^{ESU} = \text{target-item-attention}(V_{live}W^q,\ V {\cdot}W^k,\ V {\cdot} W^v) \tag{7}\]

其中:

  • $V_{live}$表示训练样本的所有直播侧特征(例如物品标签、直播间ID、作者ID等)

在获得增强的跨域短视频兴趣表示后,我们将其拼接以估计每个交互概率,如图中所示。

4.3 实验

本节中,我们在快手直播服务平台上进行了详细的离线实验和在线A/B测试,以评估提出的方法 Moment&Cross

4.3.1 基线模型与评估指标

如图4所示,在工业级排序模型中,多门混合专家模型(Multi-gate Mixture-of-Experts) 在估计多种交互概率中起关键作用,其常见实现包括MMoE [22]、CGC [28]、PLE [28]、AdaTT [20] 等。本文选择代表性的多任务学习方法CGC和PLE验证方案有效性。我们通过离线指标AUC和GAUC [37](用户分组AUC)评估模型排序质量,并在模型收敛后将其部署至快手和快手极速版的在线A/B测试平台,通过核心指标(如观看时长、礼物价值等)验证效果。

4.3.2 整体性能

表2展示了Moment和Cross模块的独立性能。具体而言,快手每日需处理数十亿请求,AUC和GAUC的0.10%离线提升足以带来显著在线收益。实验结果如下:

图片名称

表2

  • (1)实时数据流有效性验证
    我们实现两种多任务变体:PLE(Moment&Cross) 和 CGC(Moment&Cross),其中PLE是CGC的双层堆叠版本,也是实际部署的在线模型。表2显示,PLE变体较CGC变体性能更优,表明实时数据流可无缝支持其他模型,并通过首样本标签掩码学习策略提升效果。
  • (2)跨域短视频兴趣有效性验证
    通过消融实验逐步移除各GSU序列(如无短期短视频序列的Cross),发现:
    1. 所有Cross变体均显著性能下降,表明用户历史短视频或直播序列能增强兴趣捕捉能力;
    2. 相较直播序列,短视频序列(如短期序列$V_{short}$)对直播排序模型的预测信息贡献更大(提升0.9%),可能因用户90%的观看内容为短视频,其兴趣点更易通过短视频历史序列反映。

4.3.3 在线A/B测试

为量化Moment&Cross对直播服务的贡献,我们在快手和快手极速版进行在线测试,评估核心指标(如观看时长、礼物价值、点击率等)。表3展示了Moment和Cross的独立在线结果,并细分低/中/高付费用户群体验证跨域兴趣迁移效果:

图片名称

表3

  • Moment模块:实时训练模型在点击率(+1.63%/+0.64%)和观看时长(+4.13%/+1.85%)上提升显著,但礼物数量轻微下降(-0.55%/-1.22%),因礼物指标本身波动性较大且处于系统合理范围内。
  • Cross模块:观看时长(+2.27%/+2.48%)和礼物价值(+6.91%/+8.91%)提升显著,且低付费用户增长最明显,表明跨域兴趣迁移能有效缓解数据稀疏问题。

4.3.4 案例分析

本节通过三个案例说明Moment&Cross的实际影响:

  1. 高光时刻捕捉(图5(a)):
    滑动页可更多推荐“才艺主播的高光片段”,表明基于30秒实时数据流和掩码学习的范式能精准捕捉CTR上升趋势,提升用户体验并助力主播曝光。
  2. 跨域兴趣迁移(图5(b)):
    系统可为长期观看钓鱼短视频的用户推荐户外钓鱼直播。由于钓鱼直播属小众类别,缺乏短视频信号时难以有效推荐。
  3. 用户激活效果(表4):
    将用户分为低/中/高/全活跃群体,发现低活跃群体的点击、长观、点赞等指标提升最显著,表明跨域兴趣迁移能有效挖掘直播服务的潜在用户。

图片名称

表4:短视频兴趣对不同用户群体的影响

4 相关工作

近年来,直播已成为一种时尚现象,大量专业创作者通过直播媒体与观众互动。与传统推荐场景(连接用户与物品)不同,直播推荐旨在将用户与其感兴趣的主播进行匹配。相关研究进展包括:

  • 用户-主播关系建模:开创性工作LiveRec [25]通过自注意力机制建模用户-主播的重复消费关系;[12]提出损失重加权策略,根据观看时长动态调整损失权重。
  • 多模态信息融合:MTA [30]和ContentCTR [16]引入多模态组件融合文本、图像帧信息;Sliver [21]设计重推荐机制捕捉直播动态变化。
  • 图表示学习扩展:MMBee [17]通过图表示学习与元路径行为扩展策略,丰富用户与物品的多跳邻域信息。
  • 跨域信号利用:DIAGAE [35]通过直播域用户表征对齐其他富服务域表征;eLiveRec [32]针对电商直播推荐设计解耦编码器,分离用户对直播与商品的共享意图和直播特有意图。

与现有工作的区别
本文提出的Moment&Cross聚焦于解决两个核心问题:

  1. 时机感知推荐:如何为用户在合适时机推荐直播内容?
  2. 跨域兴趣迁移:如何利用丰富的短视频行为提升直播推荐效果?

方法创新性

  1. 数据流优化:升级实时数据流架构,提出”首样本标签掩码学习策略”(first-only mask learning),加速模型训练效率;
  2. 跨域框架设计:引入基于搜索的对比学习框架,通过对比目标挖掘跨域交互序列的关联性。

现有工作多关注静态特征或单域建模,而Moment&Cross通过动态数据流和跨域兴趣迁移,实现了对用户实时兴趣与跨域行为的联合建模,为直播推荐提供新的技术路径。 #

https://arxiv.org/pdf/2408.05709

kuaishou直播团队在《Ensure Timeliness and Accuracy: A Novel Sliding Window Data Stream Paradigm for Live Streaming Recommendation》提出了它们的直播推荐:

摘要

直播推荐系统旨在为用户实时推荐其感兴趣的直播内容。由于直播内容的动态变化特性,提升推荐系统的时效性成为关键问题。直观而言,数据的时效性决定了模型可学习时效性的上限。然而,现有研究均未从数据流设计的角度解决直播推荐系统的时效性问题。若采用传统的固定窗口数据流范式,则需在标注准确性和时效性之间进行权衡。

本文提出了一种名为Sliver的新型数据流设计范式,通过缩小窗口尺寸并相应实现滑动窗口机制,同时解决标签的时效性与准确性问题。此外,我们提出了一种时间敏感的重复推荐策略:通过周期性请求推荐服务,降低请求与展示之间的延迟,从而提升推荐服务及特征的时效性。

为验证方法的有效性,我们在快手直播平台采集的带时间戳标注的多任务直播数据集上进行了离线实验。结果表明,在四种典型多任务推荐模型中,Sliver在所有目标指标上均优于不同窗口尺寸的固定窗口数据流。进一步地,我们在快手直播平台部署了Sliver,在线A/B测试显示点击率(CTR)和新关注数(NFN)显著提升,再次验证了Sliver的有效性。

1 引言

在移动互联网时代,在线直播已成为最受欢迎的实时互动方式之一,并近年来快速发展[11]。通过直播平台,主播能够与观众实时分享其体验。多样化的直播应用场景随之涌现,包括在线教育[8]、电商直播[35]等。直播推荐系统专为这些平台设计,旨在向用户推荐其感兴趣的直播内容。与传统推荐系统不同,直播推荐的核心特征在于直播内容会实时动态变化[27]。例如,图1展示了直播内容的动态变化如何导致直播间真实点击率(CTR)的实时波动。因此,保障直播推荐的时效性成为直播推荐系统面临的重要挑战。

图片名称

图1:从该图可以看出,在直播间里,ground truth CTR随着直播内容变化而动态变化。这张图中的游戏图片代表时间轴中对应时刻的实时内容。我们可以观察到:直播内容在 一小时前和一小时后的ground truth CTR发生巨大变化,因为主播切换了游戏

现有研究主要从模型角度解决这一问题,通过向推荐模型中引入内容信息(如时间、多模态信息或用户动态行为)以捕捉直播内容的动态性[11, 13, 27, 36]。然而,这些工作均忽略了从数据层面建模直播时效性的关键问题。直观上,数据的时效性决定了模型可学习时效性的上限。换言之,若模型未使用最新样本训练,其时效性必然受限。在工业级推荐系统中,数据通常以流式形式呈现,推荐模型随新数据到达而增量更新(即流式学习)[3, 5, 31–33]。流式学习通过即时更新模型确保直播推荐系统具备一定时效性,但未解决一个核心问题:如何生成直播训练样本并保障其时效性?例如,理想情况下,用户行为(如点击)应在发生后立即转为训练样本,并通过流式学习更新模型

针对此问题,一种直观方法是采用主流的固定时间窗口数据流[9, 21, 25]并缩短窗口尺寸。然而,缩短窗口会引发延迟反馈问题[6, 9, 19]。如图2(a)所示,窗口外的长期行为(如关注)会被误标为负样本。这自然引出一个关键问题:如何同时保障直播数据流的时效性与标注准确性?

图片名称

图2 传统固定窗口数据流与我们的方法对比:传统固定窗口数据流在实时流推荐系统的时效性和准确性之间存在权衡。Sliver通过实现滑动窗口和重新推荐策略,确保了时效性和准确性。ST和LT分别表示服务时效性和标签时效性。

本文首次从数据流设计的角度研究上述问题,提出了一种面向直播推荐的滑动窗口数据流范式(Sliver)。如图2(b)所示,Sliver通过滑动短时间窗口并在窗口结束时生成样本,其训练样本与真实行为间的延迟仅为窗口长度,从而本质性保障了时效性。同时,滑动窗口机制允许利用用户退出直播间的显式负反馈行为作为负样本,既确保了负样本的准确性,又有效解决了固定窗口数据流的延迟反馈问题。此外,考虑到在线推荐系统仅能使用请求时刻的特征和模型,而请求与展示间的延迟会损害推荐特征与服务的时效性,我们提出了一种时间敏感的重复推荐策略(re-reco),在推荐内容未展示时持续重新请求推荐服务,以保障特征与服务的实时性。

为验证数据流的有效性,我们基于中国头部短视频与直播平台快手APP的实时数据构建了带时间戳标注的真实直播数据集,并展示了该平台上直播推荐系统的三种数据流演进过程(延迟从小时级逐步降至秒级,时效性逐代提升)。前两种为固定窗口数据流,第三种为Sliver数据流。基于多任务学习框架[4, 23, 24, 29],我们在离线实验中预测了用户多种交互行为(点击、关注、点赞),其中点击与关注目标在曝光空间预测,点赞目标在点击后空间预测[24]。实验结果表明,Sliver在所有目标上均优于两种不同窗口尺寸的固定窗口数据流,证明了从数据流视角兼顾时效性与标注准确性的必要性。最终,Sliver在快手APP上线后,两个页面的点击率(CTR)提升6.765%-8.304%,新增关注数(NFN)提升2.788%-3.697%,进一步验证了方法的有效性。

本文贡献总结如下:

  • 首次从数据流视角研究如何同时保障直播推荐系统的时效性与准确性;
  • 提出Sliver数据流范式,通过滑动短窗口连续生成样本,在保障时效性的同时,利用直播间退出行为避免延迟反馈,确保标注准确性;
  • 提出时间敏感的重推策略(re-reco),保障推荐特征与服务的实时性;
  • 开源带时间戳标注的真实直播数据集,并进行离线实验。Sliver在快手平台部署后,在线实验表明其在离线与在线环境中均优于高延迟、低准确性的传统数据流。

2 相关工作

2.1 直播推荐

随着直播作为一种新兴社交媒体形态的发展,直播推荐日益受到关注。与传统静态物品推荐问题不同[17, 26, 30, 37],直播内容具有动态变化的特性。现有研究提出了多种方法应对直播推荐问题:

  • LiveRec[27] 将时间内容融入历史交互的自注意力机制,增强模型的时间敏感性;
  • [36] 利用LSTM和基于注意力的模型联合提取主播与观众的偏好;
  • DRIVER[13] 通过分析用户在直播间的动态行为学习动态表征;
  • ContentCTR[11] 采用多模态Transformer提取直播画面中的多模态信息。

这些工作均从模型角度解决直播推荐的时效性问题,而本文首次从数据层面探究时效性建模。

2.2 流式推荐与延迟反馈

为应对用户偏好持续变化等现实动态性,研究者提出流式推荐[5, 7, 12, 16, 33],其核心是通过时间轴上的数据与模型同步动态更新。虽然流式推荐可处理直播内容的动态变化,但现有工作均未考虑如何设计数据流以满足直播推荐的时效性需求。若简单缩短固定时间窗口尺寸,会引发延迟反馈问题[6, 9, 19]。当前解决方案主要分为两类:

  1. 延迟时间分布建模[6, 34]:仅优化观测到的行为信息,无法充分利用正向反馈;
  2. 样本复制机制[9, 15, 21, 22]:复用窗口外的延迟行为,并通过重要性采样校正数据分布偏差

这些方法始终面临时效性与标注准确性的权衡问题,尤其对时效性要求更高的直播推荐场景。本文提出的滑动窗口范式可同时保障两者。

2.3 推荐系统中的多任务学习

多任务学习(MTL)[2, 28]通过利用多任务间的关联信息提升整体泛化性能。现代工业级推荐模型常采用MTL捕捉用户多样行为偏好:

  • Shared Bottom[28]:硬参数共享,基于共享输出独立预测各任务;
  • MMOE[23]:类似MOE[18]共享所有专家网络,但为各任务设计独立门控网络融合专家;
  • ESMM[24]:软参数共享结构,通过序列模式联合优化两个相关任务以解决目标稀疏性问题;
  • CGC/PLE[29]:为各任务设置共享与专属专家,缓解任务冲突与负迁移现象。

这些多任务学习模型可与本文方法互补——我们提出的数据流范式可作为插件增强直播推荐系统中多任务模型的在线性能。

3 方法论

本节首先形式化流式数据环境下的多任务直播推荐问题并解释关键符号,随后详细阐述提出的Sliver数据流及其在快手直播推荐场景中的演进过程,最后展示基于Sliver数据流的建模方法。

3.1 问题定义

定义流式数据环境下的多任务直播推荐问题:设$\lbrace D_{\mu} \rbrace_{\mu=1}^\infty$表示数据流,其中:$D_\mu$为时间戳$\mu$处的直播训练样本,其形式为:

\[\mathcal{D}_\mu = \left\{ \mathbf{U}_t, \mathbf{I}_t, \mathbf{A}_t, Y^b_\mu = f_\mu(y^b) \right\}\]

这里:

  • $t$为推荐服务请求时刻
  • $U_t, I_t, A_t, Y^b_\mu$分别表示用户、直播内容、主播及标注的用户行为$b$(如点击、点赞、关注)

如图3所示,推荐的直播内容在$\tau$时间后展示给用户,经过$\eta$时间后在时刻$\mu$生成训练样本并增量更新推荐模型。

图片名称

图3 在流式推荐系统中生成一个样本的时间线示意图。请求、曝光和样本生成之间的时间间隔分别为 𝜏 和 𝛿 。$Y_b$ 是用户在曝光后在现实世界中发生用户行为时刻的随机变量。

设$Y^b$为随机变量,其取值$y^b$表示用户行为实际发生的时刻。若$y^b < \mu$,则$f^b_\mu(y^b)=1$作为正反馈;若$y^b > \mu$,则$f^b_\mu(y^b)$为不确定反馈。我们的目标是估计下一请求时刻$t’$的用户行为概率$P(Y^{b}{t’}=1 \mid U{t’}, I_{t’},\theta_\mu)$,其中$\theta_\mu$为通过$D_\mu$增量学习的多任务模型参数。

由于直播内容$I_t$随时间动态变化,$t$与$t’$时刻的特征分布会发生偏移。此外,即使初始推荐结果在$t$时刻是及时的,经过$\tau$延迟后也可能过时。因此,延迟$\tau$和$\delta$共同决定了推荐服务和训练样本的时效性。模型参数$\theta_\mu$基于延迟样本学习,样本时效性越高,模型提供的推荐结果越及时——这成为我们从数据流设计角度提升时效性的核心动机。

3.2 快手APP直播数据流演进

图4展示了快手APP直播数据流的演进过程,包括两种固定窗口数据流(1小时/5分钟窗口)和我们提出的30秒间隔Sliver数据流。

图片名称

图4 快手直播平台数据流演进概览:从一小时数据流到五分钟数据流,再到Sliver数据流,时效性不断提高。一小时数据流以请求时刻作为一小时窗口的起始点。五分钟数据流以曝光时刻作为一小时窗口的起始点。我们提出的Sliver数据流利用30秒滑动窗口来平衡时效性和准确性。

3.2.1 固定窗口数据流范式

工业推荐系统主流数据流范式[9,21,25]为:从特定时刻(如用户请求)开始,在预定义窗口$w$内记录用户行为,窗口结束时生成样本。据此构建的1小时固定窗口数据流可形式化为:

\[\tau + \delta = w_h\]

如图4顶部所示,若用户在$t$时刻请求服务,则$t < y^b < t+w_h$内的行为$b$将被记录,并在$\mu=t+w_h$时刻作为正样本;若直播已展示但窗口内无行为发生,则作为负样本:

\[f^b_\mu(y^b) = \begin{cases} 1, & t < y^b < t+w_h \\ 0, & y^b > t+w_h \land \tau < w_h \land b \in \mathcal{S}_{imp} \\ 0, & y^b > t+w_h \land t < \eta_c < t+w_h \land b \in \mathcal{S}_{post} \end{cases}\]

其中:

  • $S_{imp}$为曝光空间(点击/关注行为),$S_{post}$为点击后空间(点赞行为)。

然而,直播内容在1小时前后的数据分布差异显著,严重削弱推荐时效性。此外:

  1. 请求与曝光间存在数分钟延迟$\tau$,影响服务时效性;
  2. 用户关注行为若发生在窗口中期,需额外等待半小时才能转为训练样本;
  3. 直播特征的整体延迟$\tau+\eta$达1小时,无法满足特征实时性需求。

3.2.2 滑动窗口数据流范式

为缓解上述问题,如图4中部所示,我们将时间窗口缩短至5分钟($w_m$),并从直播曝光时刻开始计算窗口:
\(\delta = w_m \tag{3}\)
选择曝光而非请求时刻作为起点,是因为请求到曝光的延迟可能超过5分钟,这会导致大量未曝光样本被误判为负样本。5分钟数据流的标签逻辑可形式化为:
\(f^b_\mu(y^b) = \begin{cases} 1, & t + \tau < y^b < t + \tau + w_m \\ 0, & y^b > \mu \ \land\ b \in \mathcal{S}_{imp} \\ 0, & y^b > t + \tau + w_m \ \land\ t + \tau < \eta_c < t + \tau + w_m \ \land\ b \in \mathcal{S}_{post} \end{cases} \tag{4}\)
该方法缩短了$\delta$的延迟,一定程度上提升了样本时效性。但减小窗口尺寸会引发延迟反馈问题[6,9,19]。以图4为例:若用户的关注行为发生在5分钟窗口外,该样本会因延迟反馈在训练时被误标为假负样本。如图5所示,曝光后5分钟的标签准确率约为点击86%、关注和点赞80%。该问题在1小时数据流中不显著,因为标签准确率随窗口增大而提升[9]。同时,与1小时窗口相同的延迟$\tau$仍会影响直播特征和推荐服务的时效性。

图片名称

图5

综上,固定窗口数据流存在两个时效性问题:

  1. 标签时效性与准确性的权衡不可避免;
  2. 请求与曝光间的延迟$\tau$限制了特征和推荐服务的时效性。
    我们通过滑动窗口数据流范式解决第一个问题,通过重推策略(re-reco)解决第二个问题。

3.2.3 滑动窗口数据流范式

固定窗口数据流中时效性与准确性权衡的根本原因在于:$y^b$的不确定性导致窗口截断后的样本分布偏离真实分布$Y^b$。受微积分思想启发,若将时间窗口视为微分,通过连续滑动窗口进行积分,则可逼近真实分布$Y^b$——微分保证时效性,积分保证准确性。这一思想催生了滑动窗口数据流范式。

如图4底部所示,Sliver以统一时间$t_{uni}$为起点,在每个滑动窗口结束时生成样本,并为每个窗口分配唯一ID索引。样本生成时刻$\mu_k$表示为:
\(\mu_k = t_{uni} + k * w_s \tag{5}\)
其中$k$为窗口ID,$w_s$为窗口尺寸(实际应用中设为30秒)。该方法将延迟$\delta$缩短至30秒,同时保障标签时效性与准确性。Sliver的标签逻辑如下:
\(f^b_{\mu_k}(y^b) = \begin{cases} 1, & \mu_{k-1} < y^b < \mu_k \\ 0, & y^b > \mu_k \ \land\ \mu_{k-1} < \eta_{exit} < \mu_k \ \land\ b \in \mathcal{S}_{imp} \\ 0, & \eta_{click} < \mu_k \ \land\ y^b > \mu_k \ \land\ \mu_{k-1} < \eta_{exit} < \mu_k \ \land\ b \in \mathcal{S}_{post} \end{cases} \tag{6}\)
其中$\eta_{exit}$为用户退出直播间的时刻。

相比固定窗口,滑动窗口数据流的优势在于:

  1. 低延迟:用户行为到样本生成的延迟$\delta$小于30秒,对内容动态变化的直播推荐任务更敏感;
  2. 高准确性:利用用户退出直播间且未发生行为的事实作为负反馈,确保负标签准确。

3.3 滑动窗口数据流下的建模

3.3.1 排序阶段的多任务模型

直播中并发的多样化用户行为共同影响推荐效果。我们采用统一的多任务模型捕捉这些行为的共享特征,其输入定义为:

\[\mathbf{x}_\mu = [\mathbf{x}^i_t, \mathbf{x}^u_t, \mathbf{x}^a_t] \tag{7}\]

其中$\mathbf{x}^u$、$\mathbf{x}^i$、$\mathbf{x}^a$分别表示用户特征、直播特征和主播特征。时刻$\mu$对任务$b$的预测表示为:

\[\hat{y}^b_\mu = f(\mathbf{x}_\mu, \theta_s, \theta_b) \tag{8}\]

$\theta_s$和$\theta_b$分别为多任务模型$f$的共享参数和任务专属参数。采用多目标损失优化模型:

\[\mathcal{L} = \sum_{b \in B} w_b * \mathcal{L}_b \tag{9}\]

$w_b$和$\mathcal{L}_b$为各任务的权重和损失,使用标准对数似然函数[38]优化不同目标:

\[\mathcal{L}^b_\mu = -\frac{1}{N_b} \sum \left( y^b_\mu \log \hat{y}^b_\mu + (1-y^b_\mu) \log(1-\hat{y}^b_\mu) \right) \tag{10}\]

$N_b$为时刻$\mu$行为$b$的样本数。最终通过多目标预测结果计算融合分数$s_{t+1}$,用于$t+1$时刻的在线排序:

\[s_{t+1} = \sum_{b \in B} \alpha_b * \hat{y}^b_{t+1} \tag{11}\]

$\alpha_b$为各目标的融合权重。

3.3.2 时间敏感的重推策略

尽管Sliver数据流训练的模型具有时效性,但推荐结果仍可能因客户端请求到实际曝光的延迟而失效。如图6所示,造成延迟的主因是直播推荐与短视频推荐在一次请求中混合,导致直播曝光时间不确定。

图片名称

图6

为此,我们提出时间敏感的重推策略:当直播间未被曝光时,每30秒重新请求时效敏感的直播推荐模型(re-reco),并用新结果替换原始推荐。该策略通过缩短延迟$\tau$保障了特征时效性,同时提升了整个在线推荐服务的实时性。

4 实验

本节通过大量实验验证所提出数据流方法的有效性。首先在离线环境下评估提出方法,随后报告在快手APP上的在线实验结果,最后展示提出的Sliver数据流在快手直播平台的实际部署方案。

4.1 离线评估

表1:数据集信息
| 类型 | 内容 | |——————|———————————-| | 用户特征 | ID、性别、年龄、城市、历史点击主播 | | 直播特征 | ID、直播类型 | | 主播特征 | ID、性别、主播类型 | | 用户行为 | 曝光、点击、关注、点赞、退出 |

4.1.1 数据集
针对直播推荐系统时序动态性研究的数据稀缺问题,我们收集并开源了来自快手平台的工业级直播数据集,包含详细时间戳信息。该平台日活跃直播用户超过300万。我们从2023年12月27日至29日的日志中抽取1%用户的三天数据子集(根据请求时间戳)。如表1所示,出于商业隐私考虑,数据集仅包含在线推荐系统的部分代表性特征和行为。每个行为均提供精确的发生时间戳,并根据时间戳信息按3.2节方法划分三种数据流。

4.1.2 评估指标
采用12月29日晚7点前的数据作为训练数据。为模拟在线场景:

  • 一小时数据流的训练样本最终请求时间为晚6点
  • 五分钟数据流的训练样本最终曝光时间为晚6:55

参照[32],使用晚7点后五小时数据作为测试集,在流式学习设置下增量评估训练模型。例如评估晚7-8点数据后,增加一小时训练数据再评估晚8-9点数据。为符合真实场景,我们将未发生正向行为且退出直播间的情况作为负样本。采用平均AUC(五次重复)[10]评估不同数据流训练的模型,并分别报告各任务的平均AUC得分。此外,使用RelaImpr指标衡量相对改进:

\[\text{RelaImpr} = \left( \frac{\text{AUC}(\text{被测模型})-0.5}{\text{AUC}(\text{基线模型})-0.5} -1 \right) \times 100\%\]

4.1.3 基线模型
为说明提出数据流范式的有效性,我们在典型多任务推荐模型上与两种固定窗口基线进行比较:

  • Shared Bottom[28]:共享底层DNN参数(隐藏层64,32),使用任务特定塔生成对应分数
  • MMoE[23]:共享多个专家网络和任务特定门控网络(实现中设3个专家,隐藏层64,32)
  • CGC[29]:为每个任务设置独立专家并保留共享专家(设1个任务特定专家和1个共享专家,隐藏层64,32)
  • PLE[29]:多层CGC版本(实现中使用两层CGC,第一层隐藏层64,32,第二层32,32)

所有模型的任务塔均采用三层DNN(隐藏层32,32,16)。

4.1.4 实现细节
基于TensorFlow[1]实现所有模型,使用Adam[20]优化器(学习率0.001)。离线训练批次大小设为4096,ID特征和辅助特征的嵌入维度分别固定为32和8,训练时忽略用户ID以保证结果稳定性。参数初始化采用Xavier方法[14]。

4.1.5 结果分析
表2展示了四种典型多任务模型在三种任务、不同数据流设置下的结果。可以看出:

  • Sliver数据流在所有模型和任务上均优于两种固定窗口数据流
  • 具体改进:
    • 点击行为:平均AUC提升4.55%-5.57%(RelaImpr)
    • 关注行为:提升3.81%-6.26%
    • 点赞行为:提升4.62%-7.82%

这表明Sliver能有效保证直播推荐任务的时效性和准确性。同时观察到:

  1. 点击性能提升主要来自时效性改进
    • 窗口从1小时缩短到5分钟可获得2.33%-3.29%提升
    • 进一步采用Sliver可获得额外提升
  2. 关注/点赞任务中,单纯缩小窗口可能不会带来改进(说明标签准确性的重要性)
  3. CGC模型性能最优(与[29]结论一致),PLE因多层结构适配性问题表现稍逊

4.2 在线A/B测试

我们在中国最大直播平台之一的快手APP上部署Sliver数据流,在精选页和单列页进行在线A/B测试,评估指标为CTR和新增关注数(NFN)。由于在线数据流经历两次升级(1小时→5分钟→Sliver),结果分两部分呈现:

表3显示五分钟数据流相比一小时数据流在四天测试中的提升:

  • 精选页:CTR平均提升13.653%,NFN提升6.091%
  • 单列页:CTR提升9.470%,NFN提升5.666%

表4显示升级到Sliver数据流并采用重推策略后的进一步改进:

  • 精选页:CTR再提升8.304%,NFN提升3.697%
  • 单列页:CTR再提升6.765%,NFN提升2.783%

每次升级都带来显著性能提升,印证了从数据角度提升时效性的重要性。

4.3 系统部署

图7展示了快手直播推荐系统架构,分为在线服务和数据流循环两部分:

图片名称

图7

在线服务流程

  1. 用户启动APP时,客户端请求直播推荐服务,依次调用召回、粗排和精排服务
  2. 为解决推荐结果时效性问题,采用3.2.2节提出的重推策略:
    • 根据推荐结果是否实际曝光决定是否重新请求精排模型
    • 直接从Redis获取候选列表(存储于首次请求阶段),节省召回/粗排资源

数据流循环(Sliver实现)

  1. 获取推荐结果后,基于用户信息和实时直播索引从KV存储获取特征
  2. 行为日志收集曝光后用户行为,30秒触发样本拼接
  3. 以流式学习方式增量更新精排模型

#

https://arxiv.org/pdf/2402.14399

清北研究者对于正负反馈,在用户者做了用户调研,并做了总结《Beyond Explicit and Implicit: How Users Provide Feedback to Shape Personalized Recommendation Content》,从用户的视角来看隐式反馈问题:

摘要

随着个性化推荐算法在社交媒体平台中变得不可或缺,用户越来越意识到他们影响推荐内容的能力。然而,关于用户如何通过其行为和平台机制提供反馈以塑造推荐内容的研究仍然有限。我们对34位算法驱动的社交媒体平台(如小红书、抖音)的活跃用户进行了半结构化访谈。除了显式和隐式反馈外,本研究还引入了有意隐式反馈,强调了用户通过感知到的反馈机制有意采取的行动来优化推荐内容。此外,研究发现反馈行为的选择与特定目的相一致。显式反馈主要用于定制信息流,而无意的隐式反馈则更多地与内容消费相关。有意的隐式反馈则被用于多种目的,特别是在增加内容多样性和提高推荐相关性方面。这项工作强调了显式-隐式反馈二分法中的用户意图维度,并为设计更能响应用户需求的个性化推荐反馈提供了见解。

1 引言

Ariela 是中国的一名设计专业本科生,同时也是一位热衷于社交媒体的用户。她对小红书上的个性化信息流着迷,这些信息流充满了时尚潮流、旅行建议和护肤产品,这些内容不仅引导她的购买决策,还帮助她探索新的兴趣爱好(见图1a和图1b,小红书用户界面)。随着每一次互动,平台似乎越来越了解她,持续推送符合她偏好的内容。与此同时,Ariela 使用抖音(中国版的 TikTok)在休息时进行轻松娱乐(见图1c,抖音用户界面)。她喜欢在抖音上观看短小有趣的视频。当算法推荐她不感兴趣的内容时,她会快速滑过,微妙地引导平台向她推送更多关于猫咪或搞笑短剧的内容

然而,Ariela 很快意识到,两个平台上的信息流曾经是多样化的,现在却变得重复,仅仅反映了她过去的选择。为了摆脱这种模式,Ariela 故意在小红书上搜索新的风格和趋势,或点击某些帖子的“不感兴趣”按钮,打破平台的常规推荐。而在抖音上,她会快速跳过她通常喜欢的视频,希望告诉平台推送一些不同的内容。

正如 Ariela 一样,我们越来越多地消费由社交媒体平台上的个性化推荐算法策划的内容,例如小红书、抖音等。这些算法旨在通过每一次点击、浏览或互动捕捉用户偏好,为每个用户创建一个档案,推荐不仅相关而且引人入胜的内容,从而吸引用户持续使用。用户通过民间理论(即“个人为解释技术系统的结果、影响或后果而发展的直观、非正式的理论”)形成对这些算法的理解,这些理论影响了他们与算法的互动方式。随着个性化推荐算法逐渐渗透到用户的线上和线下活动中,人们开始担心平台“窥探”他们的偏好,或将他们推入同质化的“回音室”或“信息茧房”。作为回应,用户开发了各种策略来影响推荐给他们的内容,例如不点赞、点击“不感兴趣”、搜索某些话题,或忽略他们喜欢的内容。这些策略基于一个假设,即用户的行为将被平台捕捉为对算法的反馈,从而影响未来的推荐

在系统工程的背景下,反馈已被广泛研究以提高信息检索和推荐系统的性能。这些系统依赖于显式和隐式反馈,这是现有文献中一个成熟的两分法:

  • 显式反馈是指用户为表达偏好而提供的直接输入,例如指定关键词、评分或回答有关兴趣的问题
  • 隐式反馈是指用户与系统的各种互动,例如浏览、选择、保存或转发内容,系统从中间接推断用户偏好

由于这两个概念都需要用户行为或互动作为输入,我们认为在个性化推荐平台上,用户策略性地利用他们的行为来塑造推荐信息流,构成了对系统的一种反馈形式。

事实上,用户对算法系统的策略性使用已经在人机交互(HCI)社区中得到了探索。例如,学者们研究了用户对算法的抵抗以及用户自主性。尽管这些研究强调了用户的意图和影响推荐信息流的潜力,但很少有研究将用户的感知与系统反馈机制联系起来。研究这种联系可以改进个性化推荐中的反馈设计。为了填补这一空白,我们的研究从一个更广泛的问题开始:用户如何通过他们的行为和平台机制提供反馈,以塑造和控制个性化推荐平台上呈现给他们的内容?

我们对34位个性化推荐平台(如小红书和抖音)的活跃用户进行了半结构化访谈。我们发现,用户采用了多种反馈机制来影响他们接收到的内容。这些机制从显式反馈(如将内容标记为“不感兴趣”)到隐式反馈(如点击和点赞),系统从中间接推断用户偏好。我们发现,传统的显式-隐式两分法未能完全捕捉到用户有意识地利用先前被归类为隐式反馈的行为来塑造推荐信息流的主动性。为了解决这一问题,我们将隐式反馈类别进一步划分为有意隐式反馈无意隐式反馈

与传统的隐式反馈作为被动或自然互动的理解不同,有意隐式反馈是指用户有意识地执行的行为,期望系统将其解释为他们偏好的信号。例如,快速跳过不喜欢的帖子,或故意点击感兴趣的帖子以获取更多相关内容的行为,在我们的研究中频繁出现。这些行为在以往的研究中被归类为隐式反馈,但其本质是明显有意的。同时,与显式反馈不同,有意隐式反馈允许用户在不直接表达偏好的情况下引导推荐。通过将意图维度引入两分法,我们强调了用户通过显式和隐式反馈行为主动参与塑造信息流的能力。通过识别有意隐式反馈,平台可以更准确地捕捉用户意图,并为用户提供更大的信息流控制感。

此外,我们发现用户的反馈行为与其目的密切相关。显式反馈主要用于信息流定制目标,例如减少不适当的内容和提高推荐相关性,而有意隐式反馈则在增加内容多样性和提高推荐相关性方面发挥了关键作用。无意隐式反馈则最常与内容消费相关。这些发现强调了在个性化推荐中更好地设计隐式反馈,并使反馈机制与用户的具体目的保持一致的必要性。

本研究的贡献如下:

  • 首先,研究提供了实证证据,展示了用户如何利用不同的反馈机制来实现他们在使用个性化推荐平台时的目的。
  • 其次,研究引入了有意隐式反馈的概念,扩展了传统的显式和隐式反馈两分法。有意隐式反馈捕捉了用户通过其行为影响算法及未来推荐信息流的意图。
  • 第三,研究为个性化推荐平台提供了设计启示,以支持更透明和目的导向的反馈机制。

2 相关工作

2.1 用户对个性化推荐的感知

个性化推荐平台利用算法根据用户的偏好和行为(如订阅、点击、喜欢与不喜欢、停留时间等)为用户定制内容 [1, 74, 84]。此前,推荐系统已广泛应用于搜索引擎、新闻消费和电子商务网站 [54, 68, 71]。在推荐算法的驱动下,推荐系统捕捉并分析用户的互动行为(如点击、购买或显式评分),以构建代表用户偏好和行为的用户模型。基于这些模型,协同过滤等推荐算法通过分析用户或物品之间的相似性,生成与每个用户档案匹配的个性化推荐 [85]。近年来,社交媒体平台越来越多地集成个性化推荐算法 [27],通过推送与用户偏好高度一致的内容来延长用户的参与时间,同时促进用户的内容创作和社交互动 [39, 72, 82]。

因此,个性化推荐算法逐渐在塑造用户所看到和了解的内容中扮演编辑角色 [26]。它们重塑了社交媒体中的内容消费 [7]、内容创作 [8, 14] 和在线社交 [19]。像抖音和小红书这样的平台在中国国内用户和国际受众(分别称为 TikTok 和 RedNote)中获得了极大的欢迎。这类平台允许用户直接与内容互动,并严重依赖算法来捕捉这些互动,而不仅仅依赖于账户关注,以优化个性化的图片或视频信息流 [11, 32, 47]。

然而,由于底层算法的不透明性 [26, 65],用户对个性化推荐平台的运作方式了解非常有限 [21]。这种理解的缺乏常常导致用户发展出“民间理论” [7, 15, 20, 62],以解释系统如何定制推送给他们的内容。例如,Klug 等人发现,TikTok 用户通常认为视频参与度、发布时间和标签的积累是影响平台算法推荐的关键因素 [47]。这些民间理论并非静态的,而是随着用户遇到新的经验和信息而不断演变,帮助他们更好地与算法系统互动 [14]。这些民间理论直接影响用户如何感知和与算法互动,基于此,用户会采取行动来控制算法,以改善内容个性化 [29] 或增加他们在社交媒体平台上的可见性 [8, 9]。内容创作者还会分享和讨论他们与算法的互动经验,即“算法八卦”,以共同优化他们的内容推广策略 [4]。

总之,个性化推荐平台重塑了用户在线消费、创建和分享内容的方式。然而,用户往往不清楚他们的互动行为是如何被平台处理的。随着用户形成“民间理论”来理解底层机制,探索用户如何与这些个性化推荐平台互动并提供反馈以塑造他们的推荐信息流变得至关重要,这也引出了文献综述的下一部分。

2.2 用户与推荐算法的策略性互动

用户越来越意识到他们的互动行为可能会影响算法,并进一步塑造他们的在线体验,有时甚至会让他们感到个性化推荐算法在“窥探”他们的想法 [18, 47]。这种意识导致了一系列用户行为,旨在“教导”、抵抗和重新利用算法 [43],以及个性化内容审核 [37]。

其中一些行为是微妙的内容修改操作,例如“伏地魔式操作”(即不提及某些词语或名称)和“截图”(即在不增加网站流量的情况下使内容可见)以控制他们的在线存在 [82],或者使用“算法语言”(即在创建或分享在线内容时故意更改或替换词语)以绕过算法审核 [48]。此外,用户花费大量时间和精力使用各种策略来对抗不想要的推荐内容 [64, 69],例如不点赞、点击“不感兴趣”、搜索新关键词 [43]、忽略他们喜欢的内容 [10],以及通过屏蔽特定关键词来配置个性化内容审核工具 [36]。一些研究挑战了那些加剧不平等和不公正的算法推荐和内容审核系统 [3, 40, 41, 70]。例如,TikTok 用户通过修改他们的互动行为(如关注用户和分享他们的内容)来影响他们的推荐信息流,使其与个人身份保持一致,并影响其他用户的信息流,以抵抗对边缘化社会身份的压制 [40]。他们还通过与特定标签和点赞互动来策划理想的“为你推荐”信息流,以应对感知到的不平等 [78]。为了避免社交媒体中的错误审核,用户使用编码语言或在感知到平台不成比例地删除边缘化用户身份相关内容时停止使用平台 [57],有时他们会在被“影子封禁”后选择切换账户 [55]。用户驱动的算法审计也被用来揭示有害的算法行为 [16, 75]。

因此,算法不仅通过用户与平台的有机互动来塑造,还通过用户策略性地尝试影响推荐信息流来塑造 [49]。例如,Haupt 等人将这一策略过程建模为一个两阶段的噪声信号博弈,用户首先在初始“冷启动”阶段策略性地消费呈现给他们的内容,以影响未来的推荐信息流,然后系统根据这些互动优化其建议,最终达到用户偏好被清晰区分的均衡状态 [29]。Taylor 和 Choi 扩展了人机互动的研究,指出用户注意到个性化并认为算法对他们的身份有响应,这进一步塑造了他们在平台上的互动和结果 [81]。一些研究还将用户有目的的操纵行为称为“游戏化”算法 [28, 67, 77]。内容创作者可能通过利用关系和模拟影响力来“玩可见性游戏”,以获得商业利益 [13]。虽然游戏化可能激发创新并发现现有平台的新用途 [2],但行为的策略性适应也可能被算法误解并降低其准确性 [10]。

这些研究表明,用户有意识地利用各种行为来影响算法并塑造他们的推荐信息流,这些行为受到他们对算法运作方式的感知或“民间理论”的指导。然而,很少有研究将这些用户感知与平台的底层反馈机制联系起来。理解用户的感知如何与算法的预期响应一致或分歧,以及它们如何相互作用以塑造推荐信息流,可以为个性化推荐系统的反馈设计改进提供参考。

3 研究方法

为了回答研究问题,我们对34位使用过个性化推荐平台(如小红书、抖音、快手和哔哩哔哩短视频)的用户进行了半结构化访谈研究。我们采用了归纳和演绎相结合的方法来分析数据。本研究已获得雪城大学机构审查委员会的批准,并遵循所有作者所在机构的伦理准则进行。

3.1 参与者招募

我们的目标是使用过个性化推荐平台的活跃用户。我们通过社交媒体平台、在线论坛和个人网络分发了预筛选问卷。入选标准包括:

  • (1)年满18岁;
  • (2)至少有六个月使用个性化推荐平台的经验

我们要求参与者自我报告他们常用的个性化推荐平台。预筛选问卷帮助我们选择了一组多样化的参与者,确保在性别、年龄、教育背景和日常使用模式上的差异。此外,我们采用了滚雪球抽样法,要求初始参与者推荐符合研究标准的其他用户。这种方法有效地覆盖了不同参与程度的用户,从主要消费内容的“潜水者”到积极发布和互动内容的“重度用户”。

我们总共招募了34名参与者:

  • 大多数参与者年龄在18-25岁之间(𝑛 = 25),女性参与者较多(𝑛 = 19)
  • 参与者报告使用了多个个性化推荐平台。抖音(𝑛 = 29,占参与者的85%)和小红书(𝑛 = 24,占参与者的71%)是最常用的平台;其他使用的平台包括哔哩哔哩短视频(𝑛 = 10)、快手(𝑛 = 7)和TikTok(𝑛 = 1)。这些平台都提供个性化推荐内容,包括短视频、图片和文本。小红书和抖音的主要界面如图1所示。快手的界面(见附录A中的图2a和图2b)与小红书类似,哔哩哔哩短视频的界面(见附录A中的图2c)则与抖音相似。
  • 参与者最常使用的平台的使用时长从不到一年到超过四年不等

根据报告,这些平台的大多数用户是35岁以下的年轻一代 [23, 56, 80],而小红书的用户中超过70%是女性 [23]。我们的参与者样本在年龄和性别分布上与这些平台的总体用户人口统计数据一致。更多参与者信息见附录C中的表5。

3.2 访谈流程

我们从2022年12月至2023年4月进行了半结构化访谈。每次访谈持续40至60分钟。访谈通过面对面或视频会议平台进行,以适应参与者的时间安排和地理位置。所有访谈均以普通话进行。参与者获得了25元人民币的补偿。参与者被告知他们可以随时退出研究而不会受到任何惩罚。

访谈协议旨在探索参与者与个性化推荐平台的互动。首先,我们询问了参与者的平台使用情况,包括他们使用的平台、感兴趣的内容以及与内容和平台的互动(如浏览、发布、点赞和搜索)。然后,我们询问了他们对个性化推荐和平台算法的理解与态度,以及平台使用的感知影响。特别是,我们深入探讨了参与者如何应对算法,例如他们管理内容曝光和内容偏好以及避免不想要内容的策略。最后,我们询问了他们对个性化推荐平台设计的总体建议

在访谈开始前,参与者被告知研究的目标和流程。每次访谈均在参与者同意的情况下进行录音,并详细记录关键点。录音被逐字转录并匿名化以供分析。

3.3 数据分析

我们对访谈数据进行了编码本主题分析 [5, 6]。首先,我们进行了归纳编码,允许主题从数据中自然浮现。然后,我们通过整合现有文献中的反馈概念进行了演绎分析,以进一步完善和应用编码。最后,我们进行了编码共现分析 [60],以探索用户反馈行为与平台互动目的之间的关系。

数据分析在MAXQDA上进行,编码本在研究人员之间共享以供讨论。所有访谈均以普通话进行分析,以保留原始细微差别和意义。选定的引述随后被翻译成英文以在本文中呈现。

归纳编码阶段,研究人员首先通读所有转录文本以熟悉数据,然后各自独立对转录文本的不同部分进行开放式编码,通过不断比较和备忘录记录使主题浮现 [59]。在此过程中,研究人员定期讨论以比较他们的编码并完善开放式编码方案。他们将编码综合为类别,并编写了初始编码本。类别包括:用户行为、互动目的、感知与态度、民间理论以及与算法互动的挑战。

过渡到演绎阶段,我们将编码结果与现有文献进行比较。我们发现,用户与算法的互动方式可以解释为用户向推荐系统提供反馈。根据现有文献,推荐系统反馈通常分为显式反馈和隐式反馈 [34, 35, 42]。显式反馈需要用户在其正常行为之外提供额外输入,例如评分和回答有关兴趣的问题,而隐式反馈则从用户与系统的自然互动中无干扰地得出,例如浏览、选择和转发 [42]。

我们观察到,在我们的研究中,参与者有意识地利用隐式反馈机制(例如点击帖子)向个性化推荐提供反馈。尽管一些塑造推荐信息流的策略性行为已在先前文献中记录 [10],但很少有研究将用户的感知与系统反馈机制联系起来。

通过与文献比较,我们完善了编码本。

  • 首先,我们缩小了重点,专注于两个编码类别:互动目的和用户行为。我们参考了文献中显式反馈和隐式反馈的既定类别 [34],对用户与系统的互动进行分类。
  • 然后,我们发现,在隐式反馈行为中,用户有意识地主动塑造推荐信息流,这与隐式反馈的原始定义相矛盾。

因此,我们将隐式反馈分为有意隐式反馈无意隐式反馈,以区分用户在隐式反馈行为中是否存在意图。总体而言,我们将用户的反馈行为分为三类:

  • 显式反馈:用户直接输入以表达其偏好或兴趣。
  • 有意隐式反馈:用户有意识地执行以影响推荐内容的行为,他们知道这些行为可能会被平台解释为推断其兴趣。
  • 无意隐式反馈:用户与平台的自然互动,没有任何刻意影响推荐内容的意图。

为了进一步理解和解释反馈行为,我们为每个识别出的行为映射了三个关键属性:

  • 特征(即支持反馈行为的特定平台功能,如“点赞”按钮或搜索框)、
  • 极性 [31, 35](即“正面”或“负面”反馈)
  • 最小范围 [63](即反馈应用的最小级别:“片段”、“对象”或“类别”)

我们仔细分析了所有提到的平台,以确定每个行为对应的功能,并根据参与者转录文本和平台功能的解释分配极性和范围。

然后,两名研究人员根据完善的编码本完成了演绎编码。对于前八份转录文本,他们独立编码并一起审查编码,以解决任何差异并相应地完善编码指南。这一迭代过程有助于确保解释的一致性。然后,他们独立编码了剩余的转录文本,每人负责13份。在此过程中,两名研究人员继续分享总结备忘录,并在每周与研究团队的讨论中解决任何歧义。

我们确定了反馈行为类型与平台互动目的(即内容消费、定向信息搜索、内容创作与推广以及信息流定制)以及特定信息流定制子目的之间的潜在相关模式。为了探索它们的关系,我们使用了编码共现分析。具体来说,我们识别了用户行为代码和用户目的代码在同一访谈片段中同时出现的实例。为了避免重复,我们使用MAXQDA对每个行为-目的共现实例在每位参与者中仅计数一次。例如,如果某个行为-目的共现在单个参与者的访谈中被多次提及,则仅计为该参与者的一个共现实例。然后,我们在三种反馈类型(即显式反馈、有意隐式反馈和无意隐式反馈)中汇总了这些共现实例。我们还对子目的(即提高推荐相关性、增加内容多样性、减少不适当内容和保护隐私)与用户反馈行为之间的共现进行了分析。值得注意的是,我们仅在有意隐式反馈和显式反馈中对子目的进行了计数,因为参与者未指定与四个子目的对应的无意隐式反馈行为。

4 研究发现

我们的分析揭示了三种用户反馈类型以及这些反馈如何与用户的目的相匹配。

  • 我们首先介绍三种反馈类型:显式反馈、有意隐式反馈和无意隐式反馈。
  • 然后,我们总结了用户与算法互动的四个目的:内容消费、定向信息搜索、内容创作与推广以及信息流定制。
  • 最后,我们展示了目的与所采用反馈类型之间的关系。

我们发现,显式反馈主要用于信息流定制,而有意隐式反馈在信息流定制中尤为关键,特别是在增加内容多样性和提高推荐相关性方面。无意隐式反馈则最常与内容消费和定向信息搜索相关。我们利用访谈数据来解释用户采用不同反馈类型以实现其目的的潜在动机。

4.1 个性化推荐内容的用户反馈类型

我们识别了六种显式反馈行为、九种有意隐式反馈行为和13种无意隐式反馈行为。正如在方法部分提到的,有意隐式反馈和无意隐式反馈的区别在于用户的行为是否有意向平台提供反馈。例如,用户可能出于欣赏而点赞帖子或关注用户,或者他们可能这样做是为了向算法传达他们的偏好。鉴于无意隐式反馈是平台常见且自然的使用方式,并且在大量先前研究中已被作为“隐式反馈”进行研究 [34, 42],本节我们重点解释显式反馈和有意隐式反馈。表1展示了这些行为及其对应的功能、极性、作用范围以及报告这些行为的参与者数量。附录B中的表4展示了无意隐式反馈的行为,包括创建、收藏和分享帖子、评论和查看评论、浏览个人主页、购买等。

4.1.1 显式反馈

在我们的分析中,显式反馈行为主要发生在对象范围内,并且都得到了特定平台功能的支持。最常用的显式反馈是:标记帖子为“不感兴趣”,共有21名参与者报告了这一行为。

  • 参与者将其用作负面反馈,以告知算法他们不希望在未来看到类似内容:P06表示这是“表达不喜欢的最直接和简单的方式,只需额外一步即可主动干预算法”。
  • 参与者提供了使用“不感兴趣”功能的各种原因,例如对帖子内容缺乏兴趣、广告以及内容质量差。有时,表达不感兴趣更多是在细粒度和微妙的内容层面上。例如,用户可能总体上喜欢时尚内容,但他们的品味差异很大,因此并非所有与时尚相关的帖子都对他们有吸引力(P08)。
  • 一些参与者强调了使用此功能减少同质化内容以获取多样化和吸引人的信息流的重要性。P13指出:“在将许多类似推荐标记为‘不感兴趣’后,可能会出现更多小众内容,使你的信息流更加多样化,并鼓励你在平台上花费更多时间。”尽管这一功能被广泛使用,但一些参与者发现平台并未有效或立即响应此反馈。
  • P12提到效果并不令人满意,因为“它停止推荐密切相关的内容,但继续推荐一些相关的内容”,这导致她减少了使用频率。与此同时,P08和P12观察到,通常需要多次尝试后,算法才会显著减少类似内容。P12推测平台需要一致的反馈才能逐步调整:“这不是一次性解决方案……我认为平台通过略微减少频率来测试你是否注意到,然后进一步减少。你需要持续提供反馈或明确表示你真的不喜欢这些内容,然后它才会逐渐调整。”(P12)

其他负面显式反馈包括屏蔽、举报和禁用个性化功能,这些行为使用频率较低:

  • 屏蔽是为了防止与特定用户的进一步互动,从而有效地从参与者的信息流中移除他们的内容。
  • 举报是为了将内容标记给平台的审核团队,表明该内容违反了社区准则。参与者只有在遇到强烈负面反应时才会选择屏蔽或举报,例如当内容具有冒犯性和不适当性时。
  • 与屏蔽和举报不同,屏蔽和举报针对特定对象(帖子或用户),而禁用个性化功能则在类别范围内传达整体不满

三名参与者曾尝试在小红书中禁用“个性化选项”功能,原因可能是隐私问题或为了避免平台过度学习他们的偏好而导致上瘾。然而,他们最终重新启用了该功能,因为发现非个性化信息流的相关性和吸引力大大降低。正如P01在禁用和重新启用个性化功能后反思的那样:

“禁用个性化后,我的小红书使用量显著下降,因为内容不再吸引我,所以我重新启用了个性化功能。重新启用后,我的观点发生了变化。我意识到启用个性化的好处在于它通过提供有针对性的推荐节省了大量时间,尤其是在搜索特定内容时。”(P01)

虽然大多数显式反馈是负面的,但参与者提到了两种正面显式反馈机制

  • 一种是使用标签在发布帖子时增加可见性,或关注感兴趣的内容。在小红书上,非内容创作者的用户可以收藏特定标签以关注更新并接收带有这些标签的推荐内容。然而,P09认为标签功能“主要有利于内容创作者增加流量,而不是观众”。她希望平台能够通过提供新帖通知,使收藏标签在类别层面上更有用,尤其是在小众领域。
  • 另一种正面显式反馈是订阅感兴趣的主题,这涉及选择偏好的内容类别或主题。这与关注单个用户或频道不同,因为它向平台传达了用户的总体兴趣,而不是订阅特定用户生成的内容。尽管平台允许后续编辑,但参与者要么没有注意到此功能,要么觉得没有必要进行更改。

4.1.2 有意隐式反馈

大多数有意隐式反馈行为是正面的。这些行为没有直接平台功能提示用户,主要依赖于用户自发提供反馈的意图。

忽略(在小红书中)或快速滑过(在抖音中)帖子,是20名参与者观察到的最常见的有意隐式反馈。忽略帖子是指故意不点击小红书推荐信息流中的某些帖子。参与者会“主动跳过”(P01, P07)、“过滤掉”(P04)或“不关注”(P11)他们不感兴趣的帖子。参与者通常将此行为与其相反行为——有意点击(一种正面反馈行为,14名参与者报告)结合使用。在抖音中快速滑过帖子是指快速跳过视频而不与之互动。作为一种负面反馈形式,以避免不感兴趣或同质化内容,一些参与者更喜欢忽略或快速滑过内容,而不是标记为“不感兴趣”,因为这种方式更高效且微妙。例如,P25认为某些内容是“现实世界的缩影”,不应被标记,即使这些内容对她个人没有吸引力,它们代表了社会和现实的多样性。P07认为,如果许多人将内容标记为“不感兴趣”,它可能无法到达需要它的人手中,因此她选择简单地滑过内容。P25和P07都使用忽略或滑过内容来传达微妙的负面反馈,因为标记“不感兴趣”会导致内容立即消失。尽管这种反馈很微妙,但参与者发现它相当有效。例如,P27说:“滑过是我处理不感兴趣视频的最快方式,平台会从这种行为中学习。”

另一种参与者常用的有意隐式反馈是发起新搜索。这是一种主动获取更有针对性的推荐内容的方法。参与者认为,搜索特定主题会促使算法更新他们的档案并推送更多相关内容。一些参与者还利用搜索或点击不相关的搜索推荐来寻求多样化内容或逃离“信息茧房”(P22, P29, P34)。P12表示,这可以被视为负面反馈,表明推荐信息流过于局限。她会“尝试发起一个新的搜索来覆盖压倒性的内容”,以告知平台向她展示其他内容。

尽管许多参与者观察到搜索反馈后推荐信息流的明显变化,但有时算法的响应可能不如预期那样准确或即时。例如,P12搜索了考试中心,但收到了各种与考试相关的帖子,例如好运仪式,她并不相信这些内容,但却引发了焦虑。P11强调了算法未能捕捉到她兴趣转变的问题:

“我非常喜欢《排球少年!!》,并多次搜索它。频繁的搜索和主页上相关内容的重复点击导致算法推送了大量《排球少年!!》的周边商品。但后来我转向了另一部动漫,系统仍然在我的信息流中充斥着《排球少年!!》的内容。即使我搜索了新动漫,平台仍然没有意识到我的兴趣已经转移。”(P11)

4.2 个性化推荐平台的使用目的

我们将用户与算法互动的动机分为以下几类:内容消费、定向信息搜索、内容创作与推广以及信息流定制。理解这些目的为解释反馈提供了背景,并有助于更好地调整推荐信息流以满足用户需求。

4.2.1 内容消费

所有参与者都报告的一个常见目的是消费推荐内容。这包括在小红书中无目的地浏览“探索”页面,或在抖音、快手或哔哩哔哩短视频的“为你推荐”页面中与连续的视频流互动。有时,这成为参与者日常习惯的一部分。例如,P09将小红书的探索页面用作“图书馆”,以获取与书法或绘画相关的创意灵感。当用户遇到他们觉得有趣或有用的内容时,他们会自然地采取进一步行动,例如与朋友分享、收藏或下载以备后用。相反,用户对推荐内容的不满(如感知到的低相关性或高度同质化)会引发信息流定制的目的。

4.2.2 定向信息搜索

另一个目的是更直接地搜索信息,例如搜索护肤技巧、食谱或旅行建议。这通常涉及验证和交叉检查信息,并根据内容的感知质量和真实性采取进一步行动,例如跨平台搜索或咨询朋友。其他几位参与者强调了个性化推荐平台上信息的即时性和相关性,指出他们现在较少依赖搜索引擎进行“日常查询”(P12)。例如,P12使用它来搜索可用的考试中心并比较其条件,她指出“平台提供了及时且有用的信息,而百度(中国搜索引擎)的结果往往过时或更官方。”

4.2.3 内容创作与推广

一些参与者分享了他们在这些平台上发布内容的经历,指出帖子能否获得广泛传播通常取决于他们对算法的理解以及他们能否有效利用它。忠实的发布者会密切关注他们的帖子流量并推测其背后的机制。例如,P14提到她的帖子浏览量有时会让她感到焦虑。她将流量有限归因于缺乏评论。P18提到策略性地使用标签和制作吸引人的标题以提高帖子的可见性。通过内容创作和推广,参与者更多地了解了算法。他们不仅利用这些知识作为内容创作者增加帖子的可见性,还作为内容消费者策划自己的推荐信息流。例如,P12观察到使用特定标签提高了她帖子的可见性。然后,她通过搜索这些标签来获取更多相关内容。

4.2.4 信息流定制

当用户对个性化推荐信息流不满意时,信息流定制的需求就会出现,从而引发用户采取有意识的行动来塑造他们的内容。我们的分析确定了信息流定制的四个具体目标:提高推荐相关性、增加内容多样性、减少不适当内容和保护隐私。

提高推荐相关性是最常见的目标,23名参与者报告了这一目标,他们主动采取行动以增加信息流中更相关和感兴趣的内容,或减少不感兴趣或无关的内容。特别是,参与者注意到,虽然算法最初很好地捕捉了他们的偏好,但当这些兴趣发生变化时,算法难以快速适应。这种算法响应的延迟要求用户不断引导算法以保持信息流的相关性和吸引力。

增加内容多样性由18名参与者报告,他们试图摆脱同质化内容,并通过更广泛的主题丰富他们的信息流。许多参与者对看到重复内容感到厌倦或烦恼。P15提到她不想再打开抖音,说:“我现在甚至感到浏览疲劳,经常觉得自己没有接触到任何新想法。”一些参与者担心,推荐内容与他们的个人偏好过于一致可能会缩小他们的视野或加剧极化观点。例如,P12觉得平台“故意试图取悦你,并希望你知道它在取悦你,这并不聪明,可能会让你陷入信息茧房。”P28说:“我们过去是让手机跟随我们的思想,但现在我们的思想跟随手机,所以结果不可避免地变得越来越狭窄。”这些担忧促使他们主动增加内容多样性。

减少不适当内容由11名参与者报告,当他们遇到引发强烈负面反应的内容时,他们会采取行动。这一目标主要是为了过滤掉广告或不适当和冒犯性的内容,以维持更愉快的在线环境。

保护隐私是一个较少报告的信息流定制目标。尽管许多参与者对平台侵犯隐私的行为(例如监控平台内与朋友分享的帖子、跟踪其他社交媒体上的对话,甚至窃听线下对话)表示反感和担忧,但只有两名参与者提到采取行动保护隐私。

4.3 用户目的与反馈类型的差异

在对参与者使用个性化推荐平台的目的进行分类后,我们进一步分析了这些目的与反馈类型之间的关系。我们通过编码共现分析将反馈类型映射到相应的目的。结果显示,所使用的反馈类型与目的高度相关。具体而言,有意隐式反馈显式反馈主要用于信息流定制,其中有意隐式反馈更多用于增加内容多样性和提高推荐相关性,而显式反馈则用于提高推荐相关性和减少不适当内容。无意隐式反馈则最常与内容消费相关。

4.3.1 反馈类型与一般目的的对应关系

表2展示了三种反馈类型与四个一般目的的频率分布。每位参与者可能报告了多种反馈行为及其对应的目的,因此总出现次数(𝑛 = 198)大于参与者人数。无意隐式反馈在不同目的中出现了105次,其次是有意隐式反馈(58次)和显式反馈(35次)。

总体而言,有意隐式反馈(75.9%,58次中的44次)和显式反馈(88.6%,35次中的31次)主要用于信息流定制,而无意隐式反馈(60%,105次中的63次)则最常与内容消费相关。

内容消费方面,63次实例强调了与平台的自然互动,例如点赞、分享或收藏帖子以表达欣赏或供未来参考。参与者还可能浏览内容创作者的个人主页、查看搜索提示或搜索更多信息以深入了解感兴趣的内容。例如,P18经常展开评论区以查看抖音提供的“热门搜索”,以快速找到关于帖子的解释或相关内容。所有这些自然行为随后会被算法视为无意隐式反馈,以优化推荐信息流。尽管参与者执行这些行为时并未报告有意影响算法,但一些参与者注意到算法已经对他们的行为做出了响应。P18注意到,当她在某人的个人主页停留时,平台开始推荐相关内容。

信息流定制方面,有意隐式反馈出现了44次,例如忽略或快速滑过帖子、点击帖子查看或发起搜索以塑造推荐信息流。例如,P27提到,在定制信息流时,他会花更多时间观看关于滑雪(新兴趣)而不是羽毛球(已知兴趣)的视频。此外,显式反馈出现了31次,例如将内容标记为“不感兴趣”或屏蔽内容,以主动干预算法。

定向信息搜索内容创作与推广方面,最常见的反馈行为分别是搜索信息和创建帖子。尽管在这些情况下,搜索和发布行为并非专门用于定制信息流,但系统仍将其解释为反馈并相应调整推荐内容。P11指出,在发布关于她最喜欢的偶像的帖子后,平台开始在她的信息流中推荐更多相关和流行的内容,尽管她的帖子本身并未引起太多关注。两名参与者提到明确使用标签进行内容推广。例如,P05在小红书上使用“笔记灵感”标签来提高帖子的可见性。

这些发现表明,当用户的意图是定制信息流时,反馈类型与他们在内容创作或消费等活动中的反馈类型存在明显差异。虽然信息流定制主要依赖于有意隐式反馈和显式反馈,其他目的则更多与无意隐式反馈相关。

4.3.2 特定信息流定制目的驱动的反馈类型

如表3所示,对于旨在提高推荐相关性的用户,有意隐式反馈(18次)和显式反馈(14次)都被频繁使用。忽略或快速滑过帖子是最常用的有意隐式反馈,而标记为“不感兴趣”则是最常见的显式反馈。P27断言,滑过内容已经有效地表达了不感兴趣,无需显式标记。P11解释说,她在这些反馈方法之间的选择取决于上下文和厌恶程度。她只会在“极度厌恶”推荐内容时使用标记为“不感兴趣”的选项。

“我之前没有搜索过《流浪地球》,但它仍然推荐给我。这可能是因为《流浪地球》最近很受欢迎,所以系统试图看看我是否感兴趣。如果我不关注,它们可能会消失。因此,对于这些探索性推荐,除非我极度厌恶,否则我通常只是滑过它们以获取一些新内容。”(P11)

如表3所示,当参与者试图增加内容多样性时,29次实例中有24次使用了有意隐式反馈,只有5次选择了显式反馈。主要的隐式反馈行为是发起新搜索。参与者发现,搜索某些主题会增加推荐信息流中相关内容的重要性,因此他们策略性地搜索新主题。正如P06推测的那样:“系统可能会根据该搜索更新您的用户档案或数据,然后开始推送与您新兴趣相关的内容。”

相比之下,12次实例中有10次选择了显式反馈来减少不适当内容。显式反馈被认为更快速、更直接地解决不适当内容问题。当参与者发现内容质量低劣、充满广告或令人不安时,他们倾向于将其标记为“不感兴趣”(P09和P16)。在遇到冒犯性的人身攻击或强烈不同意创作者观点的情况下,用户更有可能举报或屏蔽内容。

只有两名参与者提到他们通过显式禁用个性化选项来保护隐私。P01担心平台的数据收集和用户画像行为,决定关闭个性化功能以防止小红书利用他的互动建立详细的用户档案。P14表示,她尝试禁用个性化功能以保护隐私,但不确定“这是否真的有效”。

这些结果强调了用户的信息流定制目标及其对算法的理解如何驱动他们对个性化推荐平台的反馈类型选择。总体而言,参与者更多地依赖有意隐式反馈来增加内容多样性,而显式反馈则更常用于减少不适当内容。旨在提高推荐相关性的参与者则混合使用了隐式和显式反馈。与此同时,关注隐私保护的参与者采取了更被动的方式,很少使用反馈机制,这与旨在增加内容多样性的参与者积极使用有意隐式反馈形成鲜明对比。

6 结论

我们通过对34名小红书和抖音等平台上的活跃用户进行半结构化访谈,探讨了用户如何利用多样化的反馈机制来影响推荐信息流以实现特定目的。我们将各种用户反馈行为分为三类:显式反馈、有意隐式反馈和无意隐式反馈。我们还发现,用户选择的反馈类型与其目的密切相关。显式反馈主要用于信息流定制目标,例如减少不适当内容和提高推荐相关性,而有意隐式反馈在增加内容多样性和提高推荐相关性方面发挥了关键作用。无意隐式反馈则最常与内容消费相关。

本研究将意图维度引入传统的显式-隐式反馈二分法,并建议个性化推荐平台应更好地支持透明的有意隐式反馈和目的导向的反馈设计。通过更准确地捕捉用户的意图并提供灵活的反馈机制,平台可以增强用户的控制感和满意度,同时优化推荐系统的性能。未来的研究可以进一步探索用户反馈行为与算法响应之间的动态关系,以及如何通过设计创新来平衡个性化推荐与用户隐私保护之间的关系。

#

https://arxiv.org/pdf/2502.09869

kuaishou团队在《Unleashing the Potential of Two-Tower Models: Diffusion-Based Cross-Interaction for Large-Scale Matching》提出了使用diffusion的方法来做双塔模型:

摘要

双塔模型在工业规模的匹配阶段被广泛采用,覆盖了众多应用领域,例如内容推荐、广告系统和搜索引擎。该模型通过分离user和item表示,有效地处理大规模候选item筛选。然而,这种解耦网络也导致了对user和item表示之间潜在信息交互的忽视。当前最先进的(SOTA)方法包括添加一个浅层全连接层(例如,COLD),但其性能受限,且只能用于排序阶段。出于性能考虑,另一种方法尝试通过将历史正向交互信息视为输入特征(例如,DAT),从另一塔中捕获这些信息。后来的研究表明,这种方法获得的收益仍然有限,因为缺乏对下一次user意图的指导。为了解决上述挑战,我们在匹配范式中提出了一个“跨交互解耦架构”。该user塔架构利用扩散模块重建下一次正向意图表示,并采用混合注意力模块促进全面的跨交互。在生成下一次正向意图的过程中,我们通过显式提取user行为序列中的时间漂移,进一步提高了其重建的准确性。在两个真实世界数据集和一个工业数据集上的实验表明,我们的方法显著优于SOTA双塔模型,并且我们的扩散方法在重建item表示方面优于其他生成模型。

1 引言

推荐系统旨在通过推荐user感兴趣的内容,提升user体验和商业价值,从而促进user参与度和满意度。在工业场景中,如图1(a)所示,两阶段推荐系统被广泛用于在严格延迟要求下为user提供个性化内容。第一阶段称为匹配阶段,从大规模语料库中筛选出候选集。第二阶段称为排序阶段[1, 11],从中选择user可能感兴趣的最终结果。

图片名称

图1 现实世界中的两阶段推荐系统。(a) 两阶段架构包括匹配阶段和排序阶段,匹配阶段对大量item进行评分,而排序阶段则对较小的子集进一步优化评分。(b) 匹配和排序方法在准确性和效率上的直观展示,其中所提出的匹配方法源自排序方法,并优化为一种交叉交互架构。

匹配阶段是推荐系统的关键环节,它需要从数十亿规模的语料库中快速过滤掉不相关的候选内容。由于匹配模型对高精度和低延迟的要求,双塔模型[13, 23, 33, 35]成为候选匹配的主流范式,并支持高效的top-k检索[26]。双塔模型由两个独立的塔组成,一个塔处理查询(user、上下文)的所有信息,另一个塔处理候选内容的信息。两个塔的输出是低维嵌入,随后通过相乘对候选内容进行评分。

由于双塔模型是独立训练的,它们无法充分利用user和item特征之间的交叉特征或交互信息,直到最后阶段才进行交互,这被称为“晚期交互”[17]。最近关于获取交互信号的研究主要分为两种方法。一种方法通过在双塔架构中添加一个浅层全连接层,将其转换为单塔结构(例如COLD[32]和FSCD[22]),但效率仍然受限,且仅适用于排序阶段。另一种方法尝试通过从另一个塔中捕捉历史正向交互信息的向量来增强每个塔的嵌入输入(例如DAT[35]),但最近研究表明,由于缺乏对user下一个正向意图的指导,其增益仍然有限[18]。当前的最先进方法难以在模型效果和推理效率之间取得平衡。图1(b)从推理效率和预测准确性的角度描述了上述模型。

为了解决效率与准确性之间的权衡问题,我们提出了一种生成式交叉交互解耦架构的匹配范式,名为释放双塔模型潜力:基于扩散(diffusion)的大规模匹配交叉交互(T2Diff)。T2Diff通过扩散模块恢复目标item的指导,提取user-item交叉特征,突破了双塔架构的限制。考虑到匹配阶段大规模语料库带来的性能问题,我们没有采用单塔结构,而是通过生成式方法,在user塔中通过扩散模型重建item塔中包含的user正向交互。为了充分建模user和item特征之间的交互,我们引入了一个混合注意力模块,以增强从另一个塔中获取的user正向交互。该混合注意力模块通过与item信息和user历史行为序列的交互,更准确地提取user表示。

本文的主要贡献如下:

  • 我们提出了一种新的匹配范式T2Diff,它是一种生成式交叉交互解耦架构,强调信息交互,释放了双塔模型的潜力,同时实现了高精度和低延迟。
  • T2Diff引入了两项关键创新:
    • 1)通过基于扩散的模型生成user的下一个正向意图;
    • 2)通过混合注意力机制[29, 38]在模型架构的基础层面促进更复杂和丰富的user-item特征交互,从而解决“晚期交互”的挑战。
  • T2Diff不仅在两个真实世界数据集和一个工业数据集上优于基线模型,还展现了出色的推理效率。​

2 相关工作

基于嵌入的检索(Embedding-based Retrieval, EBR)

EBR 是一种使用嵌入表示user和item的技术,将检索问题转化为嵌入空间中的最近邻(NN)搜索问题[5, 15]。EBR 模型广泛应用于匹配阶段[12],根据user的历史行为从大规模语料库中筛选候选列表。通常,EBR 模型由两个并行的深度神经网络组成,分别学习user和item的编码,这种架构也被称为双塔模型[13, 33, 34]。这种架构具有高吞吐量和低延迟的优势,但在捕捉user和item表示之间的交互信号方面能力有限。为了解决这一问题,DAT[35] 引入了一种自适应模仿机制,为每个user和item定制增强向量,以弥补交互信号的不足。然而,后续研究[18]表明,仅引入增强向量作为输入特征的增益有限。因此,T2Diff 利用混合注意力模块提取高阶特征交互和user历史行为,并结合扩散模块生成的目标表示。

基于会话的推荐与兴趣漂移

Feng 等人[3]观察到,user在单个会话内的行为表现出高度同质性,但在不同会话之间往往会发生兴趣漂移。Zhou 等人[37]发现,当预测与兴趣漂移趋势一致时,点击率(CTR)预测的准确性显著提高。

生成模型在序列推荐中的应用

尽管传统的序列模型(如 SASRec[16]、Mamba4Rec[20])已经表现出令人满意的性能,但生成模型的出现为这一领域开辟了新的方向。变分自编码器(VAEs)[2, 8, 31]被用于学习item和user的潜在空间表示,并从中生成新序列。然而,这类生成模型可能会过度简化数据分布,导致信息丢失和表示准确性下降。扩散模型在许多领域取得了显著成功,包括推荐系统[10, 19, 30, 39]、自然语言处理[8, 14, 21]和计算机视觉[9, 24, 25]。DiffuRec[19]首次尝试将扩散模型应用于序列推荐(SR),并利用其分布生成和多样性表示的能力,采用单一嵌入捕捉user的多种兴趣。在计算机视觉中应用的 VAEs 和扩散模型[8, 14, 21]通常依赖于 Kullback-Leibler 散度损失(KL-loss)来衡量学习到的潜在分布与先验分布(通常是高斯分布)之间的差异,而 DiffuRec 在重建目标item的过程中选择了交叉熵损失。为了稳定且准确地恢复item表示,T2Diff 采用了基于 Kullback-Leibler 散度损失(KL-loss)的扩散模块。该模块能够以低延迟准确重建目标item,为在双塔结构中捕捉交叉信息提供了坚实的基础。

3 预备知识

在本节中,我们简要介绍扩散模型作为预备知识。

3.1 扩散模型

扩散模型可以分为两个阶段:扩散过程反向过程。扩散模型的基本原理是通过在扩散过程中逐步添加高斯噪声来破坏训练数据,然后在反向过程中通过逆向去噪过程学习恢复数据。

扩散过程

在扩散过程中,扩散模型通过马尔可夫链(即 $ x_0 \rightarrow x_1 \rightarrow \dots \rightarrow x_T $)逐步向原始表示 $ x_0 $ 添加高斯噪声,定义如下:

\[q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1 - \beta_t} x_{t-1}, \beta_t I) \tag{1}\]

其中:

  • $ \mathcal{N}(x; \mu, \sigma^2) $ 是均值为 $ \mu $、方差为 $ \sigma^2 $ 的高斯分布。
  • $ \beta_t $ 表示添加的高斯噪声的幅度,
  • $ \beta_t $ 值越大,引入的噪声越多。
  • $ I $ 是单位矩阵。

我们可以通过一种可处理的方式从输入数据 $ x_0 $ 推导到 $ x_T $,后验概率可以定义为:

\[q(x_{1:T} | x_0) = \prod_{t=1}^T q(x_t | x_{t-1}) \tag{2}\]

根据 DDPM[9],通过重参数化技巧,我们发现后验 $ q(x_r \mid x_0) $ 服从高斯分布。令 $ \alpha_r = 1 - \beta_r $ 且 $ \bar{\alpha}r = \prod{i=1}^r \alpha_i $,则公式 (2) 可以改写为:

\[q(x_r | x_0) = \mathcal{N}(x_r; \sqrt{\bar{\alpha}_r} x_0, (1 - \alpha_r) I) \tag{3}\]

反向过程

在反向过程中,我们从标准高斯表示 $ x_T $ 逐步去噪,并以迭代方式逼近真实表示 $ x_0 $(即 $ x_T \rightarrow x_{T-1} \rightarrow \dots \rightarrow x_0 $)。特别地,给定当前恢复的表示 $ x_t $ 和原始表示 $ x_0 $,下一个表示 $ x_{t-1} $ 可以计算如下:

\[p(x_{t-1} | x_t, x_0) = \mathcal{N}(x_{t-1}; \tilde{\mu}_t(x_t, x_0), \tilde{\beta}_t I) \tag{4}\]

其中:

\[\tilde{\mu}_t(x_t, x_0) = \frac{\sqrt{\bar{\alpha}_{t-1}} \beta_t}{1 - \bar{\alpha}_t} x_0 + \frac{\sqrt{\alpha_t (1 - \bar{\alpha}_{t-1})}}{1 - \bar{\alpha}_t} x_t \tag{5}\] \[\tilde{\beta}_t = \frac{1 - \bar{\alpha}_{t-1}}{1 - \bar{\alpha}_t} \beta_t \tag{6}\]

然而,在反向过程中,原始表示 $ x_0 $ 通常是未知的,因此需要深度神经网络来估计 $ x_0 $。反向过程通过最小化以下变分下界(VLB)进行优化:

\[\mathcal{L}_{VLB} = \mathbb{E}_{q(x_1 | x_0)} [\log p_\theta(x_0 | x_1)] - D_{KL}(q(x_T | x_0) || p_\theta(x_T)) - \sum_{t=2}^T \mathbb{E}_{q(x_t | x_0)} [D_{KL}(q(x_{t-1} | x_t, x_0) || p_\theta(x_{t-1} | x_t))] \tag{7}\]

其中,$ p_\theta(x_t) = \mathcal{N}(x_t; 0, I) $,$ D_{KL}(\cdot) $ 是 KL 散度。在 $ \mathcal{L}{VLB} $ 中,除了 $ L_0 $ 之外,每个 KL 散度项都涉及两个高斯分布的比较,因此这些项可以以闭式解析计算。$ L_T $ 项在训练过程中是常数,对优化没有影响,因为分布 $ q $ 没有可训练的参数,且 $ x_T $ 只是高斯噪声。对于建模 $ L_0 $,Ho 等人[9] 使用了一个从 $ \mathcal{N} $ 派生的离散解码器。根据[9],$ \mathcal{L}{VLB} $ 可以简化为一个高斯噪声学习过程,表示为:

\[\mathcal{L}_{simple} = \mathbb{E}_{t \in [1,T], x_0, \epsilon_t} \left[ ||\epsilon_t - \epsilon_\theta(x_t, t)||^2 \right] \tag{8}\]

其中,$ \epsilon \sim \mathcal{N}(0, I) $ 是从标准高斯分布中采样的噪声,$ \epsilon_\theta(\cdot) $ 表示一个可以通过深度神经网络学习的估计器。

4 方法

在本节中,我们首先介绍与 T2Diff 相关的符号和背景,然后详细描述模型的框架。如图2(a)所示,我们的模型由扩散模块混合注意力模块组成。

图片名称

图2

4.1 符号与问题定义

假设我们有一个user集合 $ \mathcal{U} $ 和一个item集合 $ \mathcal{M} $。我们收集每个user的行为序列,并将其表示为 $ X_{sequence} \in \mathcal{M} $。对于user $ u \in \mathcal{U} $ 的每个行为,我们记为 $ x_j^u $,其中 $ j $ 表示行为序列中的第 $ j $ 个item。对于每个user,假设我们有 $ n $ 个历史行为,则索引 $ j \in {1, 2, \dots, n+1} $,且 $ X_{sequence} = [x_1, x_2, \dots, x_n] $。基于[3]中提出的概念,我们希望通过根据每个行为之间的时间间隔将行为序列划分为两个部分,从而实现对user行为序列的更精细建模。具体来说,我们将有序的行为序列划分为当前会话历史行为,其中当前会话包含最近的 $ k $ 个交互行为,记为 $ X_{session} = [x_{n-k+1}, \dots, x_n] $,而历史行为记为 $ X_{history} = [x_1, x_2, \dots, x_{n-k}] $。我们认为,user在最近会话中的行为在时间上是连续的,反映了user最近的意图。最后,最重要的是,我们通过引入从真实行为 $ x_{n+1} $ 预测的下一个正向行为 $ \hat{x}_{n+1} $,释放了双塔模型的潜力。

基于嵌入的检索(EBR)方法通过两个独立的深度神经网络将user和item特征编码为嵌入。item $ \mathcal{M} $ 与user $ \mathcal{U} $ 的相关性基于user嵌入 $ e_u $ 和item嵌入 $ e_i $ 之间的距离(最常见的是内积)。

我们提出的 T2Diff 包含两个主要部分:

  1. 扩散模块:在训练阶段识别相邻行为之间的兴趣漂移,并在推理阶段重新引入下一个行为。
  2. 基于会话的混合注意力模块:通过自注意力模块提取最近会话中的当前兴趣,并通过目标注意力机制获取历史兴趣。这两个组件的结合实现了user行为序列与下一个行为之间的全面交叉交互。

4.3 混合注意力模块

为了克服双塔模型中的“晚期交互”问题,我们提出了一种混合注意力机制,通过将多层user表示与扩散模块(第4.2节)重建的user最近正向item表示相结合,促进复杂的特征交互。在短视频推荐领域,user消费行为表现出时间连续性。我们认为最近会话中包含了user的近期正向意图,为了增强历史序列与下一个正向item表示之间的交叉交互,我们将 $ X_{session} $ 和 $ \hat{x}_{n+1} $ 沿时间维度连接。在我们的方法中,我们部署了Transformer架构[29]的编码器组件和平均池化,以生成当前兴趣嵌入 $ h_s $,用于“早期交互”。

\[h_s = \text{avg}(\text{Transformer}(\text{concat}([X_{session}, \hat{x}_{n+1}]))) \tag{19}\]

为了进一步利用交叉交互的优势,我们遵循[38],使用 $ h_s $ 作为指导,从user的历史行为 $ X_{history} $ 中提取相似信息。在激活单元中,历史行为嵌入 $ X_{history} $、当前兴趣嵌入 $ h_s $ 以及它们的外积作为输入,生成注意力权重 $ A_{history} $,如图3所示。

图片名称

图3

最终,$ h_t $ 和 $ h_s $ 共同决定user嵌入 $ e_u $。

\[a_j = \frac{\text{FFN}(\text{concat}([x_j, x_j - h_s, x_j * h_s, h_s]))}{\sum_{i=1}^{n-k} \text{FFN}(\text{concat}([x_i, x_i - h_s, x_i * h_s, h_s]))} \tag{20}\] \[h_l = f(h_s, [x_1, x_2, \dots, x_{n-k}]) = \sum_{j=1}^{n-k} a_j x_j \tag{21}\] \[e_u = \text{FFN}(\text{concat}([h_l, h_s])) \tag{22}\]

其中,$ a_j $ 是 $ A_{history} $ 的第 $ j $ 个元素。考虑到会话内的时间依赖性和跨会话行为模式的相关性,我们引入了目标行为与历史行为之间的时间滞后作为关键特征。

图片名称

算法 1

图片名称

算法 2

4.4 模型优化

在每一步扩散过程中,我们直接从 $ z_r $ 推导 $ \hat{z}0 $,其中 $ \hat{z}_0 $ 和 $ z_0 $ 都表示通过重参数化得到的分布的均值。因此,公式7中 $ \mathcal{L}{VLB} $ 的简化版本可以改写为 $ \mathcal{L}_{KL} $,如下所示:

\[\mathcal{L}_{KL} = \mathbb{E}_{r \in [1,T], x_0, \mu_r} \left[ ||\mu_r - \mu_\theta(z_r, r)||^2 \right] \tag{23}\]

其中,$ \mu_r $ 和 $ z_r $ 分别表示在扩散过程第 $ r $ 步中添加的噪声和添加噪声后的结果,$ \mu_\theta $ 表示具有参数 $ \theta $ 的估计器。

在 $ \mathcal{L}_{KL} $ 的帮助下,我们可以减少 $ z_0 $ 和 $ \hat{z}_0 $ 之间的差异,并通过梯度下降更新估计器中的参数。扩散模块的扩散过程如算法1所示。

遵循推荐系统中损失函数的一般原则,我们使用softmax损失 $ \mathcal{L}{TOWER} $ 使user嵌入 $ e_u $ 接近目标item嵌入 $ e_i $,同时远离其他不相关的item嵌入 $ e{m \in \mathcal{M}} $,其定义为:

\[\mathcal{L}_{TOWER} = -\log \frac{\exp(e_u \cdot e_i)}{\sum_{m \in \mathcal{M}} \exp(e_u \cdot e_m)} \tag{24}\]

在损失函数 $ \mathcal{L}_{TOWER} $ 的驱动下,稀疏嵌入表经过充分训练,从而为扩散过程训练奠定了坚实的基础。总损失可以表示为:

\[\mathcal{L}_{TOTAL} = \mathcal{L}_{TOWER} + \lambda \mathcal{L}_{KL} \tag{25}\]

其中,$ \lambda $ 是一个超参数,通常设置为1或10。由于扩散模块中估计器的优化方向与传统推荐系统不一致,这容易导致梯度相互抵消的情况,因此我们采用停止梯度机制来隔离扩散模块的梯度更新,有效提高了估计器和塔参数的优化效率,如图2(a)底部所示。

5.实验

#

https://arxiv.org/pdf/2502.20687