kuaishou直播团队在《Moment&Cross: Next-Generation Real-Time Cross-Domain CTR Prediction for Live-Streaming Recommendation at Kuaishou》提出了它们的直播推荐：

摘要

快手作为全球领先的短视频与直播平台之一，其直播推荐(Live-Streaming Recommendation)相较于短视频推荐更为复杂，主要体现在：

(1) 内容具有瞬时性；
(2) 用户可能长时间观看导致反馈延迟；
(3) 直播内容不可预测且动态变化。

事实上，即使用户对主播（live-streaming author）感兴趣，也可能因实时内容吸引力不足而产生消极观看行为（如观看时长<3秒）。因此，直播推荐面临核心挑战：如何为用户推荐恰逢其时的直播内容？

此外，平台主要曝光内容为短视频，其曝光量级是直播的9倍。这导致用户行为数据严重倾向于短视频，使得直播数据难以完整反映用户兴趣。由此衍生第二项挑战：如何利用短视频行为数据优化直播推荐？

针对第一项挑战，我们通过数据分析发现了一个有趣现象：当直播进入高光时刻（如舞蹈片段），点击率（CTR）会显著攀升。受此启发，我们认为可通过群体用户对当前直播片段的实时行为数据，自动识别”高光时刻”。因此，我们致力于让模型快速感知实时行为，从而识别处于CTR上升阶段的直播。为实现这一目标，我们升级了数据流引擎至30秒实时上报机制，并设计了创新的首帧掩码学习策略（first-only mask learning strategy）来监督我们的模型：Moment）。

针对第二项挑战，我们主要基于搜索式兴趣建模思路：先通过通用搜索单元（GSUs）检索用户历史短视频/直播行为，再利用压缩搜索单元（ESUs）进行特征提炼。此外，引入对比学习目标对齐短视频与直播的嵌入空间以增强关联性（Cross）。通过大量离在线实验与消融研究，我们验证了Moment&Cross框架的有效性。

1 引言

近年来，快手、抖音等短视频与直播平台快速发展，吸引了大量用户并积累了庞大的活跃用户群体。在快手平台上，用户主要通过滑动页（slide page）浏览内容——系统会根据用户的上下滑动行为自动播放推荐内容。因此，强大的推荐系统（RecSys）[9, 10] 是服务的基础，它直接影响用户体验，决定用户接下来观看什么内容。

相较于已被广泛研究的短视频推荐 [29, 31, 34, 39]，直播推荐 [25] 更具挑战性，主要源于其媒介特性：

瞬时生命周期：短视频可长期分发，而直播内容具有临时性（平均1小时）。
长反馈延迟（Longterm feedback delay） [2]：短视频平均时长约55秒，用户行为可快速上报并用于模型训练；而直播时长较长，部分高价值反馈（如用户购买虚拟礼物）可能延迟半小时才发生。
动态内容变化 [30]：短视频始终从0秒播放，而直播内容实时变化，用户在不同时间点进入直播间可能产生截然不同的行为。

因此，直播推荐系统需解决一个关键问题：如何为用户推荐恰逢其时的直播内容？ 我们通过图1中的两个案例说明：

图片名称

图1 介于“高光时刻”、实时观众和点击率趋势之间的典型的直播模式

才艺直播（talent show）：主播大部分时间与观众聊天或PK，偶尔展示才艺（如舞蹈）。数据分析显示，高光时刻（如才艺展示）的用户进入率显著提升，结束后则快速下降。
游戏直播：主播逐局进行比赛，实时观众数随比赛进程累积，比赛结束时骤降。

实际上，无论创作者属于何种类型，用户点击直播的动机往往是：为了观看高光时刻。但由于直播内容瞬息万变，准确预判哪些直播间即将出现高光时刻并非易事。值得庆幸的是，基于海量用户实时行为数据，我们可能找到自动识别”高光时刻”的潜在解决方案：如图1所示，CTR趋势曲线与用户点击行为呈现高度同步性（波峰波谷完全对应）。这意味着，如果模型能够捕捉CTR的上升趋势，就能通过大量用户正向反馈自动发现潜在的高光时刻。

除了高光时刻捕捉的挑战外，我们的直播模型还面临更严峻的问题：数据稀疏性。在滑动页面上，用户通过上下滑动屏幕可以交替观看短视频和直播内容。然而该页面约90%的曝光内容为短视频，导致直播推荐系统存在无法充分学习用户兴趣以进行精准CTR预测的风险。由此引出一个关键问题：如何利用用户丰富的短视频行为来优化直播推荐？

为解决这个问题，我们首先说明系统架构的工作流程（如图2所示）。工业实践中，不同业务线独立部署——例如用户的短视频实时交互行为（长观看、点赞等）仅由短视频数据流引擎汇总并组织成特定训练样本格式，短视频模型通过消费该数据流来拟合实时数据分布以实现精准推荐。由于不同数据流引擎生成的训练样本格式各异，直播模型只能通过用户的直播数据流进行监督训练。

虽然无法直接消费短视频数据流，但我们已构建历史存储服务来保存用户交互日志[8,13]。数据流引擎可通过请求获取用户在其他业务线的交互历史，将其整合为输入特征的一部分。通过这种方式，我们实现了直播与短视频嵌入空间的对齐，使模型能根据用户的短视频兴趣偏好，推荐风格相似的直播内容。

图片名称

图2 快手短视频与直播服务的Slide页面推荐系统架构中，各业务采用独立的数据流与模型体系。系统仅能通过调用”交互日志”存储服务来追溯用户历史短视频行为，以此挖掘关联的小众内容项，作为获取跨业务用户日志的唯一途径。

本文提出高效解决方案Moment&Cross，旨在构建下一代直播推荐框架。针对首个挑战，我们的目标是：使直播模型能够感知哪些直播间存在点击率(CTR)上升趋势。为此，需要实时利用用户行为数据快速训练模型，以捕捉每个直播间的实时CTR状态。如图2所示，CTR信号首先上报至直播数据流引擎，再输入模型。但如同多数工业级推荐系统，上报模块需等待约5分钟收集足够行为数据后批量上报。虽然快手直播服务多年来一直采用5分钟固定窗口的数据流机制，但这种延迟已无法满足实时捕捉CTR趋势的需求。为此，我们将训练框架从”快慢上报”升级为”30秒实时上报“，并设计名为Moment的新型首曝掩码学习策略进行模型监督。

针对第二个挑战，我们致力于挖掘用户历史短视频序列并将其嵌入空间与直播内容对齐。由于用户短视频历史过长（例如活跃用户单月观看量可达万级），我们主要采用级联搜索式兴趣建模框架：

(1)通过通用搜索单元(GSU)回溯用户全生命周期历史，筛选获取百量级相关项序列；
(2)设计精确搜索单元(ESU)压缩序列信息获取用户兴趣，如序列池化、目标项注意力等机制。

此外，引入对比学习目标对齐短视频与直播的嵌入空间以增强关联性，使模型能根据用户丰富的短视频交互历史推荐风格相近的直播内容，该模块命名为Cross。本文主要贡献如下：

我们提出了一种创新的实时学习框架，旨在自动发现”高光时刻”直播内容，从而构建下一代直播推荐系统：
首创实时学习框架：开发了能自动识别直播高光时刻的新型算法架构
设计高效迁移技术：通过简洁而有效的技术方案，实现用户短视频兴趣向直播推荐的迁移
验证系统有效性：通过大量离线与在线实验验证Moment&Cross框架，目前已在快手直播服务中部署，为4亿用户提供服务

2 快手直播中的Moment&Cross框架

工业级CTR预测模型[14]的训练过程包含两个核心组件：

(1)用于组织训练样本特征与标签的数据流引擎，
(2)基于多任务学习[23]的模型架构（用于拟合点击、点赞、长观看等真实交互行为）。

在本节中，我们将：

首先回顾原有5分钟快慢(Fast-Slow)直播数据流引擎构建与CTR模型学习范式的总体框架，
继而介绍新型30秒实时数据流引擎及其首创的首曝掩码学习策略，
最后阐述我们用于捕捉用户长短期短视频交互模式的跨域技术方案

2.1 基础架构：5分钟快慢窗口数据流

数据流引擎作为工业级推荐系统的基础组件，其原始实现方案是：在用户完成内容消费（如观看并滑动至下一个短视频、听完一首歌曲）后收集行为日志进行上报。这种方案对短视频服务已足够”实时”——由于用户平均在1分钟内就会离开当前短视频，所有交互反馈都能快速收集完成。然而在直播场景中，用户可能持续观看较长时间（如30分钟甚至80分钟），若仍采用退出时统一收集的机制，将导致模型训练无法达到足够的实时性。

为此，当前主流直播数据流引擎普遍采用固定时间窗口（如5分钟）的模式来上报和组装训练样本特征与标签。但直播服务的一个显著特点是：不同类型用户行为的时间分布差异极大，某些高价值交互（如观看半小时后打赏主播）很难在小时间窗口内被观测到。如图3所示，我们通过快慢窗口(fast-slow windows)混合机制实现平衡：快窗口负责上报所有交互实现快速训练，慢窗口则补报快窗口中未观测到的正样本。

图片名称

图3 该报告对比了快慢双流（5分钟&1小时数据流）与实时30秒数据流在生成训练样本时的差异。我们仅展示最基础的样本格式（用户、直播间、点击、长观、点赞、评论、打赏）。具体而言：在快慢双流机制中，快流上报5分钟窗口内观测到的全量用户行为，慢流补充上报5分钟窗口未捕获但1小时窗口内观测到的正向行为；而在实时数据流中，我们每30秒立即上报用户首次正向行为，并在用户退出直播间时上报所有负向行为。根据样本上报的指示性关联关系，实时数据流能极速生成训练样本，从而助力模型实时捕捉直播间点击率上升趋势。

根据统计数据，大部分用户观看时长不超过1小时。因此我们将用户观看过程划分为三个监测周期来指导模型训练：

快窗口（5分钟）：上报所有观测到的正负样本，保障训练时效性；
慢窗口（1小时）：仅补报快窗口中遗漏的正样本，修正标签偏差；
忽略窗口：超时后不再上报任何标签

该方案虽能缓解长尾行为缺失问题，但5分钟延迟仍不足以捕捉直播高光时刻的CTR瞬变。例如，才艺表演的高点击率可能在1分钟内达到峰值，而传统引擎需等待多个窗口周期才能响应。

2.2 理论基础：基于正样本未标注学习的CTR模型训练

广义而言，点击率预测（CTR）模型[36]位于推荐系统（RecSys）[26]的最终环节，用于对每个用户最相关的数十个物品进行排序，因此也被称为全排序模型（fullrank）[38]。实际上，全排序模型不仅要预测用户点击候选物品的概率（即CTR），还需同时预测：

长观看概率（LVTR： long-view）
点赞概率（LTR： like）
评论概率（CMTR： comment）
其他XTR指标

基于这些预测概率，我们可以设计复杂的加权计算规则，通过综合这些概率值来控制物品的最终排序得分。

通常，全排序模型的学习过程被建模为一个多任务[33]二分类问题，其目标是基于数据流训练样本学习预测函数 $f_\theta(\cdot)$。每个样本包含：

用户/物品ID
原始特征 $V$
多个二元标签（表示行为是否发生）： $y^{ctr} \in \lbrace0,1\rbrace, \quad y^{lvtr} \in \lbrace0,1\rbrace, \quad y^{ltr} \in \lbrace0,1\rbrace, \quad y^{cmtr} \in \lbrace0,1\rbrace$

具体而言，原始特征 $V$ 主要分为四类：

用户/物品ID
统计/分类特征
历史交互序列
基于预训练LLM的多模态[1,4]嵌入

这些特征通过投影转换为低维嵌入向量：

\[V = [v_1, v_2, \dots, v_n]\]

其中:

n 表示特征数量

在我们的直播场景模型中，人工设计了 $n > 400$ 维原始特征来表征用户、物品及上下文状态。基于输入样本特征和标签，模型学习过程可形式化为：

\[\widehat{y}^{ctr}, \widehat{y}^{lvtr}, \widehat{y}^{ltr}, \dots = f_\theta([v_1, v_2, \dots, v_n]) \quad (1)\]

其中：

$\widehat{y}^{ctr}$、$\widehat{y}^{lvtr}$、$\widehat{y}^{ltr}$ 等表示模型预测的概率值
$f_\theta(\cdot)$ 是一个多任务学习模块，可采用 MMoE[22] 或 PLE[28] 等架构实现。

接着，我们利用用户的真实行为数据监督模型训练，以优化模型参数。

对于快速数据流（5分钟延迟样本），它会上报所有观测到的正label和负label，因此采用标准的负对数似然loss进行训练：

\[L_{fast} = -\sum_{xtr \in \{ctr, \dots\}} \left[ y^{xtr} \log(\widehat{y}^{xtr}) + (1 - y^{xtr}) \log(1 - \widehat{y}^{xtr}) \right] \quad (2)\]

对于慢速数据流（1小时延迟样本），它仅上报缺失的正标签（即未被及时记录的正样本），掩码掉其他一致的正标签。因此，我们采用 正-无标记损失（Positive-Unlabeled Loss）[11,18,19] 来修正历史数据中因延迟上报导致的“伪负样本（false negative）”误差梯度：

\[L_{slow} = -\sum_{xtr \in missing} \left[ \log(\widehat{y}^{xtr}) - \log(1 - \widehat{y}^{xtr}) \right]\]

其中:

$missing$ 表示仅在1小时时间窗口内观测到的正样本标签

通过结合这两种损失函数 $L_{fast}$ 和 $L_{slow}$，我们的模型在直播推荐服务中实现了效果与效率的平衡训练。当模型收敛后，可将其部署为在线全排序模型，用于实时响应用户请求并选取最高分物品，计算方式如下：

\[Ranking\_Score = (1 + \widehat{y}^{ctr})^\alpha * (1 + \widehat{y}^{lvtr})^\beta * (1 + \widehat{y}^{ltr})^\gamma * ...\]

其中：

$\alpha,\beta,\gamma$为调节各行为权重的超参数。

2.3 Moment：实时30秒数据流（Real-time 30s）与首标签掩码学习机制（First-Only Label-Mask Learning）

如我们先前版本所示，这种结合5分钟快速数据流与1小时慢速数据流的正-无标记学习框架已在直播场景中迭代多年，是一个稳定可靠且经过验证的成熟学习框架。尽管效果显著，该框架仍存在若干局限性：

固定时间窗口的覆盖不足：较小的固定窗口（1小时）不可避免地会遗漏部分高价值正样本（如礼物打赏行为）。表1展示了5分钟快速流与1小时慢速流在主要行为（点击、点赞等）上的标签一致性对比，数据显示稀疏行为（尤其是礼物及礼物金额）的标签覆盖率显著偏低。
实时性瓶颈：即使5分钟的快速窗口仍无法满足实时性需求，难以捕捉CTR上升趋势以解决核心挑战：如何为用户推荐”高光时刻”的直播内容？

图片名称

表1 5-Min&1-Hour数据流的标签一致性

为此，我们已将训练框架从”快慢双流”升级为”30秒实时上报“机制，使模型能够近乎实时感知所有用户行为。理想情况下，当直播进入”高光时刻”时，短时间内会产生大量正样本梯度来优化模型参数，从而使模型能够：

动态识别CTR处于上升趋势的直播间
即时提升该直播间的在线CTR预测分数
推动内容推荐给更多观看用户

然而，30秒的极短窗口可能带来与前面提到的数据流的不匹配风险：

伪负样本（FN）：与5分钟固定窗口相比，如果我们在用户观看30秒后上报所有正负行为，会引入大量“伪负样本（FN）”标签，因为部分行为是延迟发生而非未发生。
频繁上报：相较于快慢双通道（5分钟&1小时）数据流对每种行为仅上报一次正样本标签，我们的30秒实时流可能多次上报同一行为（例如用户可能多次评论）。
行为割裂：30秒实时数据流可能按时间顺序将同一行为的正样本标签拆分到多个训练样本中。这种方式下，早期正行为（如点击和长观看）更新的梯度可能影响后续正行为（如点赞或评论）的预测，导致模型参数被两次更新，从而高估后续行为的预测概率。

为解决伪负样本问题，受慢速1小时数据流中掩码标签（mask label）思路启发，我们设计了以下上报机制：

正样本标签立即上报
负样本标签仅在用户退出直播时上报

实验表明：尽管上报窗口大幅缩短（从5分钟→30秒），但数据量并未显著增加（约为快慢双通道数据流的2倍），因为新增样本主要依赖稀疏的互动行为（如点赞、评论、送礼）。

针对频繁上报问题，我们进一步引入首次正样本掩码策略（first-only mask），即仅学习每种行为的首次正样本，以保持与原有数据流的学习规则一致。因此，Moment模型的首次掩码学习可表示为：

\[L_{moment} = -\sum\limits_{first,exit}^{xtr} \Big[ y^{xtr} \log(\widehat{y}_{xtr}) + (1 - y^{xtr}) \log(1 - \widehat{y}^{xtr}) \Big]\]

…(5)

其中：

$𝑓𝑖𝑟𝑠𝑡$ ：表示每种行为的首个正标签（其余标签被掩码）
$𝑒𝑥𝑖𝑡$ ：表示用户退出直播时其他行为的正/负标签

在标签掩码设置下，我们可以用公式(5)替代公式(2)和(3)来支持模型训练，同时避免长期反馈延迟问题。对于超出风险阈值的交互行为，我们未观测到该现象，推测原因是：模型参数优化旨在拟合全体用户数据分布，难以对特定用户的直播模式过拟合。快慢数据流与30秒实时数据流的差异报告如图3所示。

2.4 Cross跨域方案：短视频兴趣迁移

在我们的模型部署页面中，曝光内容约90%为短视频，10%为直播。由于流量分布不均，我们必须解决以下挑战：如何利用用户的短视频行为优化直播推荐？

如图2所示，不同业务模型仅允许使用自身的训练数据流，因此我们的直播模型只能通过用户的直播行为进行监督训练。但幸运的是，我们已构建历史存储服务来保存用户交互日志，数据流引擎可向其他业务发起请求，获取用户历史交互记录，并将其整合为输入特征的一部分。

具体而言，在“交互日志”中，我们可以回溯用户最近观看的10,000条内容ID，并获取辅助信息（如时间间隔、内容多模态标签、标注等）。为建模此类长序列，业界常用方案是两级级联的“搜索-提取”方法[9,24,27]：

通用搜索单元（GSUs）：检索用户历史行为，筛选出数百条相关内容的序列；
精确搜索单元（ESUs）：聚合序列信息以压缩用户兴趣，例如通过序列池化（sequence pooling）或目标项注意力机制（target-item-attention）。

在实现中，我们引入多个GSU模块，从多维度搜索与目标直播候选相关的短视频交互行为，包括：

最新短期短视频GSU：检索用户最近的数百条短视频交互行为$V_{short}$，精准反应用户的短期兴趣点。
点积搜索长期短视频GSU：通过向量点积检索与直播候选内容嵌入相似度最高的短视频（记为$V_{long}$），判断用户对此类直播的偏好。
作者ID硬搜索短视频GSU：检索用户历史中与目标直播作者ID相同的短视频（记为$V_{aidhard}$），直接反应用户对该作者的偏好。
点积搜索长期直播GSU：获取$V_{livelong}$，通过相似短视频行为推断用户对此类直播的潜在兴趣。
长观看行为混合GSU：基于用户长观看行为（如完整播放）硬搜索，生成直播与短视频的混合序列$V_{mixed}$。

（为简洁起见，我们使用以下符号表示不同的GSU序列嵌入：$V_{short} \in \mathbb{R}^{L \times D}$、$V_{long} \in \mathbb{R}^{L \times D}$、$V_{aidhard} \in \mathbb{R}^{L \times D}$、$V_{livelong} \in \mathbb{R}^{L \times D}$ 和 $V_{mixed} \in \mathbb{R}^{L \times D}$，其中$L$为序列长度。在获得序列嵌入后，我们首先通过对比学习目标对齐其嵌入空间：

\[\begin{aligned} \mathcal{L}_{cl}^{short} &= \text{Contrastive}\left( L_2(\text{Mean}(V_{mixed})),\ L_2(\text{Mean}(V_{short})) \right) \\ \mathcal{L}_{cl}^{long} &= \text{Contrastive}\left( L_2(\text{Mean}(V_{mixed})),\ L_2(\text{Mean}(V_{long})) \right) \\ \mathcal{L}_{cl}^{aidhard} &= \text{Contrastive}\left( L_2(\text{Mean}(V_{mixed})),\ L_2(\text{Mean}(V_{aidhard})) \right) \\ \mathcal{L}_{cl}^{livelong} &= \text{Contrastive}\left( L_2(\text{Mean}(V_{mixed})),\ L_2(\text{Mean}(V_{livelong})) \right) \end{aligned} \tag{6}\]

其中：

$\text{Mean}(\cdot): \mathbb{R}^{L \times D} \to \mathbb{R}^{D}$是压缩序列表示的简单池化函数，
$L_2(\cdot)$表示L2归一化函数，
$\text{Contrastive}(\cdot, \cdot)$是通过批内采样收集负样本的对比函数。

受C2DSR启发，我们发现混合的直播&短视频序列因其与其他序列存在部分相似性但非完全相同的特性，可作为对齐其他序列的基石。

随后，我们通过ESU模块执行目标项注意力机制，根据目标直播候选嵌入$V_{live}$实现细粒度兴趣提取：

\[V_{\cdot}^{ESU} = \text{target-item-attention}(V_{live}W^q,\ V {\cdot}W^k,\ V {\cdot} W^v) \tag{7}\]

其中:

$V_{live}$表示训练样本的所有直播侧特征（例如物品标签、直播间ID、作者ID等）

在获得增强的跨域短视频兴趣表示后，我们将其拼接以估计每个交互概率，如图中所示。

4.3 实验

本节中，我们在快手直播服务平台上进行了详细的离线实验和在线A/B测试，以评估提出的方法 Moment&Cross。

4.3.1 基线模型与评估指标

如图4所示，在工业级排序模型中，多门混合专家模型（Multi-gate Mixture-of-Experts） 在估计多种交互概率中起关键作用，其常见实现包括MMoE [22]、CGC [28]、PLE [28]、AdaTT [20] 等。本文选择代表性的多任务学习方法CGC和PLE验证方案有效性。我们通过离线指标AUC和GAUC [37]（用户分组AUC）评估模型排序质量，并在模型收敛后将其部署至快手和快手极速版的在线A/B测试平台，通过核心指标（如观看时长、礼物价值等）验证效果。

4.3.2 整体性能

表2展示了Moment和Cross模块的独立性能。具体而言，快手每日需处理数十亿请求，AUC和GAUC的0.10%离线提升足以带来显著在线收益。实验结果如下：

图片名称

表2

（1）实时数据流有效性验证：
我们实现两种多任务变体：PLE(Moment&Cross) 和 CGC(Moment&Cross)，其中PLE是CGC的双层堆叠版本，也是实际部署的在线模型。表2显示，PLE变体较CGC变体性能更优，表明实时数据流可无缝支持其他模型，并通过首样本标签掩码学习策略提升效果。
（2）跨域短视频兴趣有效性验证：
通过消融实验逐步移除各GSU序列（如无短期短视频序列的Cross），发现：
1. 所有Cross变体均显著性能下降，表明用户历史短视频或直播序列能增强兴趣捕捉能力；
2. 相较直播序列，短视频序列（如短期序列$V_{short}$）对直播排序模型的预测信息贡献更大（提升0.9%），可能因用户90%的观看内容为短视频，其兴趣点更易通过短视频历史序列反映。

4.3.3 在线A/B测试

为量化Moment&Cross对直播服务的贡献，我们在快手和快手极速版进行在线测试，评估核心指标（如观看时长、礼物价值、点击率等）。表3展示了Moment和Cross的独立在线结果，并细分低/中/高付费用户群体验证跨域兴趣迁移效果：

图片名称

表3

Moment模块：实时训练模型在点击率（+1.63%/+0.64%）和观看时长（+4.13%/+1.85%）上提升显著，但礼物数量轻微下降（-0.55%/-1.22%），因礼物指标本身波动性较大且处于系统合理范围内。
Cross模块：观看时长（+2.27%/+2.48%）和礼物价值（+6.91%/+8.91%）提升显著，且低付费用户增长最明显，表明跨域兴趣迁移能有效缓解数据稀疏问题。

4.3.4 案例分析

本节通过三个案例说明Moment&Cross的实际影响：

高光时刻捕捉（图5(a)）：
滑动页可更多推荐“才艺主播的高光片段”，表明基于30秒实时数据流和掩码学习的范式能精准捕捉CTR上升趋势，提升用户体验并助力主播曝光。
跨域兴趣迁移（图5(b)）：
系统可为长期观看钓鱼短视频的用户推荐户外钓鱼直播。由于钓鱼直播属小众类别，缺乏短视频信号时难以有效推荐。
用户激活效果（表4）：
将用户分为低/中/高/全活跃群体，发现低活跃群体的点击、长观、点赞等指标提升最显著，表明跨域兴趣迁移能有效挖掘直播服务的潜在用户。

图片名称

表4：短视频兴趣对不同用户群体的影响

4 相关工作

近年来，直播已成为一种时尚现象，大量专业创作者通过直播媒体与观众互动。与传统推荐场景（连接用户与物品）不同，直播推荐旨在将用户与其感兴趣的主播进行匹配。相关研究进展包括：

用户-主播关系建模：开创性工作LiveRec [25]通过自注意力机制建模用户-主播的重复消费关系；[12]提出损失重加权策略，根据观看时长动态调整损失权重。
多模态信息融合：MTA [30]和ContentCTR [16]引入多模态组件融合文本、图像帧信息；Sliver [21]设计重推荐机制捕捉直播动态变化。
图表示学习扩展：MMBee [17]通过图表示学习与元路径行为扩展策略，丰富用户与物品的多跳邻域信息。
跨域信号利用：DIAGAE [35]通过直播域用户表征对齐其他富服务域表征；eLiveRec [32]针对电商直播推荐设计解耦编码器，分离用户对直播与商品的共享意图和直播特有意图。

与现有工作的区别：
本文提出的Moment&Cross聚焦于解决两个核心问题：

时机感知推荐：如何为用户在合适时机推荐直播内容？
跨域兴趣迁移：如何利用丰富的短视频行为提升直播推荐效果？

方法创新性：

数据流优化：升级实时数据流架构，提出”首样本标签掩码学习策略”（first-only mask learning），加速模型训练效率；
跨域框架设计：引入基于搜索的对比学习框架，通过对比目标挖掘跨域交互序列的关联性。

现有工作多关注静态特征或单域建模，而Moment&Cross通过动态数据流和跨域兴趣迁移，实现了对用户实时兴趣与跨域行为的联合建模，为直播推荐提供新的技术路径。 #

https://arxiv.org/pdf/2408.05709

kuaishou MomentCross介绍

February 20, 2025

摘要

1 引言

2 快手直播中的Moment&Cross框架

2.1 基础架构：5分钟快慢窗口数据流

2.2 理论基础：基于正样本未标注学习的CTR模型训练

2.3 Moment：实时30秒数据流（Real-time 30s）与首标签掩码学习机制（First-Only Label-Mask Learning）

2.4 Cross跨域方案：短视频兴趣迁移

4.3 实验

4.3.1 基线模型与评估指标

4.3.2 整体性能

4.3.3 在线A/B测试

4.3.4 案例分析

4 相关工作

kuaishou LiveForesighter介绍

kuaishou LiveStream RS介绍

负反馈调研介绍