kuaishou CQE时长预估介绍

Reading time ~3 minutes

kuaishou在《Conditional Quantile Estimation for Uncertain Watch Time in Short-Video Recommendation》提出了CQE预估模型。

摘要

准确预测观看时间(watch time)对于优化短视频平台的推荐和用户体验至关重要。然而,现有方法通常估计单一的平均观看时间(average watch time),往往无法捕捉用户参与模式固有的不确定性和多样性。在本文中,我们提出了条件分位数估计(Conditional Quantile Estimation, CQE)框架来模拟观看时间的全部条件分布。利用分位数回归,CQE为每对用户-视频对表征复杂的观看时间分布,提供了一种灵活全面的了解用户行为的方法。我们进一步设计了多种策略来结合分位数估计,以适应不同的推荐场景和用户偏好。大量的离线实验和在线A/B测试证明了CQE在观看时间预测和用户参与建模方面的优越性。特别是,CQE在一个服务数亿日活跃用户的短视频平台上的在线部署,已经产生了关键评估指标的显著改进,包括活跃天数、活跃用户数、参与持续时间和视频观看次数。这些结果突出了我们提出的方法在增强用户体验和短视频推荐系统整体性能方面的实际影响。代码将在发表后发布。

1 引言

在线视频平台的快速增长彻底改变了用户消费数字内容的方式,短视频已成为最受欢迎的格式之一[3, 9, 10, 23]。推荐系统在这些平台中扮演着至关重要的角色,通过提供个性化的内容推荐来增强用户参与度和满意度。与传统的推荐问题(例如,电子商务和新闻推荐)不同,在短视频推荐中,衡量用户兴趣和参与度的关键指标是观看时间,它全面反映了用户的偏好和参与度。因此,准确预测观看时间对于优化推荐策略和改善用户体验至关重要。

然而,由于用户行为固有的不确定性和异质性,预测观看时间仍然是一个具有挑战性的任务。在现实世界场景中,通常不可能在相同条件下获得同一用户-视频对的多次观看时间观察,因为用户很少在完全相同的情境下多次观看同一视频。这一限制使我们无法直接从数据中估计真实的条件观看时间分布。

现有方法[16, 20–22]通常专注于预测观看时间的单点估计(例如,均值或中位数),忽视了观看时间分布的复杂性和多样性。这些方法未能充分捕捉不同用户-视频对之间的行为差异,导致推荐性能受限。使用单一平均值来表征这些复杂分布模式的不足,突出了对观看时间的全部条件分布进行建模的必要性。

图片名称

图1 条件观看时间分布和一些个性化推荐策略的示意图。

  • 图(a) CQE模型为不同的用户-视频对预测的条件观看时间分布,展示了用户参与模式的异质性和复杂性。
  • 图(b) 保守估计策略在预期观看时间相似时优先选择具有较高下分位数的视频,以提高用户满意度。
  • 图(c) 动态分位数组合策略适应用户流失风险和视频新颖性,对高流失风险用户或不熟悉的视频使用较低分位数,对低流失风险用户或熟悉的视频使用较高分位数。
  • 图(d) 期望估计策略通过考虑整个观看时间分布,提供全局优化视角。

为了应对这些挑战,我们提出了条件分位数估计(Conditional Quantile Estimation, CQE)框架,该框架学习预测给定用户-视频对及其相关上下文,观看时间的条件分布。如图2所示,CQE利用分位数回归技术估计观看时间分布的多个分位数,提供了一个全面了解潜在用户参与模式的视角。如图1(a)所示,我们的CQE模型预测的不同用户-视频对的条件观看时间分布,在形状、峰值位置和离散水平上表现出显著的多样性。这种异质性反映了用户偏好和参与在不同情境下固有的不确定性和可变性。

图片名称

图2 提出的条件分位数估计(CQE)模型及其训练损失的示意图。

  • 图2左侧:CQE模型架构,它以用户、视频和上下文特征为输入,并输出观看时间的多个分位数估计。
  • 图2右侧:用于模型训练的PinBall loss函数,展示了其对于不同分位数水平($\tau$)的不对称性质,允许模型在整个分布中学习到稳健的分位数估计。

建模观看时间的条件分布对于理解用户参与模式、以及设计有效的推荐策略至关重要。通过考虑观看时间分布的详细特征,我们可以深入了解不同用户群体的多样化观看行为。这种细粒度的理解使我们能够为不同情境和用户偏好量身定制推荐策略。

基于CQE模型,我们设计了三种主要的推荐策略。

  • 保守估计策略(图1(b)):通过在预期观看时间(expected watch times)相似时选择具有较高下分位数(lower quantiles)的视频,优先考虑用户满意度,减少用户参与度下降的风险。
  • 动态分位数组合策略(图1(c)):根据用户流失风险和视频新颖性等因素调整分位数的选择。
    • 对于高流失风险用户或新颖视频,它更多地赋予低分位数权重,确保令人满意的体验,
    • 对于低流失风险用户或熟悉视频,则更多地赋予高分位数权重,可能提供更具吸引力的推荐。
  • 期望估计策略(图1(d)):提供了一个全局优化视角,旨在考虑整个观看时间分布,最大化整体用户参与度。这些策略的多样性使我们的推荐系统能够适应不同的场景和用户需求,提高个性化推荐和用户体验的质量。

本文的主要贡献如下:

  • 我们提出了CQE框架,采用分位数回归技术模拟短视频推荐中观看时间的条件分布,为捕捉用户行为的不确定性提供了一种有原则的方法。
  • 我们设计了多种策略来结合CQE的分位数估计,适应不同的推荐场景和用户偏好,增强了推荐系统的个性化和多样性。
  • 我们进行了广泛的离线实验和在线A/B测试,证明了CQE在观看时间预测和用户参与建模方面的优越性,显著提升了关键评估指标,包括活跃天数、活跃用户数、参与持续时间和视频观看次数。

2 相关工作

2.1 视频推荐和观看时间预测

视频推荐系统已经发展到满足个性化内容传递的日益增长的需求。随着YouTube和TikTok等在线视频平台的出现,准确推荐视频非常重要,因为它对用户留存和满意度有着重大影响[3, 9, 10, 16, 23]。 在视频推荐系统的领域中,准确预估在观看时间上的用户参与度是一个关键挑战。观看时间作为衡量用户对推荐视频兴趣和参与度的关键指标。

  • 最初的研究[2]集中在增强YouTube平台的视频推荐,引入了加权逻辑回归(WLR)技术来预测观看时间。这种方法自此被认为是该领域的先进方法。然而,WLR的适用性并不直接适用于全屏视频推荐系统,并且可能会遇到由于其加权计算系统而产生的显著偏差问题。
  • D2Q[20]通过实施后门调整和在不同持续时间组下建模观看时间分位数来减轻持续时间偏差。
  • $D^2Co$[21]通过使用纠正持续时间偏差和嘈杂观看的模型来解决视频推荐观看时间的偏差问题,提供更准确的用户兴趣度量。
  • DVR[22]引入了一种称为WTG(观看时间增益)的新指标,并使用对抗学习来学习无偏的用户偏好。我们的方法可以无缝集成到各种持续时间去偏差方法中,从而显著提高它们的预测准确性。
  • TPM[8]将任务分解成一系列以树状结构排列的相互连接的分类问题。尽管TPM考虑了观看时间的变异性,但它没有像我们的方法那样捕捉到观看时间分布的全部范围。

观看时间预测任务还面临物理时长偏差(duration bias)的关键问题[8, 20–22]。这种偏差表明,用户更愿意花更多时间观看更长物理时间的视频(longer-duration videos),这使得平均观看时间偏向更长的内容。这种偏好使得在预测用户参与度时,比起更短的替代品,更复杂的任务变得更加复杂。我们的方法可以无缝集成到大多数持续时间去偏差方法中,显著提高它们的预测能力,如表3所示。

表3

2.2 分位数回归(Quantile Regression)

分位数回归是一种在统计学、计量经济学和生态学中广泛使用的回归分析类型[7]。与传统的均值/线性回归(专注于估计平均结果)不同,分位数回归(Quantile Regression)旨在估计随机变量的条件中位数和其他分位数。这一灵活的特性提供了对变量分布效应的更全面理解,这些效应可能是均值回归可能忽视的[1, 18, 19]。在机器学习的背景下,分位数回归已经超越了线性模型。

  • 代表性方法[13, 14, 17]将分位数回归整合到神经网络中,提供了在非线性和高维环境中预测条件分位数的手段。
  • QRF[11]进一步在随机森林中部署分位数回归,进一步展示了其适应性和在不同模型中增强预测能力。

本文提出的解决方案旨在将分位数回归的原则整合到视频推荐系统的领域。通过使这种统计方法适应观看时间的不确定性和可变性,我们提出了一种新颖的应用,增强了推荐系统的预测性能。这一进步促进了对用户参与度的更细致的理解,朝着更个性化和令人满意的用户体验发展。

3 方法

3.1 问题阐述

在视频推荐系统中,我们的主要目标是预测用户参与度,通常以观看时间来衡量。设:

  • $(u, v)$ 表示在上下文c下的一对用户-视频。
  • $ \phi(u, v, c) $,定义一个特征映射函数,它提取一个 $ n $ 维特征向量 $ x \in \mathbb{R}^n $。这个向量包含了用户特征、视频属性、上下文信息和历史交互数据。
  • $ W $ 为表示观看时间的随机变量

我们的目标是:估计给定输入特征下,$W$的概率分布:

\[P(W | x) = P(W | \phi(u, v, c))\]

…(1)

与传统方法[2, 16, 20–22]不同,这些方法专注于估计单一的点(例如,期望观看时间 $ E[W \mid x] $),我们的目标是表征整个条件分布。这使我们能够捕捉用户参与模式固有的不确定性和可变性,提供对潜在用户行为更全面的理解。

3.2 条件分位数估计模型

为了捕捉观看时间的全部分布,我们提出了条件分位数估计(Conditional Quantile Estimation, CQE)模型。如图2的左半部分所示,这种方法允许我们同时估计观看时间分布的多个分位数,提供对潜在用户参与的更全面视图。

设:

  • $ {\tau_1, \tau_2, …, \tau_N} $ 是一组预先定义的 $ N $ 个分位数水平,其中 $ \tau_i = \frac{i}{N+1} $。

我们的CQE模型旨在估计给定输入特征 $ x $ 的每个分位数水平对应的观看时间值 $ {t_{\tau_1}, t_{\tau_2}, …, t_{\tau_N}} $:

\[\{t_{\tau_1}, t_{\tau_2}, ..., t_{\tau_N}\} = \psi(x; \theta)\]

…(2)

其中:

  • $ \psi(\cdot) $ 是一个由 $ \theta $ 参数化的神经网络。

为确保分位数估计的单调性,我们实现了以下架构:

\[h = f(x; \theta_f) \\ d = \text{ReLU}(g(h; \theta_g)) \\ t_{\tau_i} = \sum_{j=1}^{i} d_j, \quad \text{对于} \ i = 1, ..., N\]

…(3)

这里:

  • $ f(\cdot) $ 和 $ g(\cdot) $ 是神经网络组件,
  • $ h $ 是中间隐藏表示,
  • $ d $ 是一个非负元素向量。

最终的分位数估计 $ t_{\tau_i} $ 通过累积求和获得,自然地强制执行排序约束:

\[t_{\tau_1} \leq t_{\tau_2} \leq ... \leq t_{\tau_N}\]

这种公式允许我们的模型捕捉输入特征和观看时间分位数之间的复杂非线性关系,同时保持分位数函数的单调性属性。

为了清晰概述我们的CQE方法,我们在算法1中展示了算法伪代码。

图片名称

算法1

CQE模型的计算复杂度与传统的点估计方法相当,仅因估计多个分位数而略有增加。在大规模推荐系统中,去重用户(unique user)和item的数量经常达到数亿甚至数十亿。这些用户和item通常由高维嵌入表示,这些嵌入使用它们各自的ID检索。相比之下,有效估计所需的分位数数量通常在100左右。因此,CQE的额外计算成本与处理大量特征所需的大量计算相比可以忽略不计。

3.3 训练目标

为了有效地训练我们的CQE模型,我们采用了适合分位数回归任务的PinPall loss函数。对于单一分位数水平 $ \tau $,PinPall loss定义为:

\[L_\tau(y, t_\tau) = \begin{cases} \tau (y - t_\tau) & \text{if } y \geq t_\tau \\ (1 - \tau) (t_\tau - y) & \text{otherwise} \end{cases}\]

…(4)

其中:

  • $ y $ 是实际观看时间
  • $ t_\tau $ 是预测的第 $ \tau $ 个分位数。

正如图2的右半部分所示,PinBall loss函数具有几个关键属性:

  • 不对称性:loss围绕真实值$y$是不对称的,不对称的程度由 $ \tau $ 决定。
  • 线性:loss随着预测值和实际值之间的距离线性增加,但在 $ y $ 的两侧斜率不同。
  • 分位数特定的惩罚:对于 $ \tau > 0.5 $,过高估计比过低估计受到更重的惩罚,反之亦然 $ \tau < 0.5 $。

这些属性使得PinBall loss特别适合分位数估计。对于我们的多分位数模型,我们聚合了所有分位数水平上的PinBall loss:

\[L_{QR} = \sum_{i=1}^{N} L_{\tau_i}(y, t_{\tau_i})\]

…(5)

这个聚合的损失函数鼓励模型在整个分布中学习准确的分位数估计,捕捉每对用户-视频的潜在观看时间的全谱(full spectrum)。

3.4 推理策略(Inference)

一旦我们训练了CQE模型来估计观看时间分布的多个分位数,我们就可以采用不同的推理策略。我们提出了三种主要方法:保守估计、动态分位数组合和条件期望。每种策略都提供了不同的优势,并适用于特定的推荐场景。

3.4.1 保守估计(Conservative Estimation)

在用户满意度至关重要且高估成本较高的环境中,我们采用保守估计(CSE)策略。这种方法侧重于观看时间分布的下分位数,以确保令人满意的用户体验。

如图1(b)所示,当预期观看时间相似时,我们通过选择具有较高下分位数的视频来优先考虑用户满意度。这种策略有助于降低用户因过于乐观的推荐而失望的风险。

正式地,我们选择一个较低的分位数 $ \tau_{\text{low}} $(例如 $ \tau_{\text{low}} = 0.25 $),并使用其对应的观看时间预测:

\[\widehat{y}_{\text{CSE}} = t_{\tau_{\text{low}}}\]

这种策略有助于降低用户因过于乐观的推荐而失望的风险,因为实际观看时间很可能超过这个保守估计。

3.4.2 动态分位数组合(Dynamic Quantile Combination)

为了适应不断变化的用户偏好和内容特征,我们提出了一种动态分位数组合(DQC)策略。这种方法根据上下文因素结合不同分位数的预测。

如图1(c)所示,DQC策略根据用户的流失风险和视频新颖性调整分位数的选择。

  • 对于高流失风险用户或新颖视频,它更多地赋予低分位数权重,确保令人满意的体验,
  • 对于低流失风险用户或熟悉的视频,则更多地赋予高分位数权重,可能提供更具吸引力的推荐。

这种动态方法允许系统根据用户当前状态和内容熟悉度,在安全推荐和可能更具回报的推荐之间进行平衡。

设 $ k \in [0, 1] $ 为上下文依赖的混合参数。我们计算最终预测为:

\[\widehat{y}_{\text{DQC}} = k \cdot t_{\tau_{\text{low}}} + (1 - k) \cdot t_{\tau_{\text{high}}}\]

…(7)

其中:

  • $ t_{\tau_{\text{low}}} $ 和 $ t_{\tau_{\text{high}}} $ 分别代表保守和乐观的分位数预测。

混合参数$k$可以根据用户风险档案、视频新颖性或平台目标等因素进行调整。例如,对于新用户或新颖内容,我们可能使用较高的 $ k $(倾向于保守估计),对于老用户或熟悉的内容类型,则使用较低的 $ k $。

3.4.3 条件期望

在我们旨在优化预期观看时间的场景中,我们采用条件期望策略。这种方法通过在预测的分位数之间进行插值来估计平均观看时间。

如图1(d)所示,条件期望估计(CDE)策略提供了一个全局优化视角,旨在通过考虑整个观看时间分布来最大化整体用户参与度

如图2左半部分所示,这些输出的观看时间值示例化了观看时间的分布。为了通过条件期望恢复平均估计,我们面临没有两个连续分位数之间 $ \tau \in (\tau_i, \tau_{i+1}) $ 的输出值的挑战。为了解决这一信息缺失问题,我们使用插值方法来近似条件分布。

我们采用连续分位数之间的线性插值,因此 $ \tau_i $ 和 $ \tau_{i+1} $ 之间的预期观看时间变为 $ (t_{\tau_i} + t_{\tau_{i+1}}) / 2(N + 1) $。对于两个端点,我们假设 $ t_0 = t_{\tau_1} $ 和 $ t_1 = t_{\tau_N} $。然后,我们可以近似整体观看时间的期望为:

\[\widehat{y}_{\text{CDE}} = \frac{1}{2(N + 1)} \left[(t_{\tau_1} + t_{\tau_1}) + (t_{\tau_1} + t_{\tau_2}) + (t_{\tau_2} + t_{\tau_3}) + \ldots + (t_{\tau_{N-2}} + t_{\tau_{N-1}}) + (t_{\tau_{N-1}} + t_{\tau_N}) + (t_{\tau_N} + t_{\tau_N})\right] \\ = \frac{1}{N + 1} \left(\sum_{i=1}^{N} t_{\tau_i} + \frac{t_{\tau_1} + t_{\tau_N}}{2}\right)\]

…(8)

从理论上讲,这种期望通常提供最准确的预测,并且在 $ N \to \infty $ 时将实现最优预测。实证上,我们将在第4.2节的实验分析中验证其优越性。然而,我们提醒读者,这种策略可能不适用于用户对不良推荐不宽容的场景,或者推荐系统需要动态控制的场景

每种推理策略都提供了独特的好处,允许推荐系统适应不同的目标和用户环境。通过利用我们的CQE模型提供的丰富信息,我们可以做出更明智和灵活的推荐决策。

4 实验和结果

在这一部分,我们通过在线A/B测试和离线实验,全面评估了我们提出的条件分位数估计(Conditional Quantile Estimation, CQE)框架。我们的实验设计旨在解决几个相互关联的研究问题:

  • RQ1: 不同的CQE策略在现实世界场景中的表现如何?
  • RQ2: CQE与最先进的方法在观看时间预测和用户兴趣建模方面的比较如何?
  • RQ3: 分位数数量对CQE性能的影响是什么?

通过探讨这些问题,我们希望提供CQE能力的全面视图,它的实际影响,以及它在不同推荐情境中的泛化潜力。

4.1 在线实验(RQ1)

为了验证我们条件分位数估计(CQE)框架在现实世界中的影响,我们在拥有数亿用户的短视频平台上进行了广泛的在线A/B测试。这些实验使我们能够在拥有庞大用户基础的实时环境中,评估所有三种CQE策略的实际有效性。

4.1.1 实验设置

用户被随机分配到对照组和实验组,确保实验组至少分配到每日用户流量的10%,以确保统计显著性。每次在线A/B测试运行时间超过一周,为数据收集和可靠结果分析提供了充足的时间。

推荐系统采用两阶段流程:候选检索后跟排序。我们将CQE模型整合到排序阶段,以预测观看时间,这是推荐过程中的关键组成部分。

我们使用四个关键指标评估推荐系统的性能:

  • 每用户平均观看时间:这个核心指标通过量化用户观看推荐视频的平均时间,直接衡量用户参与度。
  • 总播放次数:这个指标统计所有用户的累计视频播放次数,反映用户与推荐内容的交互频率。
  • 每用户活跃天数:这个指标衡量用户与平台交互的天数,表明用户留存情况。
  • 每日活跃用户数:这个指标表示与平台交互的独特用户数量,反映系统维持和增长其用户群的能力。

4.2 离线实验(RQ2 和 RQ3)

虽然我们的在线A/B测试展示了CQE在现实世界场景中的实际影响,但离线实验允许我们对我们的方法进行更受控和详细的分析。我们的离线实验专注于两个密切相关的任务:观看时间预测和用户兴趣预测。这两项任务共同为评估CQE框架在推荐系统中的有效性提供了全面视角。

观看时间预测直接捕获用户与内容的互动持续时间,这是用户参与度的关键指标。然而,仅预测观看时间可能无法完全捕捉用户兴趣。因此,我们引入了用户兴趣预测任务,它结合观看时间和视频时长,提供对用户兴趣更微妙的度量。这两项任务相辅相成:观看时间预测提供直接的行为预测,而用户兴趣预测帮助我们理解这些行为背后的动机。

4.2.1 观看时间预测

在这个任务中,我们的主要目标是准确预测用户观看时间的持续时间

数据集

遵循TPM[8],我们使用了两个公共数据集:

  • Kuaishou(收集自快手App1)和CIKM16(来自CIKM16杯2)进行我们的实验。虽然CIKM16主要是一个电子商务搜索查询数据集,但我们包括它是为了展示我们的CQE方法在不同推荐情境下的潜在泛化能力。电子商务页面停留时间的预测在模拟用户参与持续时间方面与视频观看时间预测有相似之处,尽管我们承认内容类型和用户行为模式存在差异。在CIKM16数据集中,会话中的每个项目被用作输入的单一特征。

  • Kuaishou数据集包含7,176个用户、10,728个项目和12,530,806次展示;CIKM16数据集包含310,302个会话和122,991个项目,每个会话的平均长度为3.981。

指标。我们使用两个指标来评估模型的性能:平均绝对误差(MAE)和XAUC[20]。

  • MAE:这是评估回归准确性的典型测量方法。表示预测值为 $ \widehat{y} $,真实观看时间为 $ y $,MAE 定义为:
\[\text{MAE} = \frac{1}{N} \sum_{i=1}^{N} \| \widehat{y}_i - y \|\]

…(9)

  • XAUC:评估两个样本的预测是否与它们的真实观看时间顺序相同。它与推荐系统的排序性质很好地对齐。在实践中,预测的相对顺序通常比它们的绝对值更重要,这使得XAUC与我们的研究目标特别相关。它帮助我们评估CQE能否有效捕捉不同内容项目中用户参与度的微妙差异。

基线

为了比较,我们选择了四种最先进的观看时间预测方法,包括WLR(加权逻辑回归)[2]、D2Q(持续时间去混杂分位数)[20]、OR(序数回归)[12]和TPM(基于树的渐进回归模型)[8]。前三种方法是确定性的,而后者引入了不确定性因素,提供了均值和方差的估计。

4.2.2 用户兴趣预测

这个任务结合观看时间和视频时长,提供了一个更全面的用户兴趣指标。通过这样做,我们不仅考虑用户观看视频的时间长度,还考虑这个时间与视频总长度的关系,从而更准确地反映用户真正的兴趣水平。遵循D2Co[21],具体来说,我们定义给定用户-视频对 $(u, v)$ 的用户兴趣为:

\[x = \begin{cases} 1, & \text{if } (d \leq 18s \text{ and } w = d) \text{ or } (d > 18s \text{ and } w > 18s); \\ 0, & \text{otherwise}; \end{cases}\]

…(10)

其中:

  • $ d $ 是视频时长,
  • $ w $ 是观看时间。

我们采用了与D2Co相同的训练配置,并使用了经典的深度推荐模型DeepFM [5]和最先进的推荐模型AutoInt [15]作为我们的底层推荐模型。

数据集。遵循D2Co,我们利用了两个公开可用的真实世界数据集:WeChat3和KuaiRand4。这些数据集来源于著名的短视频平台,即微信看一看和快手。微信数据集包含20,000个用户、96,418个项目、7,310,108次互动。该数据集通过2021年微信大数据挑战赛提供,涵盖了为期两周的微信看一看日志。KuaiRand数据集是新发布的一款来自快手的顺序推荐数据集。如[4]所建议,我们在本研究中使用了其中一个子集KuaiRand-pure。它包含26,988个用户、6,598个项目和1,266,560次互动。

指标。GAUC(Group Area Under Curve)[24]和nDCG@k(排名前k的归一化折扣累积增益)[6]被用作推荐性能的评估指标。

  • GAUC:这个指标是通过在不同用户组之间加权平均ROC曲线下面积(AUC)来计算的,反映了模型对项目进行准确排名的能力。
  • nDCG@k:这个指标基于item的相关性和它们在前k名的位置来衡量推荐列表的增益,提供了对推荐列表顶部item及其排序质量的洞察。

基线。我们使用了D2Co中定义的加权二元交叉熵损失和均方误差损失(MSE)作为我们的基线。二元交叉熵损失定义为

\[L_{CE} = -r \log[\sigma(f(x))] - (1 - r) \log[1 - \sigma(f(x))]\]

其中:

  • $ \sigma $ 是Sigmoid函数,
  • $ r $ 是用户兴趣,由PCR、WTG [22]或D2Co [21]定义。

遵循D2Co,在PCR和WTG中,我们将观看时间少于5秒的所有样本在计算标签值后视为0值。这有助于去除观看时间的噪声。

**默认情况下,我们将:

  • 分位数的数量 $ N $ 设置为100。
  • $ \tau_{\text{low}} $ 的值从0.2、0.25和0.3中经验性选择。
  • 同样,$ \tau_{\text{high}} $ 的值从0.6、0.7和0.8中经验性选择。

4.2.3 实验结果。

我们总结结果如下:

CQE、CDE与其他方法的比较:我们比较了不同方法在观看时间预测任务中的表现,结果列在表4中。TPM和CQECDE在MAE和XAUC指标上都优于其他方法,从而突显了将不确定性纳入模型的重要性。此外,我们的方法在两个指标上与TPM相比表现出更优越的性能,从而强调了采用分位数建模技术的优越性。此外,MAE和XAUC指标之间的一致行为也验证了观看时间估计作为排名指标的可行性。至于用户兴趣预测任务,我们在不同的框架(DeepFM和AutoInt)和各种标签设计(PCR、WTG和D2Co)之间进行比较,结果列在表3中,我们提出的CQECDE在所有情况下一贯优于替代方案,表明CQECDE的鲁棒性和有效性。在优化框架方面,CE通常比MSE表现更好,表明将序数分类信息作为指导的正确性。而且CQECDE可以在所有用户兴趣度量设计(PCR、WTG和D2Co)上改善CE,这意味着所提出的框架可以推广到不同的标签设置。

CQE、CDE中超参数的影响:为了更好地研究提出的CQE框架的特性,我们进一步对分位数数量 $ N $ 进行消融研究,将其值从1变化到500。从理论上讲,更大的 $ N $ 生成更精确的真实期望近似,从而通常实现更好的推荐性能。这归因于更多分位数产生的分布更接近实际分布。在观看时间预测任务的背景下,如图4所示,模型性能随着预测分位数的增加而提高。相反,对于用户兴趣预测任务,观察到(如图5所示)当分位数数量少于10时模型性能相对较弱。超过10之后,结果在0.663左右波动。有趣的是,与观看时间预测任务不同,更多的分位数并不一定带来更好的结果。这种差异表明训练目标与测试集中定义的用户兴趣标签之间存在差距。总的来说,在条件期望策略下增加 $ N $ 可能会提高预测准确性。

总结来说,我们的离线实验通过这两项互补的任务全面展示了CQE方法在预测用户行为和兴趣方面的优越性。观看时间预测任务验证了CQE在直接行为预测方面的准确性,而用户兴趣预测任务进一步证明了CQE有效捕捉更复杂用户偏好的能力。这些任务的结合不仅验证了我们方法的有效性,还突出了CQE框架在解决推荐系统中不同但相关挑战的灵活性和适应性。

#

https://arxiv.org/pdf/2407.12223

Meta推荐系统-scaling laws介绍

meta在《Understanding Scaling Laws for Recommendation Models》讨论了推荐系统中的scaling law问题。# 摘要**规模(scale)**一直是提高机器学习性能的主要驱动力,理解**规模法则(scaling law...… Continue reading

finalMLP介绍

Published on July 27, 2024

Netflix关于cosine相似度的讨论

Published on March 12, 2024