2013 google发表的paper:<Ad Click Prediction: a View from the Trenches>。来看一下核心部分:

一、系统总览

当一个用户做出一个搜索q时,会基于广告主投放的关键词(advertiser-chosen keywords)根据q匹配一个初始的候选ad集合。竞价机制接着会决定这些广告是否展示给该用户,以及以什么顺序展示给用户,以及广告商的广告被点击要付的费用。除了广告主投标(advertiser bids),竞拍的一个重要输入是,对于每个广告a,会有一个被点击的概率估计:$ P(click | q, a) $。

在我们的系统中所使用的特征,从多个源抽取,包括query、广告文本、多种与广告相关的元信息。数据会趋向于相当稀疏,对于每个样本通常只有一个很小的部分具有非零特征。

基于正则的LR等方法天然就可以处理该问题。对于每天可以做出数十亿次的预测,并可以在观察到新点击/非点击数据时快速更新模型。当然,该数据比例意味着训练数据集是很庞大的。数据的提供通过基于Photon系统的流式服务提供。

由于大规模学习已经在近些年研究得很好,在该paper中不再详细描述系统架构。我们注意到,训练方法可以具有与Downpour SGD方法(from google brain team)相似之处,不同之处是,我们训练了一个单层模型而非多层的深度模型。这允许我们处理更大数据集、更大模型,具有数十亿的参数。由于训练的模型可以被复制到多个数据中心进行serving,我们更广告在serving时上的稀疏化(sparsification),而非训练时。

二、在线学习和稀疏化

对于大规模学习,对于常用的线性模型(比如:LR)在线算法,具有许多优点。尽管特征向量x可能具有数十亿维,通常每个样本都只有数百个非零值。这使得在大数据集上通过从硬盘或网络的流式样本(streaming examples)可以有效进行训练,因为每个训练样本只需要被考虑一次。

为了精准地表述该算法,我们需要建立一些注解。$ g_t \in R^d $表示向量,其中t表示当前训练实例的索引;向量$g_t$中的第$i^{th}$个条目表示为$g_{t,i}$。我们也使用压缩过的求和:$g_{1:t}= \sum_{s=1}^{t} g_s $。

如果我们希望使用LR进行建模,我们可以使用下面的在线框架。在第t轮,我们通过特征向量$x_t \in R^d$来预测一个实例;给定模型参数$w_t$,我们预测$p_t=\sigma(w_t · x_t)$,其中$ \sigma(a)=1/(1+exp(-a)) $是sigmoid函数。接着我们观察到label $y_t \in {0,1} $,使用LogLoss:

\(l_t(w_t) = -y_t log p_t - (1-y_t) log(1-p_t)\) …(1)

$ y_t $的负log似然会给出概率p。$ \triangledown{l_t(w)}=(\sigma(w · x_t) - y_t) x_t = (p_t-y_t) x_t $,该梯度就是我们要优化的目标。

在线梯度下降(OGD:online gradient descent)对于这类问题很有效,只需要少量的计算资源就可以产生很好的预测精度。然而,实际上另一个关键考虑点是:最终模型的size;因为模型可以被稀疏存储,w中的非零参数是内存使用量的决定因子。

不幸的是,OGD在产生稀疏模型上并不特别有效。事实上,简单添加L1罚项的一个次梯度(subgradient)到loss的梯度中,将不会产生等于0的参数。更复杂的方法(比如:FOBOS)和截断梯度(truncated gradient)在引入稀疏化上是很成功的。对比于FOBOS算法,RDA( Regularized Dual Averaging)算法会产生更好的准确率(accuracy)。然而,在我们的数据集上,比起RDA,我们已经观察到梯度下降的方法可以产生更好的准确率。问题是,我们是否可以同时满足稀疏化(由RDA产生)和准确率(OGD产生)?答案是:yes!使用RTRL-Proximal算法(Follow The (Proximally) Regularized Leader)。没有正则化,该算法会等同于标准的在线梯度下降法,但因为它使用了另一种模型参数w的延迟表示(lazy representation),L1正则可以被更有效地实现。

FTRL-Proximal算法之前主要在理论分析方面。这里,我们主要描述实际实现。给定一个梯度的序列$g_t \in R $,OGD执行更新:

\[w_{t+1}=w_t - \eta_{t} g_t\]

其中$ \eta_t $是一个非增长(non-increasing)的学习率schedule,例如:$ \eta_t = \frac{1}{\sqrt{t}} $。FTRL-Proximal算法则使用下面的更新作为替代:

\[w_{t+1} = argmin_{w} ( g_{1:t} \cdot w + \frac{1}{2} \sum_{s=1}^{t} \sigma_{s} \| w - w_s \|_{2}^{2} + \lambda_{1} {\| w \|}_1 )\]

其中我们定义了$ \sigma_{s} $表示learning-rate schedule,比如:$\sigma_{1:t}=\frac{1}{\eta_t}$。表面上,这些更新看起来很不同,但实际上,当我们采用$ \lambda_1=0 $,它们产生一个系数向量的相同序列。然而,FTRL-Proximal会使用$ \lambda_1 > 0$更新,在引入稀疏化上效果很好(详见试验结果)。

快速检查下,你可能认为FTRL-Proximal的更新比梯度下降更难,或者需要存储所有过去的参数。实际上,每个参数只有一个需要存储,因为我们可以重写更新作为argmin:

\[(g_{1:t}-\sum_{s=1}^{t} \sigma_s w_s) · w + \frac{1} {\eta_t} \|w\|_{2}^{2} + \lambda_1 \|w\|_1 + (const).\]

这里,如果我们已经存储了 $ z_{t-1} = g_{1:t-1} - \sum_{s=1}^{t-1} \sigma_s w_s $,在第t轮的开始处,我们设置:$z_t = z_{t-1} + g_t + (\frac{1}{\eta_t} - \frac{1}{\eta_{t-1}})w_t$进行更新,以闭式(closed form)求解$w_{t+1}$:

\[w_{t+1,i} = \begin{cases} 0, & \text{if } |z_{t,i}|\leq \lambda_1 \\ -\eta_t(z_{t,i}-sgn(z_{t,i})\lambda_1, & \text{otherwise} \end{cases}\]

这样,FTRL-Proximal会在内存中存储 $ z \in R^d $,其中OGD会存储$ w \in R^d $。算法1就采用该方法,但也会添加一个per-coordinate learning rate schedule,并支持在$lambda_2$的L2正则。另一种方法是,我们会存储 $-\eta_t z_t $,而非直接存储$z_t$;接着,当$ \lambda_1=0 $,我们会准确存储正常的梯度下降参数。注意,当$eta_t$是一个常数值$\eta$,$\lambda_1=0$,很容易看到,OGD的等价物,因为我们已经有$w_{t+1}=-\eta z_t = -\eta \sum_{s=1}^{t} g_s$,与梯度下降的角色相同。

试验结果。在我们数据集上小版本上的试验,在size-vs-accuracy权衡上,McMahan等展示了使用L1正则的FTRL-Proximal比RDA和FOBOS的效果有极大提升;这些之前的结果见表1: 行2和行3.

在许多样本上,一种简单的启发式也工作良好。我们的straw-man算法,OGD-Count,简单维持它看到某个特征的count数;直到count数传递一个阀值k,参数被固定在0上,但在count传入k后,OGD(不带L1正则)会和往常处理一致。为了测试FTRL-Proximal,我们在大数据集上运行。我们对k进行调参,来生成与FTRL-Proximal相同的准确率;使用更大的k来产生更差的AucLoss。结果如表1:第4行所示。

总体上,这些结果展示了FTRL-Proximal,它可以极大提升了稀疏性,同昌使用相同或更好的预测准确率。

Per-Coordinate Learning Rates

OGD的标准理论建议使用一个全局的learning-rate schedule $\eta_t = \frac{1}{\sqrt{t}}$,这对于所有坐标来说都通用。一个简单的试验展示了这种方式是不理想的:假设我们为10个硬币正估计 $Pr (heads | coin_i)$,使用LR。每个第t轮,只有一个硬币i会进行抛币试验,我们看到特征向量$x \in R^{10} $,其中$x_i = 1$,$x_j=0$,对于$ j \neq i$。 这样,我们求解10个独立的LR问题,并打包到单个问题中。

我们可以运行10个独立的OGD copy,其中对于问题i的算法实例,可以使用一个learning rate: $ \eta_{t,i} = \frac{1} {\sqrt{n_{t,i}}}$,其中 $n_{t,i}$是硬币i至今被抛的的次数号。如果硬币i比硬币j抛的次数更多,硬币i的learning rate将下降的更快,印证了在多数据集上得到的事实;对于硬币j,它的learning rate仍将很高,因为我们已经在我们当前的估计上具有更少的置信度,因此需要对新数据反应更快。

另一方面,如果我们将这种看成是单个learning-rate问题,标准的learning rate schedule为:$\eta_{t} = \frac{1}{\sqrt{t}}$被应用到所有坐标上:也就是说,我们会对硬币i的learning rate进行下降,即使它没有被翻转。这很明显不是最优的行为。事实上,Streeter和McMahan已经展示了一个熟悉的问题:其中标准算法的性能渐近地比运行独立copy的效果要更差。因而,对于这些问题,per-coordinate learning rates会提供一个实质上的优点。

回忆下,$g_{s,i}$是梯度$g_s=\nabla {l_s}{w_s} $第i个cordinate。per-coordinate rate的如下:

\[\eta_{t,i} = \frac{\alpha}{\beta + \sqrt{\sum_{s=1}^{t} g_{s,i}^2}}\]

……(2)

在某种程度上是近似最优的。实际上我们会使用这样的learning rate:选择$\alpha$和$\beta$它们可以在progressive validation上生成好的效果(见5.1)。我们已经试验:使用counter $n_{t,i}$上的一个power,而非0.5. $\alpha$的最优值可以随着特征和数据集的不同而不同,$\beta=1$通常足够好;简单确保早期的learning rate不要太高。

正如前面所述,该算法需要我们跟踪梯度求和,以及每个feature的梯度平方和。第4.5节将描述一种可选的节约内存的方式,其中梯度平方和在多个模型上进行分摊(amortize)。

per-coordinate learning rate的一个相对简单的分析在paper[29]中,它在小的google数据集上试验结果很好;该工作直接使用Zinkevich的方法。对于FTRL-Proximal的一种更理论的解释在paper[26]中。Duchi等人分析了RDA以及mirror-descent版本,也给出了多种试验结果。

试验结果。通过测试两种相同的模型,我们对per-coordinate learning rate的影响进行评估:一个使用单一的global learning rate,另一个使用per-coordinate learning rates。基础参数$\alpha$对每个模型进行独立调参。我们在一个有代表性的数据集上运行,使用AucLoss作为我们的评估metric(见第5部分)。结果展示出,对比于global-learning rate的baseline,使用per-coordinate learning rate可以将AucLoss可以减小11.2%。

4.在大规模上节约内存

如上所述,我们使用L1正则来在预测时节约内存。在本节中,我们描述了额外的tricks来在训练期间节约内存。

4.1 概率特征包含(Probabilistic Feature Inclusion)

在许多领域具有高维数据,大多数特征是相当稀疏的。事实上,在我们的一些模型中,半数唯一特征((unique features)在整个数十亿的样本训练集上只出现一次。

对于这些罕见的特征进行跟踪统计是很昂贵的,实际上它们可能从不会被用到。不幸的是,我们不知道哪个特征是罕见的。对数据进行预处理来移除罕见特征在online环境下是棘手的:一个额外的读数据和写数据是相当昂贵的,如果一些特征被丢弃掉(因为它们出现少于k次),它们不再可以尝试这样的模型:这些模型使用这些特征来估计预处理在accuracy方面的代价。

一种家族式方法,可以在训练时完成稀疏化,通过实现L1正则,它不需要跟踪特征统计,参数为0。这允许少量有益的特征可以在训练过程中被移除。然而,我们发现,对比起其它方法(比如FTRL-Proximal:在训练时会跟踪更多特征,在serving时会稀疏化),这种稀疏化会在accuracy上导致一个不可接受的loss。另一种常见的解决方案是,对碰撞进行hashing,但这不会结出有用的好处。

另一大类方法是:probalilistic feature inclusion,在该方法中,新特征会在它们第一次出现时,有概率的被包含在模型中。这会让数据预处理的完成更有效,但在online时被执行。

我们按该方法测试了两种方式:

  • 泊松包含(Poisson Inclusion)。当我们遇到一个特征时(它不在我们的模型中),我们使用概率p将它添加到模型中。一旦一个特征被添加,后续的观察,我们照例更新它的参数值,和OGD所用到的相关统计量。特征在添加到模型之前被看到的次数,会服从一个几何分布:期望值为$\frac{1}{p}$
  • 布隆过滤器包含(Bloom Filter Inclusion)。我们使用一个counting Bloom filters的集合,来检查一个特征在训练集中首先出现的n次。一旦特征出现超过n次(根据该filter),我们就将它添加到模型中,并使用它来在后续观察中进行训练。注意,该方法也是概率化的(probalilistic),因为一个counting bloom filter可以是false positives(但不会是false negatives)。也就是说,我们有时会包含一个特征:它们的出现次数少于n次。

试验结果:这些方法的效果见表2,两种方法效果都不错。在预测质量的loss以及RAM saving的tradeoffs上,但Bloom filter方法给出了更好的效果。

4.2 使用更少的Bits来编码值

OGD的Naive实现,使用32或64位浮点值(floating point)编码来存储参数值。浮点编码通常受欢迎,是因为它们更大的动态范围以及更细的precision;然而,对于我们的正则LR模型的参数,这被证明是过度伤害的。几乎所有的参数值的范围在(-2,+2)。分析之后表明,细粒度的precision是没有必要的,这推动着我们去探索fixed-point q2.13编码的使用,而非floating point。

在q2.13编码中,我们保留两位给binary decimal point的左部,十三位给binary decimal point的右部,一位留给符号,每个值共16位。

这个reduced precision,可能会在OGD环境下创建一个带有累积舍入偏差(accumulated roundoff error)的问题,它需要大量小步骤的累积。(事实上,我们已经看到严重的舍入问题,它使用32位floats,而非64位)。然而,一个简单随机的rounding策略可以纠正该问题,以一个小的添加的遗忘项的代价。关键点是,通过显式的rounding,我们可以确保离散化error具有零均值。

特别的,如果我们存储参数w,我们设置:

\[w_{i,rounded}=2^{13}[2^13 w_i + R]\]

…(3)

其中,R是一个在[0,1]间的均匀分布的一个随机偏离。$g_{i,rounded}$接着存储在q2.13 fixed point格式中;在[-4,4)范围外的值会被裁减。对于FTRL-Proximal,我们可以以这种方式存储$\eta_t z_t$,它与$w_t$有相似的幅值。

试验结果。实际上,对比起使用q2.13 encoding(替代floating point值)的模型的结果,我们观察到没有可测量的loss损失。我们可以节约75%的RAM来存储参数。

4.3 训练多个相类似的模型

当对超参数或feature的变更进行测试时,评估多个小的变种是很有用的。这种常见的用例允许有效的训练策略。一个有意思的地方是paper[19],它使用一个fiexed model作为先验,允许多个变种在残差(residual error)上进行评估。这种方法开销很小,但不容易对特征移除(feature removal)或可选的learning setting进行评估。

我们的主要方法依赖于该观察:每个coordinate依赖于一些数据,它们可以被有效地在模型变种间共享,而其它数据(比如:参数值自身)被指定给每个模型变种,不能被共享。如果我们在hash table中存储模型参数,我们可以对所有变种使用单个表,分摊存储key的开销(string或many-byte hash)。在下一节,我们展示了,每个模型的learning-rate counters $n_i$是如何被所有变种的统计共享替代的,它会减小存储。

任意变种不会有一个特定的feature,它会为该feature存储参数成0,浪费一点空间。(我们通过将这些特征的learning rate设置成0)。因为我们只与高度相似的模型一起训练,从这种表示(不表示该key)中获得的内存savings,以及每个模型的counts比不常见的特征的loss要更大的多。

当多个模型一起训练时,分摊的开销会压低,所有per-coordinate的元数据,比如per-coordinate learning rates所需要的counts,递加的额外模型的开销依赖于需要存储的额外参数值。该saves不仅仅是内存,还有网络带宽(值以相同的方式通过网络进行通信,但我们只读取一次训练数据),CPU(只有一个hash table lookup,而非多个,从训练数据中生成的特征只需一次,而非每个模型一次),磁盘空间。这个捆绑的架构会极大增加我们的训练容量。

4.4 单值架构

有时我们希望评估非常大的模型变种的集合,它们只会在少量特征组上进行增加和移除。这里,我们可以采用一种压缩数据结构,它是有损耗的(lossy),(adhoc),但实例上会给出十分有用的结果。这种单值架构会为每个coordinate存储只有一个参数值,它们通过包含这些特征的模型变种进行共享,而非存储独立的参数值。一个位域(bit-field)可以被用于跟踪哪个模型变种包含了给定的coordinate。注意,这与paper [19]中的方法精神相类似,但也允许特征移除的评估。该RAM的开销增长得很慢,比起4.3节的方法。

学习过程如下:对于一个在OGD中的给定更新,每个模型变种会计算使用包含它在内在coordinates的子集的预测和loss,为每个参数抽取存储的单个值。对于每个特征i,每个模型会使用i为给定的参数计算一个新的期望值。产生的值被平均,存储成单个值,它将接着被下一步中所有变种所共享。

我们评估该启发法(heuristic),通过计算模型变种(它们使用单值架构进行训练,对比起相同的变种,它们由4.3节的方法进行训练)的大组来进行。展示的几科等同于跨变种的相关效果,但单值结构会保存RAM的幅度顺序(magnitude order)。

4.5 计算带Counts的learing rates

在3.1节所示,我们需要存储每个特征的梯度求和及梯度平方和。重要的一点是,梯度计算可以被纠正,但可以做出总近似值,以便计算learning rate。

假设包含了一个给定的特征的所有事件,都具有相同的概率。(总这,这是一个可怕的近似,但它可以行得通)。进一步假设模型已经准确学到了该概率。如果它们有N个负样本(negative events),P个正样本(positive events),接着该概率为 p = P/(N+P)。如果我们使用LR,正样本的梯度为p-1,负样本的梯度为p,等式2对应的learning rate所需要的梯度求和如下:

\[\sum{g_{t,i}^2} = \sum_{positive events} (1-p_t)^2 + \sum_{negtive events} p_t^2 \approx P(1-\frac{P}{N+P})^2 + N ( \frac{P}{N+P}^2 = \frac{PN}{N+P}\]

这种残酷的近似允许我们跟踪N和P的counts,无需存储$ \sum{g_{t,i}^2}$。经验上,learning rates的计算和该近似,可以有效工作,正如我们使用完整的求和(full sum)计算的learning rates。使用第4.3节的框架,总的存储开销会更低,因为所有的变种模型具有相同的counts,因而对于N和P的存储开销会被分摊。该counts会使用变长的位编码进行存储,大多数features不需要多个bits。

4.6 对训练数据子抽样(subsampling)

通常,CTR会低于50%,这意味着正样本(点击数)会相当稀少。这样,简单的统计计算表明:点击(clicks)在CTR预估学习中相对更有价值。我们可以利用这一点来极大减少训练数据的size,在accuracy上具有最少的影响。我们创建了子采样过的训练数据,包含在我们的样本中:

  • 对于这个训练数据,任意query至少有一个广告被点击
  • $r \in (0,1] $比例的queries,其中没有广告被点击

在query级别进行抽样是令人满意的,因为计算多个features需要在query阶段进行公共处理。当然,在该子抽样数据上直接进行原始训练(naively training),将导致极大的预测偏差。这个问题可以通过分配一个重要性权重(importance weight)$w_t$给每个样本来轻易地解决:

\[w_t = \begin{cases} 1, & \text{event t is in a clicked query } \\ \frac{1}{r}, & \text{event t is in a query with no clicks} \end{cases}\]

因为我们控制着抽样的分布,我们不需要在通用抽样选择中估计权重w。重要性权重可以简单地按比例放大在每个样本上的loss,如等式(1),因而也可以放大梯度。为了看到它具有特意的影响,考虑到在未抽样数据中的一个随机选中的样本t对子抽样目标函数的的期望贡献。$s_t$为它表示样本t被抽样到(不管是1还是r)的概率,由定义:$s_t=\frac{1}{w_t}$。因而,我们具有:

\[E[l_t(w_t)] = s_t w_t l_t(w_t) + (1-s_t) 0 = s_t \frac{1}{s_t} l_t(w_t) = l_t(w_t)\]

期望的线性(Linearity),预示着在子抽样训练数据上的期望加权目标函数,等于在原始数据集上的目标函数。试验验证了:即使对非点击的query进行子抽样,也会在accuracy上有一个非常轻度的影响,预测的效果不会受指定值r的影响。

5.评估模型效果

模型质量的评估的完成开销很小,通过使用日志历史数据即可。(线上的模型评估很重要,但更昂贵;见[30])

因为不同的metrics对应着模型更改的不同方式,我们发现,对于评估模型变化很有用。我们计算了metrics,比如AucLoss(也就是说1 - AUC,其中AUC是在ROC曲线下的标准区域面积),LogLoss(见等式(1)),以及SquaredError。出于一致性,我们也设计了我们的metrics,越小值越好。

5.1 Progressive Validation

我们总体上使用progressive validation(有时也称为online loss),而非cross-validation,或者在held-out dataset上进行评估。因为计算一个梯度需要计算一个预测,我们可以很方便地将这些预测(predictions)进行流式化,以便后续的分析,按小时聚集。我们也在数据的多个子切片计算这些metrics,比如:通过国家,查询主题,布局进行划分。

online loss对于在serving queries的accuracy来说,是一个好的代理,因为它可以衡量只在大多数最近数据上的效果,

一、介绍

参考

在推荐系统中,用于测试模型性能,通常会选定随机选定部分用户,观察这些用户在推荐项上的行为。这就是我们常说的分桶测试(bucket tests)。

假定有两个推荐模型:模型A和模型B。我们可以创建两个不相交的样本:基于用户(用户id)的样本选择方式创建、或基于请求(用户访问行为)的样本选择方式创建。接着,对于第一个样本,使用模型A; 对于第二个样本,使用模型B。并持续服务一段时间。这里的每个样本,称为一个桶(bucket)。通常有两种常用的分桶方式:

  • 1.基于用户的分桶(User-based bucket):这样的桶,是一个随机选定用户的集合。一种简单的方式是,使用一个hash函数,为每个user id生成一个hash值,选择一个特定的范围指向一个桶。例如:Ron Rivest设计的md5。

  • 2.基于请求的分桶(Request-based bucket):这样的桶,是一个随机选择的请求的集合。常用的做法是,为每个请求生成一个随机数,然后将对应指定范围的请求随机数指定到某个桶内。注意,在这样的桶中,在实验期间,同一个用户不同的访问,有可能属于不同的分桶。

基于用户的分桶,通常比基于请求的分桶更简洁、更独立。例如,当使用基于请求的分桶时,一个用户使用模型A的响应(Response),可能会影响到模型B。但是,在基于用户的分桶中,这个现象不会发生。另外,任何长期用户行为都可以在基于用户的分桶中进行。然而,如果在基于用户的分桶中使用一个简单模型,该分桶的用户可能会收到不好的结果,这样也会导致较差的用户体验。而基于请求的分桶则对这种模型相对不敏感些,因为一个用户的所有请求不一样分配到相同的bucket中。总之,基于用户的分桶更受欢迎些。

在受控的实验中,分桶的所有设置应该一致,除了为每个分桶分配的模型不同;模型A用于服务分桶1;模型B用于服务分桶2。特别的,对于两个分桶来说,我们要使用相同的选择方式准则。例如,某一个分桶只包含登陆用户,那么另一个分桶也必须一致。

当使用基于用户的分桶时,对于不同的测试,最好使用独立的各不相同的hash函数,以保持正交性。例如,假设我们在一个web页面具有两个推荐模块,每个模块对应两个要测试的模型。两个对应的测试模块:test1和test2。对于每个test i,都有两个对应的推荐模型:Ai和Bi。如果我们在两组test上使用相同的hash函数为用户分配hash值,hash值低于某个阀值的使用模型Ai,剩下的使用模型Bi,这样,模型A1的用户与模型A2的用户相同;模型B1的用户与模型B2的用户相同。由于涉及到与A2和B2的交互,这会导致模型A1与模型B1之间的比较不够合理。解决这种问题的一个方法是,确保分配给A1模型的用户概率与test2中的A2或B2模型相互独立。这很容易实现,如果我们在test1中使用的将user id映射后的hash值与test2中相互统计独立即可。使用独立的hash函数,可以帮助我们控制当前测试与之前测试的独立性。

另一个有用的实践是,使用相同的模型服务两组分桶,并确认两个桶对应的性能指标是否统计上相似。这样的测试通常称为A/A test。它不仅为继承的统计变量提供了一个好的估计,而且还可以帮助在实验阶段发现明显错误。另一个有用的实践是,运行一个分桶测试至少需要一到两周,因为,用户行为通常有一周时间里有时间周期性上的不同。当一个新的推荐模型推荐对应在其它模型上完全不同的item时,由于新奇性效应(novelty effect),用户(user)可能倾向于在初始阶段点击更积极。为了减小因此造成的潜在偏差,当监控测试指标时,通常抛弃开始阶段的测试结果是很有用的。

标准的实验设计方法可以用来决定一个分桶所需要size以达到统计显著性(statistical significance)。拔靴法(Bootstrap sampling)在决定性能指标的方差时很管用,它可以用来帮助计算分桶的抽样size。详见:Montgomery(2012)、Efron和Tibshirani(1993).

参考:

移动端时代的挑战:手机屏更小,输入更不便,信息过载问题更严重。

用户获取信息的方式:浏览 vs. 查询

点击距离(click-distance):

click-distance(i) = selects(i) + scrolls(i) i为item的意思。

1 个性化用户兴趣

两种点击:

  • static hit-table:大众的点击数据,one-size-fits-all
  • user hit-table:个人的点击数据

其中static hit-table如下:

某一个用户的hit-table如下:

然后根据此计算这个用户对每个item的喜好概率. 概率计算:

  • $ P(B A)=(20+10)/(40+100)=0.214 $
  • $ P(C A)=(20+90)/(40+100)=0.786 $
  • $ P(D A)=P(B A)P(D B)=(30/140)(10+5)/(20+10) = 0.107 $
  • $ P(E A)=P(B A)P(E B)=(30/140)(10+5)/(20+10) = 0.107 $
  • $ P(F A)=P(C A)P(F C)=(110/140)(10+80)/(20+90)=0.642 $
    -$ P(G A)=P(C A)P(G C)=(110/140)(10+10)/(20+90)=0.142 $

该用户的喜好排序为:C>F>B>G>D>E

2 个性化调整

ok,计算好了之后。需要对每个用户做menu的调整。调整方式采用的是:垂直提升(vertical promotions)。举个例子,原先如果是三层:根菜单-父菜单-菜单选项。菜单选项提升到父菜单级别,父菜单提升到根菜单级别。别外同级之间的相对位置也会进行调整。

3 指标评测

  • 平均点击距离(是否降低)
  • 平均每个session的平均导航时间(是否降低)
  • 平均内容浏览时间(是否提升)

参考:

1.personalization techniques and recommender systems, Gulden Uchyigit etc.

此处省略开头,回归核心。。。

尽管word2vec提供了高质量的词汇向量,仍然没有有效的方法将它们结合成一个高质量的文档向量。在本篇文章中,受一个随机过程问题(中餐馆订餐过程CRP)的启发,我们讨论了一种可能的探索。基本思路是,使用CRP来驱动聚类过程,并将各种词向量在合适的聚类中合在一起。

假设我们有一个关于鸡肉订单(chicken recipe)的文档。它包含了下面的词汇:”chicken”, “pepper”,“salt”, “cheese”. 它也包含了其它的词汇:“use”, “buy”, “definitely”, “my”, “the”。 word2vec的模型将为每个单词生成一个vector。简单的,我们可以将所有词向量(word vector)合成一个文档向量(doc vector)。这将引入许多噪声。一种降噪方法是使用加权的合并,基于相应的算法,比如:IDF 或者 POS tag.

那么问题来了:当添加词汇时,是否可以更有选择性?回到鸡肉订单文档上,它不应该考虑以下的词汇:“definitely”, “use”, “my” 。基于权重的idf可以有效地减少一些停留词(”the”、”is”等等)的噪声问题。然而,对于这样的词汇:“definitely”, “overwhelming”,那么idf值将不会如你所愿那样的小。

如果我们首先将词汇聚类,像这样的词“chicken”, “pepper”将聚集到同一个类中,而像其它的词类似“junk”则希望聚到另一个类中。如果我们能区别相关的类,那么我们可以将相关类的词相量(word vector)合并,我们就可以得到一个很好的文档(doc vector).

当然,我们可以使用通用的算法:K-means,但是大多数这些算法都需要一个距离公式。word2vec可以通过余弦相似度(cosine)很方便地进行相似判断,不一定需要采用欧氏距离。

如果我们使用余弦相似度,我们可以很快进行聚类词汇。

回到中餐馆问题,假设你来到一个中餐馆,发现已经有n张桌子,每张桌子有不同的人。另外还有一张空桌子。CRP有一个超参数 r > 0,它表示这张空桌子上可能的人数。你到了(n+1)的桌子中其中之一,桌子上存在不同数目的人(对于空桌子,数目为r)。当你到达其中的一张桌子时,那么整个过程完成。如果你决定坐在空桌子上,餐厅会自动创建一张空桌子。在这个例子中,如果下一个顾客到来时,他会在(n+2)张桌子上做选择(包括新的空桌子)

受CRP的启发,我们尝试了在CRP中,包含相似因子的的以下变量。过程大致相同:我们给定聚类的M个向量。我们去维护两个东西:聚类和(cluster sum,没有中心),聚类中的各个向量(vector)。通过各向量进行迭代。对于当前的向量V,假设我们已经有了n个聚类。现在我们去找到聚类C,它的聚类和与当前的向量相似。我们将这个分数称为 sim(V,C).

  • 变量1: v 创建了一个新的聚类,它的概率为1/(1+n). 否则v就到聚类C中。
  • 变量2:如果sim(V,C) > 1/(1+n),则归到聚类C中。否则概率为1/(1+n),它将创建一个新的聚类,概率为n/(1+n),它将归到C。

在任意两个变量中,如果v归到一个聚类中,我们将更新聚类和,及相应的关系。

对于传统CRP,有一个明显的区别是:如果我们不到空桌子上,我们将决定去往“最相似”的桌子上。

实际上,我们将找到这些创建相似结果的变量。有个不同是,变量1趋向于更多但是单个量级更小的聚类;变量2趋向于少量,但是单个量级更大的聚类。变量2的例子如下所示:

对于chick recipe document,聚类如下:

  • ‘cayenne’, ‘taste’, ‘rating’, ‘blue’, ‘cheese’, ‘raved’, ‘recipe’, ‘powdered’, ‘recipe’, ‘dressing’, ‘blue’, ‘spicier’, ‘spoon’, ‘cup’, ‘cheese’, ‘cheese’, ‘blue’, ‘blue’, ‘dip’, ‘bake’, ‘cheese’, ‘dip’, ‘cup’, ‘blue’, ‘adding’, ‘mix’, ‘crumbled’, ‘pepper’, ‘oven’, ‘temper’, ‘cream’, ‘bleu’, ……
  • ‘the’, ‘a’, ‘that’, ‘in’, ‘a’, ‘use’, ‘this’, ‘if’, ‘scant’, ‘print’, ‘was’, ‘leftovers’, ‘bring’, ‘a’, ‘next’, ‘leftovers’, ‘with’, ‘people’, ‘the’, ‘made’, ‘to’, ‘the’, ‘by’, ‘because’, ‘before’, ‘the’, ‘has’, ‘as’, ‘amount’, ‘is’, ……
  • ‘stars’, ‘big’, ‘super’, ‘page’, ‘oct’, ‘see’, ‘jack’, ‘photos’, ‘extras’, ‘see’, ‘video’, ‘one’, ‘page’, ‘f’, ‘jun’, ‘stars’, ‘night’, ‘jul’, ……

很明显地,第一个聚类最相关。接着,我们获取聚类和向量。下面是python代码,word vector通过c版本将 英文Wiki语料训练得到,它将使用gensim.model.word2vec的python库获取模型文件。 c[0]表示聚类0:

>>> similar(c[0], model[chicken])

0.95703287846549179

>>> similar(c[0], model[recipe] + model[chicken])

0.95602993446153006

>>> similar(c[0], model[recipe] + model[fish])

0.7678791380788017

>>> similar(c[0], model[computer])

0.0069432409372725294

>>> similar(c[0], model[scala])

0.061027248018988116

看上去语义信息保存完好。我们使用doc向量是可信服的。 菜单文档看起来很简单。我们可以尝试更多的挑战,比如一篇新闻文章。新闻本身是叙事型的,包含很少的“主题词”。我们尝试在这篇文章标题为:“Signals on Radar Puzzle Officials in Hunt for Malaysian Jet”的文章进行聚类。我们可以得到4个聚类:

  • ‘have’, ‘when’, ‘time’, ‘at’, ‘when’, ‘part’, ‘from’, ‘from’, ‘in’, ‘show’, ‘may’, ‘or’, ‘now’, ‘on’, ‘in’, ‘back’, ‘be’, ‘turned’, ‘for’, ‘on’, ‘location’, ‘mainly’, ‘which’, ‘to’,, ‘also’, ‘from’, ‘including’, ‘as’, ‘to’, ‘had’, ‘was’ ……
  • ‘radar’, ‘northwest’, ‘radar’, ‘sends’, ‘signal’, ‘signals’, ‘aircraft’, ‘data’, ‘plane’, ‘search’, ‘radar’, ‘saturated’, ‘handles’, ‘search’, ‘controlled’, ‘detection’, ‘data’, ‘nautical’, ‘patrol’, ‘detection’, ‘detected’, ‘floating’, ‘blips’, ‘plane’, ‘objects’, ‘jets’, ‘kinds’, ‘signals’, ‘air’, ‘plane’, ‘aircraft’, ‘radar’, ‘passengers’, ‘signal’, ‘plane’, ‘unidentified’, ‘aviation’, ‘pilots’, ‘ships’, ‘signals’, ‘satellite’, ‘radar’, ‘blip’, ‘signals’, ‘radar’, ‘signals’ ……
  • ‘of’, ‘the’, ‘of’, ‘of’, ‘of’, ‘the’, ‘a’, ‘the’, ‘senior’, ‘the’, ‘the’, ‘the’, ‘the’, ‘the’, ‘the’, ‘a’, ‘the’, ‘the’, ‘the’, ‘the’, ‘the’, ‘of’, ‘the’, ‘of’, ‘a’, ‘the’, ‘the’, ‘the’, ‘the’, ‘the’, ‘the’, ‘its’, ……
  • ‘we’, ‘authorities’, ‘prompted’, ‘reason’, ‘local’, ‘local’, ‘increasing’, ‘military’, ‘inaccurate’, ‘military’, ‘identifying’, ‘force’, ‘mistaken’, ‘expanded’, ‘significance’, ‘military’, ‘vastly’, ‘significance’, ‘force’, ‘surfaced’, ‘military’, ‘quoted’, ‘showed’, ‘military’, ‘fueled’, ‘repeatedly’, ‘acknowledged’, ‘declined’, ‘authorities’, ‘emerged’, ‘heavily’, ‘statements’, ‘announced’, ‘authorities’, ‘chief’, ‘stopped’, ‘expanding’, ‘failing’, ‘expanded’, ‘progress’, ‘recent’, ……

看起来挺不错的。注意,这是个 输入为1的聚类过程,并且我们不必去指定聚类数目。这对于对延迟很敏感的服务来说很有帮助。

缺失了一环:如何找出相关的聚类?我们在这部分不必做扩展实验。可以考虑:

  • idf权值
  • POS tag。我们不必在文档中标记每个词。根据经验,word2vec趋向于在语法构成上聚在一起。我们对每个簇都抽取出一些tag。
  • 计算聚类和总向量,与标题向量

当然,还有其它问题需要考虑:

  • 1) 如何合并簇?基于向量间的相似度?或者簇成员间的平均相似度
  • 2)词的最小集合,可以重构簇和向量?可以使用关键词抽取方法。

结构:google的word2vec提供了强大的词向量。我们可以以有效的方式,来使用这些vector来生成高质量的文档向量。我们尝试了一个基于CRP变种的策略,并取得了结果。当然,还有很多问题需要研究,BalabalaBala…

代码如下:

# vecs: an array of real vectors
def crp(vecs):
    clusterVec = []         # tracks sum of vectors in a cluster
    clusterIdx = []         # array of index arrays. e.g. [[1, 3, 5], [2, 4, 6]]
    ncluster = 0
    # probablity to create a new table if new customer
    # is not strongly "similar" to any existing table
    pnew = 1.0/ (1 + ncluster)
    N = len(vecs)
    rands = random.rand(N)         # N rand variables sampled from U(0, 1)

    for i in range(N):
        maxSim = -Inf
        maxIdx = 0
        v = vecs[i]
        for j in range(ncluster):
            sim = cosine_similarity(v, clusterVec[j])
            if sim < maxSim:
                maxIdx = j
                maxSim = sim
            if maxSim < pnew:
                if rands(i) < pnew:
                    clusterVec[ncluster] = v
                    clusterIdx[ncluster] = [i]
                    ncluster += 1
                    pnew = 1.0 / (1 + ncluster)
                continue
        clusterVec[maxIdx] = clusterVec[maxIdx] + v
        clusterIdx[maxIdx].append(i)

    return clusterIdx

本文译自:http://eng.kifi.com/from-word2vec-to-doc2vec-an-approach-driven-by-chinese-restaurant-process/

因子分解机(Factorization Machine, FM), 是由Konstanz大学(德国康斯坦茨大学)Steffen Rendle(现任职于Google)于2010年最早提出的,旨在解决大规模稀疏数据下的特征组合问题。

所谓的因子即潜因子(latent factors),在推荐系统中矩阵分解中常提及。ratings(n,m)评分矩阵,分解为:users(n,x) * items(x,m).

对于分类和回归问题,核心的一个问题是:特征组合。它的威力巨大。如果每个特征两两组合,n个特征下,产生的组合特征有:n * (n-1)/2。当n=100时,就有4950种. 如果每种特征以one-hot编码,每个特征的取值有100个,那这个数字又要另算了…(100 * 100 * (100 * 100-1) / 2)=5000w种了…当然,这个矩阵是稀疏的。

如果模型为多项式模型:$ y(x)=w_0+\sum_{i}^{n}{w_i}{x_i}+\sum_{i=1}^{n} \sum_{j=i+1}^{n} w_{ij}{x_i}{x_j} $

后一项为交叉项。

本文简述下manual上的几个要点。

1.准备

1.下载、编译:https://github.com/srendle/libfm

2.编译出三个bin:

  • libFM: the libFM tool
  • convert: a tool for converting text-files into binary format , 文本转二进制工具
  • transpose: a tool for transposing binary design matrices,二进制设计矩阵转置工具

2.数据格式

libsvm sparse格式:

1
2
3
4 0:1.5 3:-7.9 
2 1:1e-5 3:2 
-1 6:1

3.格式转换

script下,内置了脚本。

推荐系统中,常见格式:

1
userid itemid rating

例如:Movielens 1M数据集:

1
./triple_format_to_libfm.pl -in ratings.dat -target 2 -delete_column 3 -separator "::"

如果同时对训练集、测试集处理:

1
./triple_format_to_libfm.pl -in train.txt,test.txt -target 2 -separator "\t"

4.二进制格式

二进制数据格式优点:

  • 1.读取快
  • 2.原始数据不能直接装进内存(太大);二进制格式可以存在磁盘上,一部分装进内存中 (使用–cache size)
  • 3.如果使用ALS 和 MCMC,可以预先计算转置矩阵

示例:将movielens数据集转换成二进制格式:

1
./convert --ifile ratings.dat.libfm --ofilex ratings.x --ofiley ratings.y

生成两个文件:

  • ratings.x: 设计矩阵X,即:要预测的变量X
  • ratings.y: 输出target:y

推荐使用这种后缀命名法。

5.转置数据

对于MCMC和ALS学习,需要使用转置的设计矩阵。

  • 如果使用文本格式,数据在内部会自动进行转置。
  • 如果使用二进制格式,进行转置。

示例:

1
./transpose --ifile ratings.x --ofile ratings.xt

6.train与test

6.1 完整参数

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
-cache_size     cache size for data storage (only applicable if data is
            in binary format), default=infty
-dim            'k0,k1,k2': k0=use bias, k1=use 1-way interactions,
            k2=dim of 2-way interactions; default=1,1,8
-help           this screen
-init_stdev     stdev for initialization of 2-way factors; default=0.1
-iter           number of iterations; default=100
-learn_rate     learn_rate for SGD; default=0.1
-load_model     filename for reading the FM model
-meta           filename for meta information about data set
-method         learning method (SGD, SGDA, ALS, MCMC); default=MCMC
-out            filename for output
-regular        'r0,r1,r2' for SGD and ALS: r0=bias regularization,
                r1=1-way regularization, r2=2-way regularization
-relation       BS: filenames for the relations, default=''
-rlog           write measurements within iterations to a file;
                default=''
-save_model     filename for writing the FM model
-seed           integer value, default=None
-task           r=regression, c=binary classification [MANDATORY]
-test           filename for test data [MANDATORY]
-train          filename for training data [MANDATORY]
-validation     filename for validation data (only for SGDA)
-verbosity      how much infos to print; default=0

6.2 强制参数

1
2
3
4
5
6
7
-task: 分类(-task c)或回归(-task r)
-train: 训练
-test: 测试
-dim: libfm的维度. k0, k1, k2.  
	k0: {0,1},是否使用bias: w0
	k1: {0,1},是否使用one-way interactions(每个变量都加上bias)
	k2: 实数集。使用pairwise interactions所需的因子数。k表示R^(pxk)

示例:一个回归任务,使用bias,1-way interaction, k=8 pairwise interaction.

1
./libFM -task r -train ml1m-train.libfm -test ml1m-test.libfm -dim ’1,1,8’

6.3 可选参数

1
2
3
-out:输出。对于分类,输出为正例的概率
-rlog:每次迭代的统计信息日志。csv格式
-verbosity: 是否打印更详细信息。

6.4 高级参数

Grouping

使用meta选项对输入变量进行group分组。用于MCMC, SGDA and ALS的grouping,定义了一个更复杂的正则结构。每个group都有独自的正则项参数。如要使用grouping,meta参数最好是文件名,行数与输入变量数(列)相同。每行为相应的输入变量指定groupid。注意:group_id必须是从0开始的数值型。

例如:一个设计矩阵的grouping文件,它有7列;最大id是6:

1
2
3
4
5
6
7
2
2
0
1
1
1
0

这里总共有3个组,前两个变量(设置矩阵中的列)具有相同的分组,第三个和最后一个具有相同分组;第4、5、6具有相同分组

Binary Data and Caching

对于设计矩阵,二进制的文件名以.x结尾,target以.y结尾,转置数据以.xt结尾。如果你想在libFM中使用二进制数据,训练、测试、验证时的命令行参数中文件名,则不必使用.x, .y, .xt结尾。

例如:如果你训练(ml1m-train.x, ml1m-train.y, ml1m-train.xt)和测试数据的调用(ml1m-test.x, ml1m-test.y, ml1m-test.xt):

1
./libFM -task r -train ml1m-train -test ml1m-test -dim ’1,1,8’

libFM会自动将合适的文件扩展名附加上后面进行学习。

如果你的数据太大装不进内存,你可以指定libFM允许的文件内容大小:

1
./libFM -task r -train ml1m-train -test ml1m-test -dim ’1,1,8’ -cache_size 100000000

在该例中,会使用100MB用于缓存每个.x或.xt文件。注意,.y文件总是能完整读到内存中。

如果参数cache_size没有指定,所有数据都会加载到内存中。注意:只要你的数据比内存大,你就应该使用caching;因为caching会使用硬盘,它会略比内存慢。

6.4 学习方法

缺省下,使用MCMC推断(MCMC inference)进行学习,因为MCMC最便于处理(没有学习率,没有正则项)。在LibFM中,你可以从以下的学习方法中选择:SGD, ALS, MCMC和SGDA. 对于所有学习方法,都需要指定迭代次数iter。

6.4.1 SGD

使用-method sgd即可。对于随机梯度下降法,需要指定以下参数:

  • learn_rate: 学习率,即SGD的step size,必须是非0正值
  • regular: 正则参数。非零正值。
  • init_stdev: 正态分布的标准差,它用于初始化参数V。你应使用一个非零正值

对于SGD,你需要指定以下的正则参数:

  • 1个值(-regular value): 所有模型参数都使用相同正则项
  • 3个值(-regular ‘value0,value1,value2’): 0-way interactions(w0),使用value0作为正则项;1-way interactions(w)使用value1,而pairwise interactions(V)使用value2.
  • 没有值:如果参数-regular完全没指定任何数,则对应于没有正则项。比如:-regular 0

示例:

1
2
3
4
5
6
7
8
9
./libFM -task r \
		-train ml1m-train.libfm \
		-test ml1m-test.libfm \
		-dim ’1,1,8’ \
		-iter 1000 \
		-method sgd \
		-learn_rate 0.01 \
		-regular ’0,0,0.01’ \
		-init_stdev 0.1

6.4.2 ALS

使用-method als即可做ALS学习。参数选择如下:

  • regular: 正则项,非零正值.
  • init_stdev: 正态分布的标准差,它用于初始化参数V。你应使用一个非零正值

对于ALS,你需要指定以下的正则参数:

  • 1个值(-regular value): 所有模型参数都使用相同正则项
  • 3个值(-regular ‘value0,value1,value2’): 0-way interactions(w0),使用value0作为正则项;1-way interactions(w)使用value1,而pairwise interactions(V)使用value2.
  • 分组指定值(-regular ‘value0,value1g1,…,value1gm,value2g1,…value2gm’),对于m组,存在着1+2m项正则项:如果输入参数分过组,每组的1-way和2-way interaction,都需要一个正则项.
  • 没有值:如果参数-regular完全没指定任何数,则对应于没有正则项。比如:-regular 0

示例:

1
2
3
4
5
6
7
8
./libFM -task r \
	-train ml1m-train.libfm \
	-test ml1m-test.libfm \
	-dim ’1,1,8’ \
	-iter 1000 \
	-method als \
	-regular ’0,0,10’ \
	-init_stdev 0.1

6.4.3 马尔可夫链蒙特卡尔理论(Markov Chain Monte Carlo:MCMC)

使用 -method mcmc 用作MCMC学习。参数如下:

  • init_stdev: 正态分布的标准差,它用于初始化参数V。你应使用一个非零正值

示例:

1
2
3
4
5
6
7
./libFM -task r \
	-train ml1m-train.libfm \
	-test ml1m-test.libfm \
	-dim ’1,1,8’ \
	-iter 1000 \
	-method mcmc \
	-init_stdev 0.1

6.4.4 自适应SGD(SGDA)

使用参数 -method sgda可用于SGD学习。SDGA学习中,正则项的值(每个分组和每层)会自动发现。你可以指定一个验证集,用于调整正则项:

  • validation: 该数据集用于调整正则项参数。该数据集应与训练集不重合
  • learn_rate: 学习率,即SGD的step size。它具有非零正值
  • init_stdev: 正态分布的标准差,它用于初始化参数V。你应使用一个非零正值

示例:

1
2
3
4
5
6
7
8
9
./libFM -task r \
  -train ml1m-train.libfm \
  -test ml1m-test.libfm \
  -dim ’1,1,8’ \
  -iter 1000 \
-method sgda \
-learn_rate 0.01 \
-init_stdev 0.1 \
-validation ml1m-val.libfm

7. BS扩展

  • (a)LibFM数据文件(即设计矩阵X的表示),包含了大的重复的pattern块
  • (b)LibFM的BS extension,它允许使用一个关于数据文件的更有效压缩表示,对于重复的patterns只会出现一次.

在关系设置中,设计矩阵(Design Matrix)会包含重复的patterns大块。这会产生一个很大的设计矩阵,从而使得学习变慢,并且占用大量内存。LibFM的BS扩展,允许定义和使用设计矩阵的块结构。使用BS,runtime和内存消耗都是随数据size线性增长的。更多细节详见[7].

7.1 数据格式

BS extension允许定义块(比如:上图中的B1, B2, B3),并在libFM中使用它们。每个块的定义包含这几部分:

  • 关于块的设计矩阵(上图中的X^B1)
  • 训练样例(或测试样例),映射到块中的行(例如:图中的:ø^B1)
  • 设计矩阵中,可选参数grouping

对于每个块,期望以下的文件:

1
2
3
4
5
<blockname>.x: 块的设计矩阵,二进制文件
<blockname>.xt: <blockname>.x的转置矩阵
<blockname>.train: 从train rows到block rows的映射
<blockname>.test: 与train相类似
<blockname>.groups: 可选文件,用于grouping预测变量

7.3 运行BS数据

使用命令行参数 –relation. 假设定义了两个块(rel.user和rel.item):

1
2
3
4
5
./libFM -task r \
	-train ml1m-train \
	-test ml1m-test \
	-dim ’1,1,8’ \
	--relation rel.user,rel.item

注意,对于每个块,上述列出的文件必须出现(比如:rel.user.x, rel.user.xt, rel.user.train, rel.user.test, (rel.user.groups), rel.item.x, rel.item.xt,等)

7.4 注意BS的使用

  • BS只支持MCMC和ALS/CD.
  • 当使用BS时,–train和–test参数仍是必选的,必须指定文件。libFM文件,通过–train和–test参数传递,具有预测变量,也可以是空。文件可以是二进制或文本格式。
  • BS设计矩阵的变量ids的名字空间是不一样(distinct)的。例如:在X^B1,和在X^B2的索引7的变量,是不同的。LibFM内部会给大的变量id添加offset。
  • BS文件分组的名字空间也是不一样的。每个分组文件分组从0开始,重复的解析方式与predictor variable ids相同。
  • 如果没有分组文件传进去,每个块都会自动假设它有一个不同分组

参考

  • www.libfm.org
  • [1] Chih-Chung Chang and Chih-Jen Lin. Libsvm: A library for support vector machines. ACM Trans. Intell. Syst. Technol., 2:27:1–27:27, May 2011.
  • [2] Christoph Freudenthaler, Lars Schmidt-Thieme, and Steffen Rendle. Bayesian factorization machines. In NIPS workshop on Sparse Representation and Low-rank Approximation, 2011.-
  • [3] Thorsten Joachims. Making large-scale support vector machine learning practical, pages 169–184. MIT Press, Cambridge, MA, USA, 1999.
  • [4] Steffen Rendle. Factorization machines. In Proceedings of the 10th IEEE International Conference on Data Mining. IEEE Computer Society, 2010.
  • [5] Steffen Rendle. Factorization machines with libFM. ACM Trans. Intell. Syst. Technol., 3(3):57:1– 57:22, May 2012.
  • [6] Steffen Rendle. Learning recommender systems with adaptive regularization. In WSDM ’12: Pro- ceedings of the third ACM international conference on Web search and data mining, New York, NY, USA, 2012. ACM.
  • [7] Steffen Rendle. Scaling factorization machines to relational data. In Proceedings of the 39th in- ternational conference on Very Large Data Bases, PVLDB’13, pages 337–348. VLDB Endowment, 2013.
  • [8] Steffen Rendle, Zeno Gantner, Christoph Freudenthaler, and Lars Schmidt-Thieme. Fast context- aware recommendations with factorization machines. In Proceedings of the 34th ACM SIGIR Con- ference on Reasearch and Development in Information Retrieval. ACM, 2011.

libfm方面,其它推荐好文: