June 23, 2015d0evi1 Reading time ~1 minute

浅谈分桶测试

在推荐系统中，用于测试模型性能，通常会选定随机选定部分用户，观察这些用户在推荐项上的行为。这就是我们常说的分桶测试（bucket tests）。

假定有两个推荐模型：模型A和模型B。我们可以创建两个不相交的样本：基于用户（用户id）的样本选择方式创建、或基于请求（用户访问行为）的样本选择方式创建。接着，对于第一个样本，使用模型A；对于第二个样本，使用模型B。并持续服务一段时间。这里的每个样本，称为一个桶（bucket）。通常有两种常用的分桶方式：

1.基于用户的分桶（User-based bucket）：这样的桶，是一个随机选定用户的集合。一种简单的方式是，使用一个hash函数，为每个user id生成一个hash值，选择一个特定的范围指向一个桶。例如：Ron Rivest设计的md5。
2.基于请求的分桶（Request-based bucket）：这样的桶，是一个随机选择的请求的集合。常用的做法是，为每个请求生成一个随机数，然后将对应指定范围的请求随机数指定到某个桶内。注意，在这样的桶中，在实验期间，同一个用户不同的访问，有可能属于不同的分桶。

基于用户的分桶，通常比基于请求的分桶更简洁、更独立。例如，当使用基于请求的分桶时，一个用户使用模型A的响应（Response），可能会影响到模型B。但是，在基于用户的分桶中，这个现象不会发生。另外，任何长期用户行为都可以在基于用户的分桶中进行。然而，如果在基于用户的分桶中使用一个简单模型，该分桶的用户可能会收到不好的结果，这样也会导致较差的用户体验。而基于请求的分桶则对这种模型相对不敏感些，因为一个用户的所有请求不一样分配到相同的bucket中。总之，基于用户的分桶更受欢迎些。

在受控的实验中，分桶的所有设置应该一致，除了为每个分桶分配的模型不同；模型A用于服务分桶1；模型B用于服务分桶2。特别的，对于两个分桶来说，我们要使用相同的选择方式准则。例如，某一个分桶只包含登陆用户，那么另一个分桶也必须一致。

当使用基于用户的分桶时，对于不同的测试，最好使用独立的各不相同的hash函数，以保持正交性。例如，假设我们在一个web页面具有两个推荐模块，每个模块对应两个要测试的模型。两个对应的测试模块：test1和test2。对于每个test i，都有两个对应的推荐模型：Ai和Bi。如果我们在两组test上使用相同的hash函数为用户分配hash值，hash值低于某个阀值的使用模型Ai，剩下的使用模型Bi，这样，模型A1的用户与模型A2的用户相同；模型B1的用户与模型B2的用户相同。由于涉及到与A2和B2的交互，这会导致模型A1与模型B1之间的比较不够合理。解决这种问题的一个方法是，确保分配给A1模型的用户概率与test2中的A2或B2模型相互独立。这很容易实现，如果我们在test1中使用的将user id映射后的hash值与test2中相互统计独立即可。使用独立的hash函数，可以帮助我们控制当前测试与之前测试的独立性。

另一个有用的实践是，使用相同的模型服务两组分桶，并确认两个桶对应的性能指标是否统计上相似。这样的测试通常称为A/A test。它不仅为继承的统计变量提供了一个好的估计，而且还可以帮助在实验阶段发现明显错误。另一个有用的实践是，运行一个分桶测试至少需要一到两周，因为，用户行为通常有一周时间里有时间周期性上的不同。当一个新的推荐模型推荐对应在其它模型上完全不同的item时，由于新奇性效应（novelty effect），用户(user)可能倾向于在初始阶段点击更积极。为了减小因此造成的潜在偏差，当监控测试指标时，通常抛弃开始阶段的测试结果是很有用的。

标准的实验设计方法可以用来决定一个分桶所需要size以达到统计显著性（statistical significance）。拔靴法（Bootstrap sampling）在决定性能指标的方差时很管用，它可以用来帮助计算分桶的抽样size。详见：Montgomery(2012)、Efron和Tibshirani(1993).

参考：

Statistical Methods for Recommender Systems

January 25, 2015d0evi1 Reading time ~1 minute

一种简单的个性化导航实现

移动端时代的挑战：手机屏更小，输入更不便，信息过载问题更严重。

用户获取信息的方式：浏览 vs. 查询

点击距离(click-distance):

click-distance(i) = selects(i) + scrolls(i) i为item的意思。

1 个性化用户兴趣

两种点击：

static hit-table:大众的点击数据，one-size-fits-all
user hit-table:个人的点击数据

其中static hit-table如下：

某一个用户的hit-table如下：

然后根据此计算这个用户对每个item的喜好概率. 概率计算：

$ P(B A)=(20+10)/(40+100)=0.214 $
$ P(C A)=(20+90)/(40+100)=0.786 $
$ P(D A)=P(B A)P(D B)=(30/140)(10+5)/(20+10) = 0.107 $
$ P(E A)=P(B A)P(E B)=(30/140)(10+5)/(20+10) = 0.107 $

$ P(F	A)=P(C	A)P(F	C)=(110/140)(10+80)/(20+90)=0.642 $
-$ P(G	A)=P(C	A)P(G	C)=(110/140)(10+10)/(20+90)=0.142 $

该用户的喜好排序为：C>F>B>G>D>E

2 个性化调整

ok，计算好了之后。需要对每个用户做menu的调整。调整方式采用的是：垂直提升（vertical promotions）。举个例子，原先如果是三层：根菜单－父菜单-菜单选项。菜单选项提升到父菜单级别，父菜单提升到根菜单级别。别外同级之间的相对位置也会进行调整。

3 指标评测

平均点击距离（是否降低）
平均每个session的平均导航时间（是否降低）
平均内容浏览时间（是否提升）

参考：

1.personalization techniques and recommender systems, Gulden Uchyigit etc.

September 26, 2014d0evi1 Reading time ~3 minutes

从word2vec到doc2vec

此处省略开头，回归核心。。。

尽管word2vec提供了高质量的词汇向量，仍然没有有效的方法将它们结合成一个高质量的文档向量。在本篇文章中，受一个随机过程问题（中餐馆订餐过程CRP）的启发，我们讨论了一种可能的探索。基本思路是，使用CRP来驱动聚类过程，并将各种词向量在合适的聚类中合在一起。

假设我们有一个关于鸡肉订单（chicken recipe）的文档。它包含了下面的词汇：”chicken”, “pepper”,“salt”, “cheese”. 它也包含了其它的词汇：“use”, “buy”, “definitely”, “my”, “the”。 word2vec的模型将为每个单词生成一个vector。简单的，我们可以将所有词向量(word vector)合成一个文档向量（doc vector）。这将引入许多噪声。一种降噪方法是使用加权的合并，基于相应的算法，比如：IDF 或者 POS tag.

那么问题来了：当添加词汇时，是否可以更有选择性？回到鸡肉订单文档上，它不应该考虑以下的词汇：“definitely”, “use”, “my” 。基于权重的idf可以有效地减少一些停留词（”the”、”is”等等）的噪声问题。然而，对于这样的词汇：“definitely”， “overwhelming”，那么idf值将不会如你所愿那样的小。

如果我们首先将词汇聚类，像这样的词“chicken”, “pepper”将聚集到同一个类中，而像其它的词类似“junk”则希望聚到另一个类中。如果我们能区别相关的类，那么我们可以将相关类的词相量（word vector）合并，我们就可以得到一个很好的文档（doc vector）.

当然，我们可以使用通用的算法：K-means，但是大多数这些算法都需要一个距离公式。word2vec可以通过余弦相似度（cosine）很方便地进行相似判断，不一定需要采用欧氏距离。

如果我们使用余弦相似度，我们可以很快进行聚类词汇。

回到中餐馆问题，假设你来到一个中餐馆，发现已经有n张桌子，每张桌子有不同的人。另外还有一张空桌子。CRP有一个超参数 r > 0，它表示这张空桌子上可能的人数。你到了（n+1）的桌子中其中之一，桌子上存在不同数目的人（对于空桌子，数目为r）。当你到达其中的一张桌子时，那么整个过程完成。如果你决定坐在空桌子上，餐厅会自动创建一张空桌子。在这个例子中，如果下一个顾客到来时，他会在(n+2)张桌子上做选择（包括新的空桌子）

受CRP的启发，我们尝试了在CRP中，包含相似因子的的以下变量。过程大致相同：我们给定聚类的M个向量。我们去维护两个东西：聚类和（cluster sum，没有中心），聚类中的各个向量（vector）。通过各向量进行迭代。对于当前的向量V，假设我们已经有了n个聚类。现在我们去找到聚类C，它的聚类和与当前的向量相似。我们将这个分数称为 sim(V,C).

变量1: v 创建了一个新的聚类，它的概率为1/(1+n). 否则v就到聚类C中。
变量2:如果sim(V,C) > 1/(1+n)，则归到聚类C中。否则概率为1/(1+n)，它将创建一个新的聚类，概率为n/(1+n)，它将归到C。

在任意两个变量中，如果v归到一个聚类中，我们将更新聚类和，及相应的关系。

对于传统CRP，有一个明显的区别是：如果我们不到空桌子上，我们将决定去往“最相似”的桌子上。

实际上，我们将找到这些创建相似结果的变量。有个不同是，变量1趋向于更多但是单个量级更小的聚类；变量2趋向于少量，但是单个量级更大的聚类。变量2的例子如下所示：

对于chick recipe document，聚类如下：

‘cayenne’, ‘taste’, ‘rating’, ‘blue’, ‘cheese’, ‘raved’, ‘recipe’, ‘powdered’, ‘recipe’, ‘dressing’, ‘blue’, ‘spicier’, ‘spoon’, ‘cup’, ‘cheese’, ‘cheese’, ‘blue’, ‘blue’, ‘dip’, ‘bake’, ‘cheese’, ‘dip’, ‘cup’, ‘blue’, ‘adding’, ‘mix’, ‘crumbled’, ‘pepper’, ‘oven’, ‘temper’, ‘cream’, ‘bleu’, ……
‘the’, ‘a’, ‘that’, ‘in’, ‘a’, ‘use’, ‘this’, ‘if’, ‘scant’, ‘print’, ‘was’, ‘leftovers’, ‘bring’, ‘a’, ‘next’, ‘leftovers’, ‘with’, ‘people’, ‘the’, ‘made’, ‘to’, ‘the’, ‘by’, ‘because’, ‘before’, ‘the’, ‘has’, ‘as’, ‘amount’, ‘is’, ……
‘stars’, ‘big’, ‘super’, ‘page’, ‘oct’, ‘see’, ‘jack’, ‘photos’, ‘extras’, ‘see’, ‘video’, ‘one’, ‘page’, ‘f’, ‘jun’, ‘stars’, ‘night’, ‘jul’, ……

很明显地，第一个聚类最相关。接着，我们获取聚类和向量。下面是python代码，word vector通过c版本将英文Wiki语料训练得到，它将使用gensim.model.word2vec的python库获取模型文件。 c[0]表示聚类0:

>>> similar(c[0], model[“chicken”])

0.95703287846549179

>>> similar(c[0], model[“recipe”] + model[“chicken”])

0.95602993446153006

>>> similar(c[0], model[“recipe”] + model[“fish”])

0.7678791380788017

>>> similar(c[0], model[“computer”])

0.0069432409372725294

>>> similar(c[0], model[“scala”])

0.061027248018988116

看上去语义信息保存完好。我们使用doc向量是可信服的。菜单文档看起来很简单。我们可以尝试更多的挑战，比如一篇新闻文章。新闻本身是叙事型的，包含很少的“主题词”。我们尝试在这篇文章标题为：“Signals on Radar Puzzle Officials in Hunt for Malaysian Jet”的文章进行聚类。我们可以得到4个聚类：

‘have’, ‘when’, ‘time’, ‘at’, ‘when’, ‘part’, ‘from’, ‘from’, ‘in’, ‘show’, ‘may’, ‘or’, ‘now’, ‘on’, ‘in’, ‘back’, ‘be’, ‘turned’, ‘for’, ‘on’, ‘location’, ‘mainly’, ‘which’, ‘to’,, ‘also’, ‘from’, ‘including’, ‘as’, ‘to’, ‘had’, ‘was’ ……
‘radar’, ‘northwest’, ‘radar’, ‘sends’, ‘signal’, ‘signals’, ‘aircraft’, ‘data’, ‘plane’, ‘search’, ‘radar’, ‘saturated’, ‘handles’, ‘search’, ‘controlled’, ‘detection’, ‘data’, ‘nautical’, ‘patrol’, ‘detection’, ‘detected’, ‘floating’, ‘blips’, ‘plane’, ‘objects’, ‘jets’, ‘kinds’, ‘signals’, ‘air’, ‘plane’, ‘aircraft’, ‘radar’, ‘passengers’, ‘signal’, ‘plane’, ‘unidentified’, ‘aviation’, ‘pilots’, ‘ships’, ‘signals’, ‘satellite’, ‘radar’, ‘blip’, ‘signals’, ‘radar’, ‘signals’ ……
‘of’, ‘the’, ‘of’, ‘of’, ‘of’, ‘the’, ‘a’, ‘the’, ‘senior’, ‘the’, ‘the’, ‘the’, ‘the’, ‘the’, ‘the’, ‘a’, ‘the’, ‘the’, ‘the’, ‘the’, ‘the’, ‘of’, ‘the’, ‘of’, ‘a’, ‘the’, ‘the’, ‘the’, ‘the’, ‘the’, ‘the’, ‘its’, ……
‘we’, ‘authorities’, ‘prompted’, ‘reason’, ‘local’, ‘local’, ‘increasing’, ‘military’, ‘inaccurate’, ‘military’, ‘identifying’, ‘force’, ‘mistaken’, ‘expanded’, ‘significance’, ‘military’, ‘vastly’, ‘significance’, ‘force’, ‘surfaced’, ‘military’, ‘quoted’, ‘showed’, ‘military’, ‘fueled’, ‘repeatedly’, ‘acknowledged’, ‘declined’, ‘authorities’, ‘emerged’, ‘heavily’, ‘statements’, ‘announced’, ‘authorities’, ‘chief’, ‘stopped’, ‘expanding’, ‘failing’, ‘expanded’, ‘progress’, ‘recent’, ……

看起来挺不错的。注意，这是个输入为1的聚类过程，并且我们不必去指定聚类数目。这对于对延迟很敏感的服务来说很有帮助。

缺失了一环：如何找出相关的聚类？我们在这部分不必做扩展实验。可以考虑：

idf权值
POS tag。我们不必在文档中标记每个词。根据经验，word2vec趋向于在语法构成上聚在一起。我们对每个簇都抽取出一些tag。
计算聚类和总向量，与标题向量

当然，还有其它问题需要考虑：

1) 如何合并簇？基于向量间的相似度？或者簇成员间的平均相似度
2)词的最小集合，可以重构簇和向量？可以使用关键词抽取方法。

结构：google的word2vec提供了强大的词向量。我们可以以有效的方式，来使用这些vector来生成高质量的文档向量。我们尝试了一个基于CRP变种的策略，并取得了结果。当然，还有很多问题需要研究，BalabalaBala…

代码如下：

# vecs: an array of real vectors
def crp(vecs):
    clusterVec = []         # tracks sum of vectors in a cluster
    clusterIdx = []         # array of index arrays. e.g. [[1, 3, 5], [2, 4, 6]]
    ncluster = 0
    # probablity to create a new table if new customer
    # is not strongly "similar" to any existing table
    pnew = 1.0/ (1 + ncluster)
    N = len(vecs)
    rands = random.rand(N)         # N rand variables sampled from U(0, 1)

    for i in range(N):
        maxSim = -Inf
        maxIdx = 0
        v = vecs[i]
        for j in range(ncluster):
            sim = cosine_similarity(v, clusterVec[j])
            if sim < maxSim:
                maxIdx = j
                maxSim = sim
            if maxSim < pnew:
                if rands(i) < pnew:
                    clusterVec[ncluster] = v
                    clusterIdx[ncluster] = [i]
                    ncluster += 1
                    pnew = 1.0 / (1 + ncluster)
                continue
        clusterVec[maxIdx] = clusterVec[maxIdx] + v
        clusterIdx[maxIdx].append(i)

    return clusterIdx

本文译自：http://eng.kifi.com/from-word2vec-to-doc2vec-an-approach-driven-by-chinese-restaurant-process/

September 23, 2014d0evi1 Reading time ~5 minutes

libfm 1.4.2 manual

因子分解机(Factorization Machine, FM), 是由Konstanz大学（德国康斯坦茨大学）Steffen Rendle（现任职于Google）于2010年最早提出的，旨在解决大规模稀疏数据下的特征组合问题。

所谓的因子即潜因子(latent factors)，在推荐系统中矩阵分解中常提及。ratings(n,m)评分矩阵，分解为：users(n,x) * items(x,m).

对于分类和回归问题，核心的一个问题是：特征组合。它的威力巨大。如果每个特征两两组合，n个特征下，产生的组合特征有：n * (n-1)/2。当n=100时，就有4950种. 如果每种特征以one-hot编码，每个特征的取值有100个，那这个数字又要另算了…(100 * 100 * (100 * 100-1) / 2)=5000w种了…当然，这个矩阵是稀疏的。

如果模型为多项式模型：$ y(x)=w_0+\sum_{i}^{n}{w_i}{x_i}+\sum_{i=1}^{n} \sum_{j=i+1}^{n} w_{ij}{x_i}{x_j} $

后一项为交叉项。

本文简述下manual上的几个要点。

1.准备

1.下载、编译：https://github.com/srendle/libfm

2.编译出三个bin:

libFM: the libFM tool
convert: a tool for converting text-files into binary format , 文本转二进制工具
transpose: a tool for transposing binary design matrices，二进制设计矩阵转置工具

2.数据格式

libsvm sparse格式：

4 0:1.5 3:-7.9 
2 1:1e-5 3:2 
-1 6:1

3.格式转换

script下，内置了脚本。

推荐系统中，常见格式:

userid itemid rating

例如：Movielens 1M数据集：

./triple_format_to_libfm.pl -in ratings.dat -target 2 -delete_column 3 -separator "::"

如果同时对训练集、测试集处理：

./triple_format_to_libfm.pl -in train.txt,test.txt -target 2 -separator "\t"

4.二进制格式

二进制数据格式优点：

1.读取快
2.原始数据不能直接装进内存（太大）；二进制格式可以存在磁盘上，一部分装进内存中（使用–cache size）
3.如果使用ALS 和 MCMC,可以预先计算转置矩阵

示例：将movielens数据集转换成二进制格式：

./convert --ifile ratings.dat.libfm --ofilex ratings.x --ofiley ratings.y

生成两个文件：

ratings.x: 设计矩阵X，即：要预测的变量X
ratings.y: 输出target:y

推荐使用这种后缀命名法。

5.转置数据

对于MCMC和ALS学习，需要使用转置的设计矩阵。

如果使用文本格式，数据在内部会自动进行转置。
如果使用二进制格式，进行转置。

示例：

./transpose --ifile ratings.x --ofile ratings.xt

6.train与test

6.1 完整参数

-cache_size     cache size for data storage (only applicable if data is
            in binary format), default=infty
-dim            'k0,k1,k2': k0=use bias, k1=use 1-way interactions,
            k2=dim of 2-way interactions; default=1,1,8
-help           this screen
-init_stdev     stdev for initialization of 2-way factors; default=0.1
-iter           number of iterations; default=100
-learn_rate     learn_rate for SGD; default=0.1
-load_model     filename for reading the FM model
-meta           filename for meta information about data set
-method         learning method (SGD, SGDA, ALS, MCMC); default=MCMC
-out            filename for output
-regular        'r0,r1,r2' for SGD and ALS: r0=bias regularization,
                r1=1-way regularization, r2=2-way regularization
-relation       BS: filenames for the relations, default=''
-rlog           write measurements within iterations to a file;
                default=''
-save_model     filename for writing the FM model
-seed           integer value, default=None
-task           r=regression, c=binary classification [MANDATORY]
-test           filename for test data [MANDATORY]
-train          filename for training data [MANDATORY]
-validation     filename for validation data (only for SGDA)
-verbosity      how much infos to print; default=0

6.2 强制参数

-task: 分类(-task c)或回归(-task r)
-train: 训练
-test: 测试
-dim: libfm的维度. k0, k1, k2.  
	k0: {0,1}，是否使用bias: w0
	k1: {0,1}，是否使用one-way interactions(每个变量都加上bias)
	k2: 实数集。使用pairwise interactions所需的因子数。k表示R^(pxk)

示例：一个回归任务，使用bias,1-way interaction, k=8 pairwise interaction.

./libFM -task r -train ml1m-train.libfm -test ml1m-test.libfm -dim ’1,1,8’

6.3 可选参数

-out:输出。对于分类，输出为正例的概率
-rlog:每次迭代的统计信息日志。csv格式
-verbosity: 是否打印更详细信息。

6.4 高级参数

Grouping

使用meta选项对输入变量进行group分组。用于MCMC, SGDA and ALS的grouping，定义了一个更复杂的正则结构。每个group都有独自的正则项参数。如要使用grouping，meta参数最好是文件名，行数与输入变量数（列）相同。每行为相应的输入变量指定groupid。注意：group_id必须是从0开始的数值型。

例如：一个设计矩阵的grouping文件，它有7列；最大id是6：

这里总共有3个组，前两个变量（设置矩阵中的列）具有相同的分组，第三个和最后一个具有相同分组；第4、5、6具有相同分组

Binary Data and Caching

对于设计矩阵，二进制的文件名以.x结尾，target以.y结尾，转置数据以.xt结尾。如果你想在libFM中使用二进制数据，训练、测试、验证时的命令行参数中文件名，则不必使用.x, .y, .xt结尾。

例如：如果你训练（ml1m-train.x, ml1m-train.y, ml1m-train.xt）和测试数据的调用（ml1m-test.x, ml1m-test.y, ml1m-test.xt）：

./libFM -task r -train ml1m-train -test ml1m-test -dim ’1,1,8’

libFM会自动将合适的文件扩展名附加上后面进行学习。

如果你的数据太大装不进内存，你可以指定libFM允许的文件内容大小：

./libFM -task r -train ml1m-train -test ml1m-test -dim ’1,1,8’ -cache_size 100000000

在该例中，会使用100MB用于缓存每个.x或.xt文件。注意，.y文件总是能完整读到内存中。

如果参数cache_size没有指定，所有数据都会加载到内存中。注意：只要你的数据比内存大，你就应该使用caching；因为caching会使用硬盘，它会略比内存慢。

6.4 学习方法

缺省下，使用MCMC推断（MCMC inference）进行学习，因为MCMC最便于处理（没有学习率，没有正则项）。在LibFM中，你可以从以下的学习方法中选择：SGD, ALS, MCMC和SGDA. 对于所有学习方法，都需要指定迭代次数iter。

6.4.1 SGD

使用-method sgd即可。对于随机梯度下降法，需要指定以下参数：

learn_rate: 学习率，即SGD的step size，必须是非0正值
regular: 正则参数。非零正值。
init_stdev: 正态分布的标准差，它用于初始化参数V。你应使用一个非零正值

对于SGD，你需要指定以下的正则参数：

1个值(-regular value): 所有模型参数都使用相同正则项
3个值(-regular ‘value0,value1,value2’): 0-way interactions(w0),使用value0作为正则项；1-way interactions(w)使用value1，而pairwise interactions(V)使用value2.
没有值：如果参数-regular完全没指定任何数，则对应于没有正则项。比如：-regular 0

示例：

./libFM -task r \
		-train ml1m-train.libfm \
		-test ml1m-test.libfm \
		-dim ’1,1,8’ \
		-iter 1000 \
		-method sgd \
		-learn_rate 0.01 \
		-regular ’0,0,0.01’ \
		-init_stdev 0.1

6.4.2 ALS

使用-method als即可做ALS学习。参数选择如下：

regular: 正则项，非零正值.
init_stdev: 正态分布的标准差，它用于初始化参数V。你应使用一个非零正值

对于ALS，你需要指定以下的正则参数：

1个值(-regular value): 所有模型参数都使用相同正则项
3个值(-regular ‘value0,value1,value2’): 0-way interactions(w0),使用value0作为正则项；1-way interactions(w)使用value1，而pairwise interactions(V)使用value2.
分组指定值(-regular ‘value0,value1g1,…,value1gm,value2g1,…value2gm’)，对于m组，存在着1+2m项正则项：如果输入参数分过组，每组的1-way和2-way interaction，都需要一个正则项.
没有值：如果参数-regular完全没指定任何数，则对应于没有正则项。比如：-regular 0

示例：

./libFM -task r \
	-train ml1m-train.libfm \
	-test ml1m-test.libfm \
	-dim ’1,1,8’ \
	-iter 1000 \
	-method als \
	-regular ’0,0,10’ \
	-init_stdev 0.1

6.4.3 马尔可夫链蒙特卡尔理论（Markov Chain Monte Carlo：MCMC）

使用 -method mcmc 用作MCMC学习。参数如下:

init_stdev: 正态分布的标准差，它用于初始化参数V。你应使用一个非零正值

示例：

./libFM -task r \
	-train ml1m-train.libfm \
	-test ml1m-test.libfm \
	-dim ’1,1,8’ \
	-iter 1000 \
	-method mcmc \
	-init_stdev 0.1

6.4.4 自适应SGD（SGDA）

使用参数 -method sgda可用于SGD学习。SDGA学习中，正则项的值（每个分组和每层）会自动发现。你可以指定一个验证集，用于调整正则项：

validation: 该数据集用于调整正则项参数。该数据集应与训练集不重合
learn_rate: 学习率，即SGD的step size。它具有非零正值
init_stdev: 正态分布的标准差，它用于初始化参数V。你应使用一个非零正值

示例：

./libFM -task r \
  -train ml1m-train.libfm \
  -test ml1m-test.libfm \
  -dim ’1,1,8’ \
  -iter 1000 \
-method sgda \
-learn_rate 0.01 \
-init_stdev 0.1 \
-validation ml1m-val.libfm

7. BS扩展

(a)LibFM数据文件（即设计矩阵X的表示），包含了大的重复的pattern块
(b)LibFM的BS extension，它允许使用一个关于数据文件的更有效压缩表示，对于重复的patterns只会出现一次.

在关系设置中，设计矩阵(Design Matrix)会包含重复的patterns大块。这会产生一个很大的设计矩阵，从而使得学习变慢，并且占用大量内存。LibFM的BS扩展，允许定义和使用设计矩阵的块结构。使用BS，runtime和内存消耗都是随数据size线性增长的。更多细节详见[7].

7.1 数据格式

BS extension允许定义块（比如：上图中的B1, B2, B3），并在libFM中使用它们。每个块的定义包含这几部分：

关于块的设计矩阵（上图中的X^B1）
训练样例（或测试样例），映射到块中的行（例如：图中的：ø^B1）
设计矩阵中，可选参数grouping

对于每个块，期望以下的文件：

<blockname>.x: 块的设计矩阵，二进制文件
<blockname>.xt: <blockname>.x的转置矩阵
<blockname>.train: 从train rows到block rows的映射
<blockname>.test: 与train相类似
<blockname>.groups: 可选文件，用于grouping预测变量

7.3 运行BS数据

使用命令行参数 –relation. 假设定义了两个块（rel.user和rel.item）：

./libFM -task r \
	-train ml1m-train \
	-test ml1m-test \
	-dim ’1,1,8’ \
	--relation rel.user,rel.item

注意，对于每个块，上述列出的文件必须出现（比如：rel.user.x, rel.user.xt, rel.user.train, rel.user.test, (rel.user.groups), rel.item.x, rel.item.xt,等）

7.4 注意BS的使用

BS只支持MCMC和ALS/CD.
当使用BS时，–train和–test参数仍是必选的，必须指定文件。libFM文件，通过–train和–test参数传递，具有预测变量，也可以是空。文件可以是二进制或文本格式。
BS设计矩阵的变量ids的名字空间是不一样（distinct）的。例如：在X^B1，和在X^B2的索引7的变量，是不同的。LibFM内部会给大的变量id添加offset。
BS文件分组的名字空间也是不一样的。每个分组文件分组从0开始，重复的解析方式与predictor variable ids相同。
如果没有分组文件传进去，每个块都会自动假设它有一个不同分组

参考

www.libfm.org
[1] Chih-Chung Chang and Chih-Jen Lin. Libsvm: A library for support vector machines. ACM Trans. Intell. Syst. Technol., 2:27:1–27:27, May 2011.
[2] Christoph Freudenthaler, Lars Schmidt-Thieme, and Steffen Rendle. Bayesian factorization machines. In NIPS workshop on Sparse Representation and Low-rank Approximation, 2011.-
[3] Thorsten Joachims. Making large-scale support vector machine learning practical, pages 169–184. MIT Press, Cambridge, MA, USA, 1999.
[4] Steffen Rendle. Factorization machines. In Proceedings of the 10th IEEE International Conference on Data Mining. IEEE Computer Society, 2010.
[5] Steffen Rendle. Factorization machines with libFM. ACM Trans. Intell. Syst. Technol., 3(3):57:1– 57:22, May 2012.
[6] Steffen Rendle. Learning recommender systems with adaptive regularization. In WSDM ’12: Pro- ceedings of the third ACM international conference on Web search and data mining, New York, NY, USA, 2012. ACM.
[7] Steffen Rendle. Scaling factorization machines to relational data. In Proceedings of the 39th in- ternational conference on Very Large Data Bases, PVLDB’13, pages 337–348. VLDB Endowment, 2013.
[8] Steffen Rendle, Zeno Gantner, Christoph Freudenthaler, and Lars Schmidt-Thieme. Fast context- aware recommendations with factorization machines. In Proceedings of the 34th ACM SIGIR Con- ference on Reasearch and Development in Information Retrieval. ACM, 2011.

libfm方面，其它推荐好文：

July 08, 2014d0evi1 Reading time ~1 minute

FM介绍

介绍

FM（Factorization Machines）是一个新模型：它会结合SVM和因子分解模型的优点。FM是一个通用预测器，可以很好地与实数值特征向量一起工作。对比SVM，FM模型会使用因子分解参数来对变量进行交叉。因而，我们可以估计推荐系统中海量稀疏性（huge sparsity）问题中的交叉（这种情况SVM会失败）。我们展示了FM的模型等式，它可以在线性时间内计算，因而FM可以直接进行最优化(optimize)。不同于非线性SVM需要以对偶式做转换，FM可以直接估计模型参数，无需求解任何支持向量（support vector）。本paper也展示了FM和SVM的关系，以及FM在稀疏（sparse）环境下的参数估计的优点。

另一方面，有许多不同的因子分解模型，比如：矩阵分解，并行因子分析模型（如：SVD++，PITF or FPMC）。这些模型的缺点是，不能应用于常见的预测任务（但对于一些特殊的输入数据管用）。这些模型等式和优化算法对于每个任务各不相同。我们展示了FM可以模仿这些模型，只需要指定输入数据（即：特征向量）即可。这让FM很容易使用，即使是对于那些在因子分解模型没有专家经验的用户。

1.介绍

SVM是最流行的预测器之一。然而，在协同过滤领域，SVM基本上毫无用武之地，该领域最好的模型是标准的矩阵/张量分解模型（matrix/tensor factorization model），比如：PARAFAC或者使用因子分解参数的特殊模型[2][3][4]。在本paper中，我们展示了为什么标准的SVM预测器在这些任务上不能成功的原因：在非常sparse的数据上，不能在复杂（非线性）kernel spaces上学到可靠的参数（超平面）。另一方面，张量分解模型的缺点是：

(1) 它们不能应用于标准的预测数据（比如：在$R^n $ 空间中的实数值特征向量）
(2) 对于特定的任务，需要在建模和算法设计时进行单独构建

在本paper中，我们引入了一个新的预测器，Factorization Machine(FM)，它是一个通用的预测器（类似于SVM），但也能在高度稀疏（sparsity）的数据下估计得到可靠参数。FM模型所有都嵌套着变量交叉（对比：在SVM中通过一个polynomial kernel），但它会使用一个因子分解参数（ factorized parametrization）的方法，而非SVM中的dense参数化（dense parametrization）。我们展示了FM的模型等式，它可以在线性时间内计算，只依赖于一个线性数量的参数。这允许直接优化和模型参数存储，无需存储任意训练中数据（比如：支持向量）来进行预测。对比于FM，非线性SVM通常以对偶形式（dual form）进行优化，依赖于训练中数据（支持向量）来计算预测。我们也展示了，FM把许多对于协同过滤任务的成功方法（biased MF, SVD++, PITF, FPMC）包含在内。

总之，我们提出的FM的优点有：

1) FM允许在非常sparse的数据（SVM会失败）上进行参数估计
2) FM具有线性复杂度，可以以原始形式优化，不需要依赖像SVM中的支持向量（SV）。我们展示了FM可以扩展到大数据集上（比如：Netflix 1000w训练实例）
3) FM是一个通用预测器，可以与任意实数型特征向量（real valued feature vector）一起工作。对比于FM，其它state-of-art的因子分解模型非常受限于输入数据。我们将展示通过定义输入数据的特征向量，FM可以模仿state-of-the-art的模型（biased MF, SVD++, PITF, FPMC）。

2.sparsity下的预测

最常见的预测任务是：估计一个函数：

\[y : R^n \to T\]

从一个实数值特征向量 $x \in R^n$，到一个目标域T（比如：对于回归， T=R；对于分类，T={+, -}）。

在监督学习领域，假设存在一个训练样本数据集：$D=\lbrace (x^{(1)},y^{(1)}), (x^{(2)},y^{(2)}), ... \rbrace$，y为目标函数(target function)。我们也研究了排序任务，其中函数y的目标 T=R 可以被用于得分特征向量（score feature vectors）x，可以根据score进行排序。得分函数（score functions）可以通过pairwise的训练数据进行学习得到，其中特征tuple $(x^{(A)}, x^{(B)}) \in D$意味着$x^{(A)}$的排序比$x^{(B)}$更高。由于pairwise的排序关系是不对称的（antisymmetric），只使用正例进行训练就足够了。

在本paper中，我们处理该问题，其中x是高度稀疏的（比如：向量x中几乎大多数元素$x_i$都是0)。假设m(x)是特征向量x中非零元素的数目，$\bar{m}_{D}$是所有向量 $x\in D$的m(x)的平均非零元素个数。现实世界中十分稀疏(huge sparsity )的情况很常见（$\bar{m}_{D} \ll n$），比如事件交互（推荐系统中的购买），或者文本分析（bag-of-word方法）。huge sparsity的一个原因是，需要处理海量的类别型变量域。

示例1：假设我们具有一个电影评论系统的交互数据。该系统记录了：用户$u \in U$对一部电影$i \in I$的评分，时间为$t \in R$，评分为$r \in \lbrace 1,2,3,4,5 \rbrace$。假设用户U和item I如下：

U = {Alice (A), Bob (B), Charlie (C), . . .}

I = {Titanic (TI), Notting Hill (NH), Star Wars (SW), Star Trek (ST), . . .}

观察到的数据S：

S = {(A, TI, 2010-1, 5),(A, NH, 2010-2, 3),(A, SW, 2010-4, 1), (B, SW, 2009-5, 4),(B, ST, 2009-8, 5), (C, TI, 2009-9, 1),(C, SW, 2009-12, 5)}

对于一个使用该数据的预测任务，目标是估计一个函数$\hat{y}$来预测：在某个时间点上，一个用户对一个item的评分行为。

图一：示例1的交互所创建的稀疏实数特征向量x。每一行表示了一个特征向量$x^{(i)}$，以及它对应的目标$y^{(i)}$，前4列（蓝色）表示用户的指示变量：接下来的5列（红色）表示item的指示变量。接下来的5列（黄色）持有着额外的隐式指示（比如：该用户评过分的其它电影）。一个特征（绿色）表示了月份时间。最后的5列（棕色）表示在该电影前评过分的最后一部电影。最右边的列是target：这是评分。

图1展示了特征向量是如何从S中被创建的。首先，$|U|$是个二元变量（蓝色），它表示了一个交互的当前用户————通常对于一个交互$(u,i,t,r) \in S$只有一个用户，例如：在第一个（$x_A^{(1)} =1$ ）的用户Alice。下一个$|I|$二元变量（红色）持有着item（例如：$x_{T1}^{(1)}=1$）。图1的特征向量还包含了该用户评分过的其它电影（黄色）。对于每个用户，变量被归一化成总和为1. 例如：Alice评分了Titanic，Notting Hill和 Star Wars。另外，该样本包含了月份时间。最后，该向量包含了评分前最后一部电影的信息。例如，对于$x^{(2)}$，Alice在对Notting Hill评分前，就对Titanic进行了评分。在第V节，我们展示了FM使用这样的特征向量作为输入数据，并与state-of-art算法进行比较。

我们将使用该样本数据进行本paper的演示。然而，注意FM是通用的预测器，任何实数型特征向量都可以使用，并不局限于推荐系统。

3.FM

在本节中，我们引入了因子分解机（FM）。我们详细讨论了模型等式，简短展示了如何应用FM到一些预测任务上。

A.FM模型

1）模型等式（Model Equation）：阶(degree)为2，定义如下：

\[\hat{y}(x) := w_0 + \sum_{i=1}^{n} w_i x_i + \sum_{i=1}^{n} \sum_{j=i+1}^{n} \langle v_i, v_j \rangle x_i x_j\]

…(1)

其中，要估计的模型参数是：

\[w_0 \in R, w \in R^{n}, V \in R^{n * k}\]

…(2)

其中<.,.>是两个size=k的向量的点乘：

\[\langle v_i,v_j \rangle := \sum_{f=1}^{k} v_{i,f} \cdot v_{j,f}\]

…(3)

在V中的一行$v_i$描述了具有k个因子的第i个变量。$k \in N_{0}^{+}$是一个超参数，它定义了因子分解的维度。

一个2-way FM（degree d = 2）捕获了所有变量间的single和pairwise交叉：

$w_0$是全局bias
$w_i$建模了第i个变量的权重
$\hat{w}_{i,j} := \langle v_i, v_j \rangle$建模了第i个和第j个变量间的交叉（interaction）。FM模型不会为每个交叉使用单独的模型参数$w_{i,j} \in R$，作为替代，FM模型通过对它进行因子分解（factorizing）来对交叉进行建模。稍后我们可以看到，对于稀疏的高阶交叉（d>=2）允许高质量参数估计，这就是其关键点。

2) 表现力（Expressiveness）：我们都知道：当k足够大时，对于任意正定矩阵W（positive definite matrix），存在一个矩阵V，使得 $W=V \cdot V^t$(Cholesky decomposition)。这表明：当k足够大时，一个FM可以表示任意交叉矩阵W。然而在稀疏情况下，通常会选择一个小k，因为没有足够多的数据来估计复杂交叉W。限制k（也就是限制FM的表现力)，可以产生更好的泛化，这样可以提升稀疏情况下的交叉矩阵。

3）稀疏条件下的参数估计：在sparse情况下，通常没有足够多的数据来直接地、独立地估计变量间的交叉（interactions）。FM可以在这样的情况下很好地估计交叉，因为他们通过对它们进行因子分解分离出交叉参数的独立性。总之，这意味着，对于一次交叉的数据可以帮助估计相关交叉的估计。以下的示例会利用来自图1的数据，使该思想更清晰。

假设：我们希望估计在Alice(A)和Star Trek（ST）间的交叉，来预测目标y（即rating）。很明显，在训练数据中，没有这样的样本x，同时满足$x_A$和$x_{ST}$都是非零的，因而一个直接的估计是没有交叉（$W_{A,ST}=0$）。但是，这种情况下的因子分解的交叉参数$\langle v_A, v_{ST} \rangle$是可以估计的。首先，Bob和Charlie具有相似的因子向量（factor vector）$v_B$和$v_C$，因为对于预测评分来说，两人与Star Wars（$v_{SW}$）的交叉相似：$\langle v_B, v_{SW} \rangle$和 $\langle v_C, v_{SW} \rangle$必须相似。相比之下，Alice（$v_A$）和Charlie($v_C$)之间会具有不同的因子向量（factor vector），因为在评分上，Alice与Titanic 和 Star Wars的因子也存在不同的交叉。另外，Star Trek的因子向量可能与Star Wars的相似，因为对于预测y来说，Bob与这两部电影具有相同的交叉。总之，这意味着，Alice和Star Trek的因子向量点积（交叉），将与Alice和Star Wars的因子向量点积相似——这在直观上是说得通的。

4）计算

接着，我们将展示如何从计算角度来让FM可用。等式(1)的计算复杂度是$O(k n^2)$，因为所有pairwise交叉必须被计算。但是，用公式重新表示会下降到线性运行时（linear runtime）。

引理3.1：FM的模型等式(1)可以以线性时间O(kn)被计算。

证明：由于pairwise型交叉（interaction）的因子分解，不存在直接依赖这两个变量的模型参数（例如：一个带有索引(i,j)的参数）。因而，pairwise的交叉可以重新进行公式化：

该等式具有O(kn)的线性复杂度

再者，在sparsity情况下，x中的大多数元素为0（例如：m(x)很小），因而，该求和可以通过非零元素的计算来得到。在sparse应用中，FM的计算复杂度为$O(k \hat{m}_D)$，例如：$\hat{m}_D=2$，对于常见的推荐系统，比如MF方法。

B.FM作为预测器

FM可以应用到许多预测任务中。比如：

回归：$\hat{y}(x)$可以直接用于预测，最优化准则可以是在D上最小化square error。
二元分类：$sign(\hat{y}(x))$，最优化准则可以使用hinge loss或者logit loss。
排序（Ranking）：向量x会通过$\hat{y}(x)$的得分进行重新排序，最优化通过实例向量对$(x^{(a)}, x^{(b)} \in D$，根据pairwise classification loss进行分类。

在所有的case中，正则项L2通常被添加到目标函数上来进行优化来阻止overfit。

C.FM的学习

FM具有一个封闭(closed)的模型等式，可以在线性时间上计算。这样，FM的模型参数(w0, w和 V)——可以有效地通过梯度下降法学到。——例如SGD，计算square, logit or hinge loss。FM模型的梯度如下：

…(4)

$\sum_{j=1}^{n} v_{j,f}x_j$是与i独立的，可以预计算(例如：当计算 $\hat{y}(x)$时)。总之，每个梯度都可以在常数时间内被计算。对于(x,y)的所有参数更新可以在O(kn)——或者稀疏情况下O(km(x))时间内完成。

我们提供了一个泛化实现，LibSVM，使用SGD，并支持element-wise和pairwise loss。

D.d-way FM

2-way FM可以很容易泛化到d-way Fm上：

$\hat{y}(x):=w_0 + \sum_{i=1}^{n} w_i x_i + \sum_{l=2}^{d}\sum_{i_1=1}^{n}...\sum_{i_l=i_{l-1}+1}^{n} (\prod_{j=1}^{l} x_{i_j}) (\sum_{f=1}^{k_l}\prod_{j=1}^{l} v_{i_j,f}^{(l)})$ …(5)

其中，l次交叉的交叉参数可以通过使用以下模型参数的PARAFAC模型进行因子分解：

$V^{(l)} \in R^{n * k_1}, k_l \in N_0^{+}$ …(6)

等式(5)的计算复杂度为 $O(k_d n^d)$。但与引理3.1有相近的参数，可以看到在线性时间内被计算。

E.总结

FM模型在特征向量x中的值之间所有可能的交叉，使用因子分解交叉（factorized interactions），而非完全参数化交叉（full parametrized）。这主要有两个优点：

1) 即使很稀疏，值之间的交叉可以被估计。尤其是，它可以泛化到未观察到的交叉
2) 参数的数目对于预测和训练时间是线性的。这可以使用SGD直接进行最优化，并可以使用多种loss。

与其它模型的对比

详见paper，此处不介绍.

https://www.csie.ntu.edu.tw/~b97053/paper/Rendle2010FM.pdf

d0evi1的博客

d0evi1's blog