《Local Item-Item Models for Top-N Recommendation》一文提到了slim的实现。

1.介绍

top-N推荐系统无处不在。它们会提供一个用户可能感兴趣的关于N个items的ranked list。

。。。

2.概念

3.相关工作

3.1 top-N推荐方法

在top-N推荐领域有许多工作。这里我们提出了一新的SOTA的方法。Deshpande[8]开发了一种最近邻item-based方法,它展示了item-based模型会比user-based模型生成更好的top-N推荐。Cremonesi【7】开发了pureSVD方法,它使用一个trucated SVD矩阵分解R来生成top-N的推荐。该工作表明:将missing entries看成0会比矩阵补全方法生成更好的结果。这也是l2r方法的观点。

3.1.1 topN推荐的Sparse LInaear Method(SLIM)

Ning引入了SLIM,它是首个使用使用statistical learning来计算item-item关系的方法,并表明了对top-N推荐的最好方法之一。SLIM会估计一个sparse \(m \times m\)的聚合系数矩阵S。用户u在一个未评分item(urated item) i上的推荐分,可以通过对所有用户过往有评分item(rated items)进行一个sparse aggregation来计算:

\[\hat{r}_{ui} = r_u^T s_i\]

其中:

  • \(r_u^T\)是对应于user u的R的row-vector
  • \(s_i\)是matrix S的第i个column vector,通过求解以下的optimization问题来进行估计得到:
\[\underset{s_i}{minimize} (\frac{1}{2} \| r_i - R s_i \|_2^2 + \frac{\beta}{2} \| s_i \|_2^2 + \lambda \|s_i\|_1) \\ subject\ to \ s_i >=0, and \ s_{ii}=0\]

..(2)

常量 \(\beta\)和\(\lambda\)是正则参数。使用非负constraint,以便vector估计包含正系数(positive coefficients)。其中\(s_{ii}=0\)的constraint确认了:当计算一个item的weights时,item本身不会被用到,因为它会导致trivial solutions。

3.2 推荐的local models

估计多个local models的思想在O’connor[6]中被提出,它通过对rating matrix进行item-wise聚类、并为每个使用最近邻CF生成的cluster估计一个独立的local model来进行rating prediction。

Xu、【19】开发了一个方法会将users和items进行co-clusters,并在每个cluster(通过不同的CF方法,包括item-based最近邻方法)上估计一个独立的local model。一个user-item pair的predicted rating是来自于对该用户具有最大weight的subgroup的prediction。

Lee[14,15]提出了一个方法,它依赖于:rating matrix是本地low-rank。首先,neighborhoods被标记成为在user-item pairs周围的anchor points,它基于一个衡量users和items的pairs间的距离函数来生成,对于每个neighborhood会估计一个local low-rank model。该估计会以一种迭代的方式进行,其中:首先latent factors表示anchor points会被估计,接着基于与这些anchor points与 observed entries的相似度,latent factors会被重新估计,直到收敛。prediction的计算被看成是一个local models的convex组合,它会通过相对应的local anchor point的相似度对user-item pair进行加权。

GLSLIM则有些不同:

i) 在上述提到的工作中,只有local models会被考虑到;而GLSLIM也会计算一个global model,它对于每个user具有一个个性化的factor来决定在global和local信息间的相互影响(interplay)。 ii) GLSLIM会更新users的assignment到subsets上,可以更好地估计local models。 iii) Lee[14,15]使用user和item latent factors,而GLSLIM则关注于item-item models iiv) 在[6]中,作者使用item clusters,在[19]中作者使用co-clusters,在[14,15]中他们使用user-item anchor points。而GLSLIM则使用user subsets。

4.提出的方法

4.1 动机1

一个全局的item-item model可能捕捉用户集合的偏好不够充分,特别是当它们是具有多样、并且有时与偏好相左的用户子集。一个示例是:当local item-item models(iitem-item models会捕获在user subsets内的相似度)有效时,会胜过捕获全局相似度的item-item model(如图1所示)。它描绘了两个不同datasets的training matrix R,它们饮食了两个不同的user subsets。Item i是我们尝试去计算predictions的target item。在示例中,predictions通过使用一个item-item cosine similarity-based方法来计算。

图片名称

图1

在左边的dataset中,图1a存在一些items,它们只被一个subset的users评过分,另外也有一些items它们被两个subset的用户集评过分。当为user-subset A估计时,(对比为user-subset B、对比整个matrix),Item c和i具有不同的相似度。特别的,它们的相似度对于subset B的用户来说为0(因为item i没有被该subset的用户评过分),但它对于subset A的用户来说是非零的(我们可以进一步假设:在该示例中的泛化性没有损失,它是很高的)。接着,i和c间的相似度会是在global case中计算的均值。因此,为该dataset的user subsets估计该local item-item similarities可以帮助捕获user-subsets A和B的多样性偏好,如果我们只通过全局方式计算它们会缺失这些。

然而,当使用item j来为item i做预测时,全局估计和为subset A做出local估计的相似度会相同,因为,他们只会被subset A的users评过分。对于该dataset的相同holds见图1b,

参考

Xia Ning 和 George Karypis在《SLIM: Sparse Linear Methods for Top-N Recommender Systems》提出了SLIM。我们来看下具体的内容:

摘要

本paper关注于开发高效且有效的top-N推荐算法。提出了一种新的Sparse Linear Method,它通过从用户购买/rating 信息中进行聚合,来生成top-N推荐。通过求解一个l1-norm和l2-norm正则的优化问题,从SLIM中可以学到一个稀疏聚合系数矩阵W(sparse aggregation coefficient matrix)W。W可以用来生成高质量推荐,它的稀疏性(sparsity)允许SLIM来快速生成推荐。我们通过实验对比了SLIM与SOTA的方式。实验表明SLIM可以在运行时间和推荐质量上达到很大提升。

一.介绍

电商快速出现、成长很快,提供大量商品和详细信息,改变着用户购买商品的习惯。这使得在线交易更为方便。然而,由于符合用户期望的商品数目快速增加,如何高效快速地帮助用户筛选符合用户品味的商品变得越来越重要。特别的,给定用户的purchase/rating profies,为用户推荐一个关于items的ranked list很重要,这就是广泛使用的top-N推荐系统。

最近,在许多top-N推荐算法提出。这些算法被归类成两类:neghborhood-based CF方法和model-based方法。在neighborhood-based方法中,它们基于item neighborhoods可以快速生成推荐,但会牺牲一定的推荐质量。另一方面,model-based方法,特别是基于latent factor models生成推荐的开销高些,但这些推荐的质量更高,它们在大型推荐任务中达到了最好的效果。

在本paper中,我们提出了一种新的sparse linear method来进行top-N推荐,它们可以快速做出高质量的推荐。SLIM会从用户的purchase/rating profiles中,通过求解一个正解最优化问题,为items学习一个sparse coefficient matrix。在coefficient matrix中会引入Sparsity,它允许我们高效生成推荐。特征选择方法使得SLIM可以大量减少所需时间来学习coefficient matrix。另外,SLIM可以被用来做top-N的推荐。

SLIM方法解决了高质量/高效的topN推荐,它很适合实时应用。我们开展了大量线上实验。结果表明,比起SOTA方法,SLIM可以生成更好的推荐,并且很快速。另外,它在使用ratings做top-N推荐上达到了很好的效果。

二.相关工作

略.

三.定义与概念

在本paper中的符号:

  • u和t:会用来表示users和items
  • \((u_i, t_j)\):表示单个users和items
  • U\((\mid U\mid = m)\)和T \((\mid T\mid = n)\):分别表示所有users和items
  • 矩阵A:整个user-item的parchases/ratings的集合,会分别通过一个m x n的user-item purchase/rating matrix A来表示,其中(i,j)的entry(表示为\(a_{ij}\))是1或者一个正值,如果用户\(u_i\)对item \(t_j\)做过购买或评分行为,否则就会标记为0
  • \(a_i^T\):表示A的第i行,表示user \(u_i\)在所有items T上的购买和评分历史
  • \(a_j\):表示A的第j列,表示所有用户U在item \(t_j\)上的购买/评分历史

在本paper中,

  • 所有vectors(例如:\(a_i^T\)和\(a_j\))都被表示成粗体小写字母,
  • 所有matrics(比如:A)则是大写。
  • 行向量(row vectors)则通过转置T表示,否则缺省就是列向量(column vectors)。
  • 一个预测/近似值则通过\(\sim\)来表示。

我们会使用相应的matrix/vector概念来替代user/item的purchase/rating profiles。

四.SLIM

4.1 Slim topN推荐

在本paper中,我们提出了一种SLIM来做top-N推荐。在SLIM方法中,在用户\(u_i\)在一个未购买/未评分过item \(t_j\)上的推荐分,可以通过计算\(u_i\)已经购买/评分过的items的一个稀疏聚合(sparse aggregation)来计算得到

\[\hat{a}_{ij} = a_i^T w_j\]

…(1)

其中:

  • \(a_{ij}=0\),
  • \(w_j\)是一个稀疏的关于聚合系数(aggregation coefficients)的size-n column vector。

因此,SLIM使用的模型可以表示为:

\[\hat{A} = AW\]

…(2)

其中:

  • A:是二元的user-item购买/评分矩阵,
  • W:是一个\(n \times n\)的sparse matrix的聚合系数(aggregation coefficients),第j列对应于等式(1)中的\(w_j\),
  • \(\hat{a}_i^T(\hat{a}_i^T = a_i^T W)\):表示用户\(u_i\)在所有items上的推荐分

用户\(u_i\)的top-N推荐通过对\(u_i\)的未购买/未评分items上、基于在\(\hat{a}_i^T\)基于推荐分递减来达到,并推荐top-N个items

4.2 为SLIM学习W

在A中,我们将user \(u_i\)在item \(t_j\)上的购买/评分行为(例如:\(a_{ij}\))看成是ground-truth的item推荐分。给定一个user-item 购买/评分矩阵A(size为\(m \times n\)),我们可以学到等式(2)中sparse \(n \times n\)的matrix W,可以通过下面的正则最优化问题进行minimizer:

\[\underset{W}{minimize} \frac{1}{2} \| A - AW \|_F^2 + \frac{\beta}{2} \| W \|_F^2 + \lambda \| W \|_1 \\ subject\ to \ W >= 0, diag(W) = 0\]

…(3)

其中:

  • \(\| W \|_1 = \sum\limits_{i=1}^n \sum\limits_{j=1}^{n} \mid w_{ij} \mid\) :是W的entry-wise l1-norm
  • \(\| \cdot \|_F\):是matrix Frobenius norm(弗罗贝尼乌斯范数)
  • AW:是推荐得分的预估矩阵(例如:\(\hat{A}\)) 乘以 等式2的sparse linear model
  • 第一项\(\frac{1}{2} \| A - AW \|_F^2\) (例如:平方residual sum):用来衡量linear model是如何拟合训练数据的,
  • \(\| W \|_F^2\)和\(\| W \|_1^2\)分别是\(l_F\)-norm和l1-norm正则项
  • 常数\(\beta\)和\(\lambda\)是正则参数。参数越大,正则化越强

约束条件:

  • 在W上会使用非负(non-negativity constraint)约束,若存在,学到的W表示了在items间的正向关系
  • 约束条件 diag(W)=0 也会被使用,以避免trivial solutions(例如:optimal W是一个identical matrix,以便一个item总能推荐它本身,以便最小化 \(\frac{1}{2} \| A - AW \|_F^2\))。另外,约束 diag(W)=0 确保了\(a_{ij}\)不会被用于计算 \(\hat{a}_{ij}\)

  • 1) Slim的l1-norm和\(l_F\) norm正则:为了学到一个sparse W,我们需要引入W的\(l1-norm\) 作为等式(3)的regularizer。众所周知,\(l1-norm\)正则化会将sparsity引入到solutions中【12】

除了l1-norm外,我们还有W的\(l_F\)-norm作为另一个regularizer,它会导致该最优化问题变成一个弹性网眼(elastic net)问题[13]。\(l_F\)-norm可以衡量模型复杂度,并阻止overfitting(在ridge regression中)。另外,\(l_1\)-norm和\(l_F\)-norm regularization一起隐式地将solutions中的相关items进行了group【13】

  • 2) 计算W:因为W的列是独立的,等式(3)的最优化问题可以被解耦成以下的最优化问题的集合:
\[\underset{w_j}{minimize} \frac{1}{2} \| a_j - A w_j \|_2^2 + \frac{\beta}{2} \| w_j \|_2^2 + \lambda \| w_j \|_1 \\ subject \ to \ w_j >=0 \\ w_{jj} = 0\]

…(4)

这允许W的每一列可以被独立求解。在等式(4)中:

  • \(w_j\)是W的第j列
  • \(a_j\)是A的第j列
  • \(\| \cdot \|_2\)是vectors的\(l_2\)-norm
  • \(\| w_j \|_1 = \sum\limits_{i=1}^n \mid w_{ij} \mid\)是vector \(w_j\)的entry-wise \(l_1\)-norm。

由于W的column-wise独立特性,学习W的过程可以很方便并行化。等式(4)的最优化问题可以使用坐标下降法和soft thresholding来进行求解。

  • 3) 具有Feature Selection的SLIM:等式(4)中的\(w_j\)的估计可以被看成是一个正则回归问题的解,其中:A的第j列是等估计的依赖变量,可以看成是A的其余n-1列(独立变量)的一个函数。该观点建议:feature selection方法可以潜在用于:在计算\(w_j\)之前,减小独立变量的数目。这些feature selection方法的优点是:他们会减少A中列的数目,它可以实质上减少SLIM学习所需的整体时间。

受其它observations的启发,我们将SLIM方法扩展成包含feature selection。我们将这些方法称为“fsSLIM”。尽管可以使用许多feature selection方法,在本paper中,受itemkNN top-N推荐算法的启发,我们只研究了一种方法。特别的,由于目标是学习一个线性模型(linear model)来估计A(\(a_j\))的第j列,接着A的列与\(a_j\)最相似,可以被用于selected features。我们的实验会在后面展示,使用cosine相似度和这种feature selection方法,会产生一个方法:它具有更低计算要求,具有最小的质量退化。

4.3 对于SLIM,高效的topN推荐

等式(2)中SLIM方法以及W的稀疏性,使得在topN推荐上更快。在等式(2)中,\(a_i^T\)总是非常稀疏(例如:用户通常只会对少量的items进行购买/评分),并且当W也稀疏时,通过利用W的稀疏结构,\(\hat{a}_i^T\)的计算可以非常快(例如:沿着W在它行中的非零值上的列进行一个”gather”操作,对应于在\(a_i^T\)中的非零值)。因此,对于user \(u_i\)的推荐的计算复杂度是:

\[O(n_{a_i} \times n_w + N log(N))\]

其中:

  • \(n_{a_i}\): 是在\(a_i^T\)中的非零值数目
  • \(n_w\): 是在W中行的非零值的平均数目
  • \(N log(N)\)项:是用于对N个items最高分进行排序,它可以从在\(\hat{a}_i^T\)潜在的\(n_{a_i} \times n_w\)的非零条目中使用线性选择以线性时间被选中。

4.4 SLIM vs. 已存在的线性方法

线性模型已经在topN推荐中被使用。例如,在[2]中的itemkNN方法具有一个线性模型,它与SLIM相似。itemkNN的模型是一个knn item-item cosine相似度矩阵S,也就是说,每行\(s_i^T\)具有精准的k个非零值,它表示在item \(t_j\)和它的k个最相似邻居间的cosine相似度。在itemkNN和SLIM的线性模型间的基本不同点是:前者高度依赖于预指定的item-item相似度measure(它用于区分neighbors);后者通过求解等式(3)中的最优化问题来生成W。在这种方式中,W可以潜在编码items间丰富且微妙的关系,它们通常不能被常见的item-item 相似度metrics轻易衡量。在第4节中,通过实验结果验证表明,W要胜过S。

Rendle[11]讨论了一个adaptive k-NN方法,它使用与在itemkNN相似的模型,但会可适应性地学习item-item相似矩阵。然而,在[11]中的item-item相似度矩阵是 完整的稠密、对称矩阵,并且具有负值。W与Rendle的item-item相似度矩阵不同,除了它的稀疏性外,它还会产生更快的推荐,并且存储要求更低,由于最优化过程,W不是必需是对称的,因此对于推荐来说允许更灵活

对于每个item的rating评测,Paterek[15]引入了一个线性模型(linear model),其中,一个user \(u_i\)在一个item \(t_j\)上的评估,可以通过对\(u_i\)在所有其它items上的评分的聚合(aggregation)来进行计算。它们会学习聚合系数(aggregation coefficients),对于每个item,通过求解一个\(l_2\)-norm正则的最小二乘问题来进行。学到的系数是fully dense的。对比起Paterek方法,SLIM的优点是在学习期间采用了\(l_1\)-norm正则,它强制要求W是稀疏的,因此,在W中最具信息量的信号来自所有购买/评分行为,以便可以更好融合信息,对比Paterek方法,它只使用一个购买/评分活动的特定集合。

4.5 在SLIM和MF方法间的关系

对于top-N推荐来说,MF方法是这样一个模型:

\[\hat{A} = U V^T\]

…(5)

其中,\(U\)和\(V^T\)分别是user和item因子。对比在等式(5)中的MF模型、以及等式(2)中的SLIM方法,我们可以看到:SLIM模型可以被看成是MF模型的一个特例(例如:A等同于U,并且W等同于\(V^T\))

等式(5)中的U和\(V^T\),在一个latent space,它的维度通常被指定成一个参数。”latent”空间这时完全变成等式(2)中的item space,因此,在SLIM中没必要学习在”latent” space中的用户表示,因此,学习过程可以被简化。另一方法,\(U\)和\(V^T\)通常具有低维度,因此,在A中的\(U\)和\(V^T\)的低秩近似(low-rank approximation),有用的信息可能被潜在丢失。相反,在SLIM中,由于在users上的信息在A中完全保留,在items上的counterpart可以通过learning进行最优化,SLIM可以潜在的给出比MF方法更好的推荐

另外,由于等式(5)中的\(U\)和\(V^T\),通常是dense的,\(a_i^T\)的计算需要对来自\(U\)和\(V^T\)的dense vectors的每个\(\hat{a}_{ij}\)进行计算。这比起MF方法,会产生一个高计算复杂度,其中k是latent factors的数目,n是items的数目。通过使用在[16,17,18]中的稀疏MF算法,计算复杂度可以被潜在减小。然而,这些稀疏MF算法没有一个可以被用来求解top-N推荐问题,由于它们的高度计算开销。

五.方法

5.1 数据集

我们在8个不同的真实数据集上评估了SLIM的效果,这些数据集如表1所示。可以归为两大类。

第一类:(包括:ccard、ctlg2、ctlg3以及ecmrc[2])来自于顾客的购买交易(purchasing transactions),这4个数据集只有二元购买信息。

  • ccard dataset:对应于在主要商场的信用卡(credit card)购买交易,每个card具有至少5笔交易
  • ctlg2和ctlg3数据集对应于在两个主要的邮购目录零售商(mail-order catelog retailers)上的catalog购买交易
  • ecmrc dataset对应于基于web电商网站的购买交易。

第二类:(BX、ML10M、Netflix和Yahoo)包含了多值评分(multi-value rating)。所有的ratings会被转化成二元索引。

  • BX数据集是来自Book-Crossing dataset上的一个子集,其中每个user会对20个items进行评分,每个item会被至少5个users和最多300个users进行评分过。
  • 电影评分的ML10M dataset,从MovieLens研究项目中获得。
  • Netflix dataset则从Netflix Price dataset中抽取获得,每个user会对20-250个电影进行评分,每个电影会被20-50个users进行评分。- Yahoo dataset是从Yahoo Music 用户对歌曲的ratings中抽取得到,其中:每个user会对20-200个歌曲评过分,每首music会至少被10个users和至多5000个users评过分。

5.2 评估方法 & metrics

我们使用5倍的 Leave-One-Out交叉验证(LOOCV)来评估SLIM方法的效要。在每个run中,datasets会被split成一个training set和一个testing set,它通过随机选择每个user的非零entries之一,并将它放置到testing set中。training set会被用于训练一个模型,接着对于每个user,模型会生成一个size-N的ranked list的推荐items。该evaluation会通过对比每个user的推荐列表以及用户在testing set上的item。结果的主要部分等于10. 然而,我们也会报告对于N的不同值的一些有限结果。

推荐质量通过HR(Hit Rate)、以及平均倒数命中排序(ARHR:Average Reciprocal Hit-Rank)进行评估【2】。HR的定义如下:

\[HR = \frac{\# hits}{\# users}\]

…(6)

其中:

  • \(\#users\)是users的总数目
  • \(\#hits\)是在testing set中users的item命中size-N的推荐列表的总数目。

第二个measure指标是:ARHR,它的定义如下:

\[ARHR = \frac{1}{\#users} \sum\limits_{i=1}^{\#hits} \frac{1}{p_i}\]

…(7)

其中:

  • 如果一个user的一个item被命中(hit),p就是该item在ranked推荐结果中的position。

ARHR是HR的加权版本,它可以用来measure一个item被推荐有多强烈,其中weight是在推荐列表中hit position的倒数(reciprocal)。对于使用评分(ratings)的实验,我们通过查看他们推荐items是否好,并且具有一个特别的rating value,来评估该方法的效果。出于该目的,我们也定义了per-rating Hit Rate(rHR)以及cumulative Hit Rate(cHR):

  • rHR的计算成:在items上的hit rate,它们具有一个特定的rating value
  • cHR可以计算成:在items上的hit rate,它们的rating value不低于一个特定的rating threshold

注意:在top-N推荐文献中,已经存在其它metrics来进行评估。比如:包括AUC(area under the ORC曲线),它会对在一整个ranked list中的true postives和false postives的相对位置进行measure。AUC的variances可以measure在一个randed list中的top部分的位置。另一个流行的metric是召回率(recall)。然而,在top-N的推荐场景中,我们相信,HR和ARHR是最直接和最有意义的measure,因为users只会关注:一个短推荐列表是否有感兴趣的items、而非一个非常长的推荐列表。因此,我们会使用HR和ARHR进行评估。

六、实验结果

图片名称

图片名称

对应于parmas的列为:对于itemkNN和userkNN,参数分别是neighbors的数目。对于itemprob方法,参数是neighbors数目和transition参数\(\alpha\)。对于PureSVD,参数是:sigular values的数目以及在SVD期间的迭代次数。对于WRMF方法,参数是latent space的维度以及在购买时的weight。对于BPRMF方法,参数是latent space的维度和学习率。对于BPRkNN方法,参数是learning rate和正则参数\(\lambda\)。对于方法slim,参数是l2 norm正则参数\(\beta\)以及l1-norm正则参数lambda。对于方法fsSLIM,参数是neighbors的数目和l1-norm正则参数\(\lambda\)。对应于HR和ARHR的列:表示了hit rate和average reciprocal hit-rank. 对应于mt和tt的列,分别表示模型学习和推荐所使用的时间。mt/tt数目(s, m, h)表示秒、分钟、小时。粗体数目是分个dataset上最好的效果。

参考

microsoft在2016年提出了MV-DNN结构:《A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems》。我们来看下该paper。

介绍

为了解决CF和CB的诸多限制,我们提出了利用user features和item features的推荐方法。为了构建user features,不同于许多user profile-based的方法,我们提出了从浏览记录、搜索历史中抽取丰富特征来建模用户的兴趣。依赖的假设是:用户的历史在线动作会影响用户的背景(background)和偏好(preference),因此提出了一种关于用户会对哪些items和topics感兴趣的更精确看法。例如,一个用户做出的许多查询和网页访问都与婴儿有关,那么她很可能是一个新生儿的母亲。有了这些丰富的在线行为,推荐相关items可以更有效率和有效果。

在我们的工作中,我们提出了一种新的deep learning方法,它扩展了DSSM(Deep Structured Semantic Models),它将users和items映射到一个共享语义空间中,并推荐那些在映射空间中与该用户具有最大相似度的items。为了达到该目的,我们的模型会对users和items进行投影,每一者都通过一个丰富的特征集表示,通过非线性转换层映射到一个完全共享的隐语义空间中,其中user的mapping以及该用户喜欢的items的mappings间的相似度会最大化。这允放该模型学习感兴趣的mappings:比如,访问了fifa.com的用户可能会读取关于世界杯相关的新闻文章、或喜欢关于PC or XBox足球游戏。用户侧的丰富特征可以允许建模用户的行为,从而克服在content-based推荐中的限制。它也可以有效解决用户的冷启动问题,因为模型允许我们从queries和相关推荐items(比如音乐)上捕获用户兴趣,即使它们没有使用音乐服务的历史记录。我们的deep learning模型具有一个ranking-based objective函数,它会将正样本(用户喜欢的items)的排序比负样本的更高。该ranking-based objective对于推荐系统更好。

另外,我们扩展了原始的DSSM模型(它被称为是single-view DNN),因为它从来自单个域的user-features 和items学习模型。我们将新模型命名为“Multi-View DNN”。在文献中,multi-view learning是一个比较成熟的领域,它可以从相互不共享的公共特征空间的数据中进行学习。我们将MV-DNN看成了在multi-view learning setup中一种通用的Deeplearning方法。特别的,在我们的数据集中有News、Apps和Movie/TV logs,我们不需要为这种不同域(domain)构建独立模型,它们可以将user features映射到相同域(domain)的item features上,我们会构建一个新的multi-view模型,它会为在隐空间中的user features发现一个单一映射,可以从所有域中使用items的特征进行联合优化。MV-DNN会利用多个跨域数据来学习一个更好的用户表示(user representation),也会利用全域的用户偏好数据使用以一种规则的方式解决数据稀疏性问题。

3.数据集描述

这部分会介绍数据集。我们描述了数据收集过程,以及每个数据集的特征表示,以及一些基础的数据统计。

在该研究中会使用4个数据集,它们从microsoft的产品中收集,包含:

  • (1) Bing Web vertical搜索引擎日志
  • (2) Bing News vertical的新闻文章浏览历史
  • (3) Windows AppStore的App下载日志
  • (4) XBox的Movie/TV观看日志

所有日志的收集从2013-12 〜 2014 6月,包含了英语系国家:美国、加拿大、英国。

(用户特征: user features):我们从Bings收集了用户的搜索queries和它们的点击urls来形成用户特征。queries首先会被归一化、获取词干、接着将它们split成unigram特征,urls会被简写成domain-level(例如:www.linkedin.com)来减小特征空间。我们接着使用TF-IDF得分来保持最流行和重要(no-trivial)特征。整体上,我们选择了300w的unigram特征和500k的domain特征,来产生一个总长度为3500w的用户特征向量

(新闻特征:News Features):我们收集了从Bing News vertical的新闻文章点击。每个News Item通过三部分特征表示。第一部分是,使用字符tri-gram表示编码的标题特征。第二部分是,使用二值特征编码的News的top-level类目(比如:娱乐)特征。第三部分是,每篇文章的命名实体,使用一个NLP parser抽取得到,同样使用tri-gram进行编码。这会产生一个包含10w维的特征向量

(APP特征):用户APP的下载历史,来自windows AppStore日志。每个App的标题使用字符tri-gram表示,会以二值形式组合上类目特征(比如:游戏)。对于APP描述常变化的特性,我们决定不包含这些特征。这一部分会产生一个5w维的特征向量

(Movie/TV Features):对于Xbox日志,我们为每个XBox用户收集了Movie/TV观看历史。每个item的标题和描述,会组合成文本特征,接着使用字符型tri-gram编码。该genre也使用二值特征编码。这一部分会产生5w维特征向量

在我们的神经网络框架中,user features被映射到user view上,其余被映射到不同的item views上。出于训练目的,每个user view会被匹配到一个item view上,它包含了用户的完整集合。为了这样做,我们对登陆用户的每个user-item view pair, 以及基于id间交叉做了抽样。这会为每个user-item view pair产生不同数目的用户。表1描述了在该paper中的一些统计。

4. 用于建模用户的DSSM

DSSM的引入是为了增强在搜索上下文中的query document matching。

图1 DSSM深度结构语义模型

DSSM的典型结构如图1所示。到DNN的输入(原始文本特征)是一个高维向量,例如,在一个query或一个文档中的terms原始数目(没有归一化)。接着DSSM会将该输入传给两个神经网络,两者都有各自不同的输入,会将它们映射到在一个共享语义空间中的语义向量中。对于网页文档排序,DSSM会计算一个query和一个document间的相关得分(对应两个语义向量间的cosine相似度),并通过相似得分进行文档排序。

更正式的,如果x表示输入的term向量,y表示输出向量,\(l_i, i=1,...,N-1\)表示内部的hidden layers,\(W_i\)表示第i个权重矩阵,\(b_i\)表示第i个bias term,我们有:

\[l_1 = W_1 x \\ l_i = f(W_i l_{i-1} + b_i), i=2,...,N-1 \\ y = f(W_N l_{N-1} + b_N)\]

…(1)

其中,我们使用tanh函数作为在output layer和hidden layers \(l_i\)上的activation函数:

\[f(x)= \frac{1 - e^{-2x}} {1+ e^{-2x}}\]

…(2)

在一个query Q和一个document D间的语义相关得分,接着通过R进行measure:

\[R(Q, D) = cosine(y_Q, y_D) = \frac{y_Q^T y_D} {||y_Q|| \cdot ||y_D||}\]

…(3)

其中,\(y_Q\)和\(y_D\)各自是query和document的语义向量。在Web搜索中,给定query,document会通过它们的语义相关得分进行排序。

惯例上,每个word w通过一个one-hot词向量表示,其它维度对应于词汇表size。然而,词汇表size经常在现实中非常大,one-hot向量的词表示会让模型学习开销很大。因此,DSSM使用word hashing layer通过一个letter-trigram向量来表示一个词。例如:给定一个词(web),在添加了词边界符号后(#web#),该词被分割成ngram序列(#we, web, eb#)。接着,该词被表示成一个关于letter-trigrams的count vector。例如,web的letter-trigram表示为:

在图1中,第一层 matrix \(W_1\)表示letter-trigram矩阵,它从一个term-vector转移到它的letter-trigram count vector上,无需学习。尽管英文words的总数目会增长得相当大,去重后的英文letter-trigrams的总数目通常是有限的。因此,它可以泛化到在训练数据中那些未见过的新词上。

在训练中,假设一个query与该query下被点击的documents相关,DSSM的参数(例如:权重矩阵\(W_i\)),可以使用该信号被训练。例如,给定一个query后一个document的后验概率,可以从两者间的语义相关分数中会通过一个softmax函数进行估计:

\[P(D|Q) = \frac{exp(\gamma R(Q,D))}{\sum\limits_{D' \in D} exp(\gamma R(Q,D'))}\]

…(4)

其中\(\gamma\)是softmax的一个平滑因子,它通常会在一个held-out数据集上进行经验型设置。D表示要排序的候选文档集合。理想的,D应包含所有可能的文档。实际上,对于(query, clicked-document) pair,可以使用\((Q, D^+)\)表示,其中:

  • Q表示一个query
  • \(D^{+}\)表示点击的文档,
  • \(\lbrace D_j^-; j=1, ..., N\rbrace\)来表示: N个随机选中的未点击文档
  • D: 包含\(D^{+}\)和N个随机选中的未点击文档来近似D

在训练中,模型参数被估计成:给定queries,被点击文档的极大似然:

\[L(\Lambda) = \log \prod\limits_{(Q,D^+)} P(D^+ | Q)\]

…(5)

其中,\(\Lambda\)表示神经网络的参数集。

5.MV-DNN

DSSM可以看成是一个multi-learning框架,其中它会将两种不同的数据视图映射到一个共享视图(shared view)中。在某种程度上,它可以被看成是:在一个更通用的setting中来学习两个不同views间的一个共享mapping。

图2: 多域推荐(multiple domain recommendation)的MV-DNN。它使用一个DNN来将高维稀疏特征(例如:users, News, App的原始特征)映射成低维dense特征到一个联合语义空间中(joint semantic space)。第一个hidden layer,有50k units,会完成word hashing。word-hashed features接着通过多个非线性投影投影层被投影。最后一层的activities会形成在语义空间中的特征。注意,在该图中的输入特征维度x(5M和3M)被假设成:每个view可以有任意的特征数。详见文本。

在该工作中,我们提出了一个DSSM的扩展,它具有对数据的多个views,我们称之为Multi-view DNN。在该setting中,我们具有v+1个views,一个主视图(pivot view)称为\(X_u\),其它v个辅助视图(auxiliary views)为:\(X_1, ..., X_v\)。每个\(X_i\)具有它自己的输入域\(X_i \in R^{d_i}\)。每个view也具有它自己的非线性映射层 \(f_i(X_i, W_i)\),它会将\(X_i\)转换到共享语义空间\(Y_i\)上。训练数据包含了一个样本集合。第j个样本具有主view \(X_{u,j}\)的一个实例,以及一个活动辅助视图\(X_{a,j}\),其中a是在sample j中active view的索引。所有其它视图输入\(X_{i:i \neq a}\)被设置为0向量(0 vectors)。该学习目标是(objects)是为每个view(比如:相似的求和)发现一个线性映射,以便最大化相似度(在主视图\(Y_u\) mapping以及其它视图\(Y_1, ..., Y_v\) mapping间的语义空间的相似度)的求和。公式为:

\[p = arg max_{W_u, W_1,...,W_v} \sum\limits_{j=1}^N \frac{e^{\alpha_a cos(Y_u, Y_{a,j}}}{ \sum_{X' \in R^{d_a}} e^{\alpha cos(Y_u, f_a(X', W_a))} }\]

…(6)

MV-DNN的结构如图2所示。在我们的推荐系统设置中,我们将\(X_u\)设置为user features的主视图,并为各种不同的想推荐的items类型创建了辅助视图。

该目标函数是意图是,为users features尝试找到单个mapping(\(W_u\)),可以将users features转换到一个空间中,它与该用户在不同视图/域中所喜欢的所有其它items相匹配(match)。该方法会共享参数,并允许该域(domains)即使没有足够信息也能学习较好的mapping(通过其它带有足够信息的domains数据来学)。

如果假设具有相似新闻文章品味的用户,同时也在其它域(domains)上有相似品味,这意味着这些domains可以从通过News domain学到的user mapping上受益。如果该假设是合法的,那么从任意domain上的样本都可以帮助将相似用户在所有domains上进行更准确的分群。经验结果表明,在该domains上的假设是合理的,我们会在实验章节再做描述。

5.1 训练MV-DNN

MV-DNN可以使用SGD进行训练。实际上,每个训练样本会包含一个输入对(inputs pairs),一个用于用户视图(user view),一个用于其它数据视图。因此,尽管事实上在我们的模型只有一个用户视图(user view),通常采用N个用户特征文件会更方便,每个对应于一个item feature file,其中N是user-item view pairs的总数目。在算法1中,我们会描述训练MV-DNN的高级过程。当各自对所有\(W_i \in \lbrace W_u, W_1, ..., W_v \rbrace\)进行求导时,我们会得到两个非零导数 \(\frac{\partial p }{\partial W_u}\)和 \(\frac{\partial p}{\partial W_a}\),它允许我们应用与DSSM相同的梯度更新规则【9】,使用\(X_u\)来取代q,使用\(X_a\)来取代d。

算法1

5.2 MV-DNN的优点

尽管MV-DNN是从原始的DSSM框架进行扩展而来的,但它具有许多独特的特性比前者更优。首先,原始的DSSM模型用于相同特征维度size的query view和document view的,使用相同的表示(representation)进行预处理(例如:letter tri-gram)。这在特征组合阶段会有巨大限制。由于推荐系统的差异性,很可能user view和item view会有不同的输入特征。同时,许多类型的特征不能使用letter trigram进行最优表示。例如,URL domain feature通常包含了前缀和后缀,(比如:www, com, org),它们会被映射到相同的特征上(如果使用了letter tri-gram)。实际上,我们已经发现,当输入原始文本很短时(例如:原始DSSM模型中的query text和document title),该letter tri-gram表示很理想,但如果建模包含了大量queries和url domains的用户级别特征(user level features)就会变得不合适。新的MV-DNN会移除该限制,来包含类别型特征(比如:电影类型和app类目,地理特征:比如国家和区域),也可以包含原始文本特征(用户输入侧使用1-grams或2-grams来表示)。

第二,MV-DNN可以扩展到许多不同的domains上,原始DSSM框加做不到。通过在每个user-item view pair上执行pair-wise训练(如算法1描述所示),我们的模型可以很方便的采用view pairs的新集合,在训练过程中的任意阶段,它包含了完全独立的users和items集合;例如:添加来自Xbox games的一个新数据集。通过在每个训练迭代过程中选择user-view pairs,我们的模型事实上可以收敛到一个最优的user view embedding上,它通过所有的item views训练得到。注意,尽管理论上我们在不同的item-views上具有不同的user sets,在我们的实验期间,考虑便利性和特征归一化的方便,我们会选择在所有views上保持相同集合的用户。

6.数据降维

实际上,提出的深度学习方法通常需要为user view处理高维特征空间中的海量训练样本。为了扩展系统,我们提出了许多降维技术来减少在user view上特征数。接着,我们提出了一个思想来压缩(compact)和总结(summarize)用户训练样本,它可以将训练数据的数目减少到与users数目成线性倍数上。

6.1 top features

对于user features,一种简单的降维方法是,选择top-k个最常用的特征。。。。

6.2 K-means

6.3 LSH

6.4 减小训练样本数

每个view的训练样本包含了一个关于\((User_i, Item_j)\) pairs集合(表示:\(User_i喜欢Item_j\))。实际上,一个user可能会喜欢许多items,它们有时候会造成训练数据非常大。例如,在我们的新闻推荐数据集上,大概有10亿pairs数目,这会造成训练过程非常慢(当使用最优的GPU实现时)。

为了解决该问题,我们会压缩训练数据,以便它对于每个user每个view都可以包含单个训练样本。特别的,压缩版的训练样本包含了user features 与一个用户在该view中所喜欢的所有items的平均分的 features组成的pairs。

实验

详见paper。

参考

microsoft在2013年提出了DSSM结构:《Learning Deep Structured Semantic Models for Web Search using Clickthrough Data》。我们来看下该paper。

介绍

主要基于在IR上的隐语义模型的两点扩展。第一是以监督方式利用点击数据来学习隐语义模型【10】。第二是引入深度学习方法进行语义建模。

2.1 隐语义模型和点击数据的使用

对于query-document matching来说,在IR社区中使用隐语义模型是一个长期存在的研究主题。流行的模型可以分为两大类:线性投影模型和生成主题模型。

IR领域最著名的线性投影模型是LSA。通过在一个document-term矩阵上使用SVD,一个document(或一个query)可以映射成一个低维概念向量(conecpt vector):\(\hat{D} = A^T D\),其中A是投影矩阵。在文档搜索中,在一个query和一个document间的相关分(可以通过term向量分别表示为Q和D),根据投影矩阵A, 被认为是与概念向量\(\hat{Q}\)和\(\hat{D}\)间的cosine相似度得分成比例:

\[sim_A(Q,D) = \frac{\hat{Q}^T \hat{D}}{ \| \hat{Q} \| \|\hat{D} \|}\]

…(1)

除了隐语义模型,在被点击的query-document pairs上训练的转换模型(translation models)也提供了一种语义匹配的方法[9】。不像隐语义模型,翻译模型可以直接通过在一个document中的一个term和在一个query中的一个term间的转换关系(translation relationships)。最近研究表明,大量的点击数据用户训练,该方法可以非常高效。我们在实验中也进行了比较。

2.2 deep learning

3.DSSM

3.1 DNN用于计算语义特征

图1: DSSM图示。它使用一个DNN将高维稀疏文本特征投影到在语义空间中的低维dense特征。第一个hidden layer具有30k units,会完成word hashing。word-hashed features接着通过多个非线性投影层进行投影,在DNN中的最后一层的activities会形成在语义空间中的特征

通常我们开发的DNN结构,用于将原始文本特征(raw text features)映射到在一个语义空间中的特征(如图1所示)。DNN的输入(raw text features)是一个高维term vector,例如:在query中的terms的原始数目,或者一个没有归一化的文档,DNN输出是在一个低维语义特征空间中的一个concept vector。该DNN模型可以以如下方式用于网页文档排序(Web document ranking):

  • 1) 将term vectors映射到它们相应的语义concept vectors上
  • 2) 计算一个document和一个query间相关分,作为他们相应的语义concept vectors的cosine相似度 等式(3)和(5)

更正式的,如果我们将x表示成input term vector,y表示output vector,\(l_i, i=1, ..., N=1\),表示中间的hidden layers,\(W_i\)表示第i个weight matrix,\(b_i\)表示第i个bias term,我们有:

\[l_1 = W_1 x \\ l_i = f(W_i l_{i-1} + b_i), i=2, ..., N-1 \\ y = f(W_N l_{N-1} + b_N)\]

…(3)

其中,我们使用tanh作为hidden layers和output layer的activation函数:

\[f(x)= \frac{1 - e^{-2x}}{1 + e^{-2x}}\]

…(4)

在一个query Q和一个document D之间的语义相关得分,可以通过下面方式进行衡量:

\[R(Q,D) = cosine(y_Q, y_D) = \frac{y_Q^T y_D}{ \| y_Q \| \| y_D \|}\]

…(5)

其中\(y_Q\)和\(y_D\)分别是query和document的是concept vectors。在web search领域,给定query,document可以通过它们的语义相关得分进行排序。

习惯上,term vector的size,可以被看成是在IR中原始的bag-of-words特征,等同于用于索引web document集合的字典表。字典的size通常非常大。因此,当使用term vector作为输入时,input layer的size对于inference和training来说无法想像。为了解决这个问题,我们开发了一个称为”word hashing”的方法来做为DNN的第一层,如图1的最低端所示。该layer只包含线性隐单元(linear hidden units),在其中有非常大size的权重矩阵不会被学习。在下面章节,我们描述了word hashing方法。

3.2 word hashing

这里描述的word hashing方法,目标是减少bag-of-words term vectors的维度。它基于字母型letter n-gram,该方法特别适合这个任务。给定一个词(比如:good),我们首先会添加起始结束标记(比如:#good#),接着,我们将该词切分成letter n-grams(例如,letter trigrams: #go, goo, ood, od#)。最终,该word会使用一个关于letter n-grams的向量进行表示。

表1

该方法存在的一个问题是冲突(collision),例如,两个不同的词可以具有相同的letter n-gram vector表示。表1展示了关于在两个字典表上word hashing的一些统计。对比起one-hot vector的原始size,word hashing允许我们使用更低维度来表示一个query和一个document。以40k个词的字典作为示例。每个word可以被表示成使用leter-trigrams的一个10306维向量,给定一个4-fold降维会有较少冲突。当该技术应用到一个更大词汇表上时会有更大降维。如表1所示,在500k-word的字典表里,使用letter trigrams通过一个30621维向量来表示每个词, 16-fold的降维会有一个冲突率为0.0044% (=22/5000000)

由于英文单词数目是无限的,而英文(或其它相似语言)中的letter n-grams通常是有限的。另外,word hashing可以将具有不同字形的相同词映射到在letter n-gram空间中比较接近的点上。更重要的,当在训练集中的一个未见词(unseen word)以word-based representation时总是会引起困难,而使用letter n-gram-based representation则不会。唯一的风险是冲突会随着表1中的量而增加。因而,letter n-gram-based word hashing对于out-of-vocabulary问题是健壮的,允许我们将DNN解法扩展到包含极大词表量的Web search任务中。我们会演示第4节中展示该技术的好处。

在我们的实验中,基于word hashing的letter n-gram可以被看成是一个固定的线性转换(例如:非适配的 non-adaptive),通过这种方式,在input layer上的一个term vector可以被投影到在下一layer上的一个letter n-gram vector上,如图1所示。由于letter n-gram vector具有更低的维度,DNN learning可以有效执行。

3.3 DSSM的学习

点击日志包含了一列queries和它对应的点击文档。我们假设一个query与该query对应点击的文档是相关的(至少部分上是)。受语音和nlp领域判别式训练方法的影响(discriminative),我们提出了一个监督式训练方法来学习我们的模型参数,例如:权重矩阵\(W_i\)和bias vector \(b_i\)是DSSM的必要部分,因此学习目标是:给定queries,最大化点击文档的条件似然。

首先,我们会计算给定一个query,一个文档的后验概率,可以通过一个softmax函数:

\[P(D|Q) = \frac{exp(\gamma R(Q,D))}{\sum_{D' \in D} exp(\gamma R(Q,D'))}\]

…(6)

其中,\(\gamma\)是一个softmax的平滑因子,它会根据经验进行设置。D表示待排序的候选文档集合。理想情况下,D应包含所有可能的文档。实现上,对于每个(query, click-document) pair,可以通过\((Q, D^+)\)来表示。其中:

  • Q是一个query
  • \(D^+\)是点击的文档
  • \({D_j^-; j=1, ..., 4}\)表示4个随机选中的未点击文档。

在我们的学习中,当使用不同抽样策略来选择未点击文档时,我们不会观察到任何不同。

在训练阶段,估计的模型参数会对给定queries下的点击文档的似然做最大化。事实上,我们需要最小化以下的loss function:

\[L(\Lambda) = -log \prod\limits_{Q,D^+} P(D^+ | Q)\]

…(7)

其中,\(\Lambda\)表示网络\(\lbrace W_i, b_i \rbrace\)的参数集,由于 \(L(\Lambda)\)对于\(\Lambda\)是可微的,模型的训练使用基于梯度的数值优化算法。

3.4 实现细节

为了决定训练参数以及避免overfitting,我们可以将点击数据分割成不重合的两部分,称为training set和validation set。在我们的实验中,我们使用如图1的三个hidden layers。第一个hidden layer是word hashing layer,它包含了30k节点(如表1所示的letter-trigrams的size)。下二个hidden layers具有300个hidden nodes,output layer具有128个nodes。word hashing会基于一个固定的投影矩阵。相似度会基于128维的output layer进行measure。根据[20],我们会在范围为:\((-\sqrt{6/(fanin+fanout)}, \sqrt{6/(fanin+fanout)})\)间的uniform分布来初始化网络权重,其中fanin和fanout是input和output units的数目。经验上,我们可以通过做layer-wise预训练但没有观察到更好的效果。在训练阶段,我们会使用mini-batch SGD来最优化模型。每个mini-batch包含了1024个训练样本。我们观察到DNN训练通常会在整个训练数据的20 epochs内收敛。

实验

详见paper。

参考

PNN是上海交大Yanru Qu等人提出的:

一、介绍

使用在线广告中的CTR预估做为示例来建模和探索对应的metrics效果。该任务会构建一个预测模型来估计用户在给定上下文上点击一个特定广告的概率。

每个数据样本包含了多个field的类别数据,比如:User信息(City, Hour等),Publisher信息(Domain、Ad slot,等),以及广告信息(Ad creative ID, Campaign ID等)。所有这些信息都被表示成一个multi-field的类别型特征向量,其中每个field(比如:City)是一个one-hot编码的向量。这种field-wise one-hot编码表示可以产生高维且稀疏的特征。另外,field间还存在着局部依赖(local dependencies)和层级结果(hierarchical structures)。

他们探索了一个DNN模型来捕获在multi-field类别型数据中的高阶隐模式(high-order letent patterns)。并想出了product layer的想法来自动探索特征交叉。在FM中,特征交叉通过两个特征向量的内积(inner-product)来定义。

提出的deep-learning模型称为“PNN (Productbased Neural Network)”。在本部分,会详细介绍该模型以及它的两个变种:IPNN(Inner Product-based Neural Network)、OPNN(Outer Product-based Neural Network);其中IPNN具有一个inner-product layer,而OPNN则具有一个outer-product layer。

1.1 PNN

图1: PNN

PNN模型的结构如图1所示。从上到下看,PNN的输出是一个实数值 \(\hat{y} \in (0, 1)\),作为预测CTR:

\[\hat{y} = \sigma(W_3 l_2 + b_3)\]

…(1)

其中,\(W_3 \in R^{1 \times D_2}\) 和 \(b_3 \in R\)是output layer的参数,\(l_2 \in R^{D_2}\)是第二个hidden layer的output,\(\sigma(x)\)是sigmoid激活函数:\(\sigma(x) = 1/(1+e^{-x})\)。其中,我们使用\(D_i\)来表示第i个hidden layer的维度。

第二个hidden layer的输出\(l_2\)为:

\[l_2 = relu(W_2 l_1 + b_2)\]

…(2)

其中\(l_1 \in R^{D_1}\)是第一个hidden layer的输出。relu的定义为:\(relu(x)=max(0,x)\)。

第一个hidden layer是fully_connected product layer。它的输入包含了线性信号\(l_z\)和二阶信号\(l_p\)。\(l_1\)的定义如下:

\[l_1 = relu(l_z + l_p + b_1)\]

…(3)

其中所有的\(l_z, l_p, b_1 \in R^{D_1}\)。

接着,定义tensor的内积(inner product)操作:

\[A \odot B \triangleq \sum_{i,j} A_{i,j} B_{i,j}\]

…(4)

内积会首先对A, B进行element-wise乘积,接着对这些element-wise乘积进行求和得到一个标量(scalar)。之后,\(l_z\)和\(l_p\)会分别通过z和p进行计算:

\[l_z = (l_z^1, l_z^2, ..., l_z^n, ..., l_z^{D_1}), l_z^n = W_z^n \odot z\] \[l_p = (l_p^1, l_p^2, ..., l_p^n, ..., l_p^{D_1}), l_p^n = W_p^n \odot p\]

…(5)

其中\(W_z^n\)和\(W_p^n\)是在product layer中的weights,它们的shapes分别由z和p决定。

通过引入一个”1”常量信号,product layer不仅能生成二阶信号p,也能管理线性信号z,如图1所示。更特殊地:

\[z = (z_1, z_2, ..., z_N) \triangleq (f_1, f_2, ..., f_N)\]

…(6)

\[p = \{ p_{i,j} \}, i=1...N, j=1...N\]

…(7)

其中\(f_i \in R^M\)是field i的embedding vector。\(p_{i,j} = g(f_i, f_j)\)定义了pairwise特征交叉。通过为g设计不同的操作,我们的PNN模型具有不同的实现。在该paper中提出了两个PNN的变种:IPNN和OPNN。

field i的embedding vector:\(f_i\),是embedding layer的ouput:

\[f_i = W_0^i x [start_i : end_i]\]

…(8)

其中x是包含了多个field的输入特征向量,\(x[start_i:end_i]\)表示embedding layer的参数,\(W_0^i \in R^{M \times (end_i - start_i + 1)}\)是与第i个field进行fully_connected。

最后,会使用监督学习来最小化logloss:

\[L(y, \hat{y}) = -y log \hat{y} - (1-y) log(1-\hat{y})\]

…(9)

其中,y是ground truth(1为click,0为non-click),\(\hat{y}\)是我们模型在等式(1)中的预测CTR。

1.2 IPNN

基于内积的神经网络(IPNN)中,我们首先定义了pair-wise特征交叉作为向量内积: \(g(f_i, f_j) = \langle f_i, f_j \rangle\)。

有了常数信号”1”,线性信息z会被保留:

\[l_z^n = W_z^n \odot z = \sum_{i=1}^{N} \sum_{j=1}^{M} (W_z^n)_{i,j} z_{i,j}\]

…(10)

对于二阶信号p,pairwise的内积项\(g(f_i,f_j)\)形成了一个二阶矩阵\(p \in R^{N \times N}\)。回顾下公式(5)的定义,\(l_p^n = \sum_{i=1}^{N} \sum_{j=1}^{N} (W_p^n)_{i,j} p_{i,j}\)和向量内积的交换律,p和\(W_p^n\)是对称的。

这样的pairwise连接扩展了神经网络的能力(capacity),但也极大地增了了复杂性。在这种情况下,在等式(3)中描述的\(l_1\)的公式,具有\(O(N^2(D_1+M))\)的空间复杂度,其中\(D_1\)和M是关于网络结构的超参数,N是input fields的数目。受FM的启发,我们提出矩阵因子分解(matrix factorization)的思想来减小复杂度。

通过引入假设\(W_p^n = \theta^n \theta^{nT}\),其中\(\theta^n \in R^N\),我们可以将\(l_1\)简化成:

\[W_p^n \odot p = \sum_{i=1}^N \sum_{j=1}^N \theta_i^n \theta_j^n \langle f_i, f_j \rangle = \langle \sum_{i=1}^N \delta_{i}^n, \sum_{i=1}^N \delta_i^n \rangle\]

…(11)

其中,出于便利,我们使用\(\delta_i^n \in R^M\)来表示一个特征向量\(f_i\)通过\(\delta_i^n\)来加权,例如,\(\delta_i^n = \delta_i^n f_i\)。以及我们也有\(\delta^n = (\delta_1^n, \delta_2^n, ..., \delta_i^n, ..., \delta_N^n) \in R^{N \times M}\)

在第n个单个结点上进行1阶分解,我们给出了\(l_p\)的完整形式:

\[l_p = (| \sum_i \delta_i^1 |, ..., | \sum_i \delta_i^n |, ..., | \sum_i \delta_i^{D_1} |)\]

…(12)

通过在公式(12)中的\(l_p\)的reduction,\(l_1\)的空间复杂度变成\(O(D_1 M N)\)。总之,\(l_1\)复杂度从二阶降至线性(对N)。这种公式对于一些中间结果可以复用。再者,矩阵操作更容易在GPU上加速。

更普通的,我们讨论了\(W_p^n\)的K阶分解。我们应指出\(W_p^n = \delta_n \delta_n^T\)只对该假设进行一阶分解。总的矩阵分解方法可以来自:

\[W_p^n \odot p = \sum_{i=1}^N \sum_{j=1}^N \langle \delta_n^i, \delta_n^j \rangle \langle f_i, f_j \rangle\]

…(13)

在这种情况下,\(\theta_n^i \in R^K\)。这种通用分解具有更弱的猜想,更具表现力,但会导至K倍的模型复杂度。

1.3 OPNN

向量的内积采用一对向量作为输入,并输出一个标量。不同于此,向量的外积(outer-product)采用一对向量,并生成一个矩阵,在该部分,我们讨论了OPNN。

在IPNN和OPNN间的唯一区别是,二次项p。在OPNN,我们定义了特征交叉:\(g(f_i, f_j) = f_i f_j^T\)。这样对于在p中的每个元素,\(p_{i,j} \in R^{M \times M}\)是一个方阵(square matrix)。

为了计算\(l_1\),空间复杂度是\(O(D_1 M^2 N^2)\),时间复杂度也是\(O(D_1 M^2 N^2)\)。回顾下\(D_1\)和M是网络结构的超参数,N是input fields的数目,实际上该实现很昂贵。为了减小复杂度,我们提出了superposition的思想。

通过element-wise superposition,我们可以通过一个大的step来减小复杂度。特别的,我们重新定义了p公式:

\[p = \sum_i^N \sum_i^N f_i f_j^T = f_{\sum} (f_{sum})^T, f_{\sum} = \sum_{i}^N f_i\]

…(14)

其中\(p \in R^{M \times M}\)变成对称的,这里的\(W_p^n\)也应是对称的。回顾下公式(5) \(W_p \in R^{D_1 \times M \times M}\)。在这种情况下,空间复杂度\(l_1\)变成了\(O(D_1 M(M+N))\),时间复杂度也是\(O(D_1 M(M+N))\).

对比起FNN,PNN具有一个product layer。如果移除product layer的了\(l_p\)部分,PNN等同于FNN。有了内积操作,PNN与FM相当相似:如果没有hidden layer,并且output layer只是简单地使用weight=1进行求和,PNN等同于FM。受Net2Net的启发,我们首先训练了一个PNN来作为初始化,接着启动对整个网络的back propagation。产生的PNN至少和FNN或FM一样好。

总之,PNN使用product layers来探索特征交叉。向量积可以看成是一系列加法/乘法操作。内积和外积只是两种实现。事实上,我们可以定义更通用或复杂的product layers,来在探索特征交叉上获取PNN更好的capability。

类似于电路,加法就像是”OR”门,而乘法则像”AND”门,该product layer看起来是学习规则(rules)而非特征(features)。回顾计算机视觉方法,在图片上的象素是真实世界中的原始特征(raw features),在web应用中的类别型数据是人工特征(artificial features)具有更高级和丰富的含义。Logic在处理概念、领域、关系上是一个很强的工具。这样我们相信,在神经网络中引入product操作,对于建模multi-field categorical data方面会提升网络能力。

实验

详见paper。

参考