介绍
facebook在2019在《Deep Learning Recommendation Model for Personalization and Recommendation Systems》。
摘要
facebook开发了一种SOTA的深度学习推荐模型(DLRM)并提供了Pytorch和Caffe2的实现。另外,还设计了一种专门的并行化scheme利用在embedding tables上的模型并行机制来缓和内存限制,利用数据并行机制来从fully-connected layers中扩展(scale-out)计算。我们比较了DLRM与已存在推荐模型.
1.介绍
在大型互联网公司中的许多任务上,部署了个性化和推荐系统,包括:CTR预估和rankings。尽管这些方法具有很长的历史,这些方法最近才拥抱神经网络。对于个性化和推荐,朝着深度学习模型架构设计方向贡献了两个主要视角。
第一个视角来自于推荐系统。这些系统最初部署了content filtering,其中:运营人员会将products按categories分类,而用户选择它们喜欢的categories,因而可以基于它们的偏好进行match[22]。该领域接着演化成使用collaborative filtering,基于用户过往行为(比如:用户对商品的评分)进行推荐。最近邻方法[21]通过将users和products进行分组(grouping)在一起来提供推荐,latent factor方法通过MF技术以及特定隐式factors将users和products进行特征化,并成功部署。
第二个视角来自预测分析(predictive analytics),它依赖于统计模型根据给定数据来对events进行分类(classify)或预测(predict)。预测模型从简单模型(比如:linear或logistic regression)转向到深度网络上来建模。为了处理类别型数据,这些模型采用了embeddings,它会将one-hot和multi-hot vectors转化成在一个抽象空间中的dense表示。该抽象空间可以被解释成由推荐系统发现的latent factors空间。
在本paper中,我们引入了一个个性化模型,它可以通过将上述两个视角进行联合来表示。模型会:
- 1.使用embeddings来处理稀疏特征(sparse features)(它可以表示categorical data)
- 2.使用一个multilayer perceptron(MLP)来处理dense features
接着使用[24]中的统计技术将这些features进行显式交叉。最终,它会使用另一个MLP来post-processing交叉来寻找event probability。我们将该模型称为:DLRM(深度学习推荐模型)。见图1。该模型的PyTorch和Caffe2实现已公开。
2.模型设计与架构
在本节中,我们会描述DLRM的设计。我们会从网络的high-level组件开始,并解释how和why它们以一种特别的方式组合在一起,对未来模型设计有启发,接着描述组成模型的low-level operators和primitives,用于未来的硬件和系统设计。
2.1 DLRM组件
通过回顾以往模型,DLRM的high-level组件可以很容易理解。我们会避免完整回顾,把精力集中在早期模型的4个技术上,它可以在DLRM中的高级组件中被解释。
2.1.1 Embeddings
为了处理类型化数据,embeddings可以将每个category映射到一个在抽象空间中的dense表示上。特别的,每个embedding lookup可以被解释成使用一个one-hot vector \(e_i\)来获得embedding table \(W \in R^{m \times d}\)相应的row vector:
\[w_i^T = e_i^T W\]…(1)
在更复杂的情况下,一个embedding也可以表示成多个items的加权组合**,它具有一个关于weights的multi-hot vector:
\[a^T = [0, \cdots, a_{i_1}, \cdots, a_{i_k}, \cdots, 0]\]其中,
- 对于\(i=i_1, \cdots, i_k\),元素\(a_i \neq 0\),否则为0 ,其中\(i=i_1, \cdots, i_k\)是相应的items。
注意,t embedding lookups的一个mini-batch可以写成:
\[S = A^T W\]…(2)
其中,sparse matrix为:\(A = [a_1, \cdots, a_t]\)。
DLRMs会使用embedding tables来将categorical features映射成dense representations。然而,在这些embeddings被设计后,如何利用它们来生成更精准的预测呢?我们先来回顾下latent factor。
2.1.2 Matrix Factorization
推荐问题的常用形式,我们给定一个集合S:用户会对一些商品进行评分。我们通过两个vector:
- \(w_i \in R^d, i=1,\cdots, n\)来表示第i个商品,
- \(v_j \in R^d, j=1, \cdots, m\)来表示第j个user
以便寻找所有的ratings,其中n和m各表示products和users的总数。更严格的,当第i个商品已经被第j个user评分时,集合S包含了(i,j) tuples。
MF方法通过最小化下面的等式来求解该问题:
\[min \sum\limits_{(i,j) \in S} r_{ij} - w_i^T v_j\]…(3)
其中:
- \(r_{ij} \in R\)是第j个user对第i个product的rating,\(i=1, \cdots, m; j = 1, \cdots, n\)。
接着,假设:\(W^T = [w_1, \cdots, w_m]\)和\(V^T = [v_1, \cdots, v_n]\),我们希望将full matrix的ratings \(R=[r_{ij}]\)近似为矩阵乘法 \(R \approx W V^T\)。注意,W和V可以被解释成两个embedding tables,其中每一行表示在latent factor space中的一个user/product。这些embedding vectors的dot product会生成后续rating的一个有意义的预测,这对于FM和DLRM的设计来说是一个key observation。
2.1.3 Factorization Machine
在经典问题中,我们希望定义一个预测函数:\(\phi: R^n \rightarrow T\),从一个输入数据点\(x \in R^n\)到一个target label \(y \in T\)上的预测。作为示例,我们可以通过定义 \(T = \lbrace +1, -1 \rbrace\)预测CTR,其中:+1表示点击,-1表示未点击。
FM使用categorical data,通过定义以下形式的模型,来将二阶交叉并入到一个线性模型中:
\[\hat{y} = b + w^T x + x^T upper(VV^T) x\]…(4)
其中:
- 1.\(V \in R^{n \times d}\)
- 2.\(w \in R^n\)
- 3.\(b \in R\)
- 4.\(d << n\)的参数
- 5.upper会严格选择该矩阵的上三角部分【24】。
FM与SVM和polynomial kernels有明显区别,因为它们将二阶交叉矩阵分解成latent factors(或embedding vectors)(和MF很像),它能更有效地处理稀疏数据。通过只捕获不同embedding vectors pairs间的交叉,这可以极大减小二阶交叉的复杂度,生成线性的计算复杂度。
2.1.4 MLP(Multilayer Perceptrons)
同时,在机器学习上的最近许多成功都归因于deep learning。DL最基础的模型是:MLP。预测函数由一串交替的FC layers和activation function \(\sigma: R \rightarrow R\)组成:
\[\hat{y} = W_k \sigma(W_{k-1} \sigma(W_1 x + b_1) \cdots) + b_{k-1}) + b_k)\]…(5)
其中:
- \(W_l \in R^{n_l \times n_{l-1}}\)是weight matrix
- \(b_l \in R^{n_l}\):表示对于\(layer \ l=1,\cdots,k\)的bias
该方法被用于捕获更复杂的交叉。例如,给定足够参数,MLP会具有够深和够宽,可以拟合任意想预测的数据。这些方法的变种被广告用于CV和NLP中。例如:NCF被用于MLPerf benchmark的一部分,它使用MLP,而非dot product来计算MF中embeddings间的交叉。
2.2 DLRM架构
我们已经描述了在RS中不同的模型。我们将这些想法进行组合来构建SOTA的个性化模型。
假设用户和商品通过许多连续型特征(continuous features)和类别型特征(categorical features)进行描述。
- 为了处理categorical features,每个categorical feature可以通过一个相同维度的embedding vector表示,即MF中latent factors。
- 为了处理continous features,会通过一个MLP来进行转换,它会生成和embedding vectors相同长度的dense representation。
我们将根据FMs提供的处理sparse data的方式,将它们传给MLPs,显式地(explicitly)计算不同特征间的二阶交叉(second-order interaction)。这可以通过使用所有embedding vectors的pairs和dense features间的dot product来做到。用这些dot products可以使另一个MLP(top 或 output MLP)将original-processed dense features和post-processed一起concatenated,接着被feed到一个sigmoid function来提供一个概率。
我们将产生的模型称为:DLRM。如图1所示,并在表1中展示了PyTorch和Caffe2的DLRM所用到的一些operators。
表1
2.3 与之前的模型比较
许多deep learning-based的推荐模型,使用相似的底层思想来生成高阶项来处理sparse features。Wide&Deep, Deep&Cross, DeepFM, xDeepFM网络,例如,设计专有网络来有系统的构建高阶交叉。这些网络接着将来自这些专有模型和MLP的结果进行求和(sum),将它传给一个linear layer及sigmoid activation来生成一个最终概率。DLRM以一种结构化的方式与embeddings交互,通过只考虑由final MLP中embeddings pairs间的dot-product生成的cross-terms,模拟了FM对模型进行极大地降维。对于在其它网络的二阶交叉外的更高阶交叉,使用额外的计算/内存开销并不值。
DLRM和其它网络之间的一个关键不同点是:这些网络是如何对待embedded feature vectors和它们的cross-terms的。DLRM(以及XDeepFM)会将每个feature vector看成单个unit来表示单个category,其它像DCN(Deep&Cross)网络会将feature vector中的每个element看成是一个新的unit,这会生成不同的cross-terms。因此,Deep&Cross网络不仅会生成不同feature vectors的elements间的cross-terms(这和DLRM通过dot product方式一样),也会生成在相同feature vector的elements间的cross-terms,从而生成更高的维度。
3.并行化(Parallelism)
模型个性化和推荐系统,需要大且复杂的模型来估计大量数据上的价值。DLRMs特别包含了许多数目的参数,多阶的幅度要超过其它常见的deep learning模型(比如:CNN),transformer、RNN、GAN。这会导致训练时间上常达数周或更久。因此,对这些模型进行高效并行化,以便解决在实际规模中的问题。
如前面章节所示,DLRMs会以成对(coupled)的方式,同时处理categorical features(使用embeddings)以及continuous features(使用bottom MLP)。Embeddings会占据参数的大部分,一些tables每个都需要超过多个GBs的内存,使得DLRM对内存容量和带宽很敏感。embeddings的size使得它禁止使用数据并行化(data parallelism),因为它需要在每个设备上复制很大的embeddings。在许多cases中,这种内存限制需要模型分布跨多个设备,以便能满足内存容量需求。
在另一方面,MLP参数在内存上是更小的,但需要大量计算。因此,data-parallelism对MLPs更好,因为它可以让不同devices上的samples并发处理,只需要在当累积更新(accumulating updates)时需要通信。我们的并行化DLRM会使用一个embeddings的模型并行化(model parallelism)以及MLPs的数据并行化(data parallelism)的组合,来减缓由embeddings生成的内存瓶颈,而MLPs上的forward和backward propagations并行化。通过将model和data parallelism进行组合,是DLRM的唯一需求,因为它的架构和大模型size所导致;这样的组合并行化在Caffe2或PyTroch中并不支持(以及其它流行的DL框架),因此,我们设计了一种定制实现。我们计划在将来提供它的详细效果研究。
在我们的setup中,top MLP和interaction operator需要访问部分来自bottom MLP的mini-batch以及和所有embeddings。由于模型并行化已经被用于跨devices分布embeddings,这需要一个个性化的all-to-all通信。在embedding lookup的尾部,对于在mini-batch中的所有samples(必须根据mini-batch维度进行分割、以及与相应devieces进行通信)、对于在这些devices上的embedding tables,每个device都具有一个vector,如图2所示。Pytorch或Caffe2都不会提供model parallelism的原生支持;因此,我们通过显式将embedding operators(PyTorch的nn.EmbeddingBag, Caffe2的SparseLengthSum)映射到不同devices上来实现它。个性化的all-to-allcwpwy使用butterfly shuffle operator来实现,它可以将生成的embedding vectors进行切片(slices),并将它们转移到目标设备(target devices)上。在当前版本,这些transfers是显式的copies,但我们希望后续使用提供的通信原语(比如:all-gather以及send-recv)进一步optimize。
我们注意到,对于数据并行化MLPs,在backward pass中的参数更新会使用一个allreduce进行累积(accumulated),并以一种同步方式将它用在每个device的参数复制上,确保在每个device上的参数更新在每轮迭代上是一致的。在Pytorch中,data parallelism可以通过nn.DistributedDataParallel和nn.DataParallel模块来开启,将在每个device上的model复制,使用必要的依赖插入allreduce。在Caffe2中,我们会在梯度更新前手工插入allreduce。
4.数据
为了measure模型的acuracy,并测试它的整体效果,并将单独operators特征化,我们需要为我们的实现创建或获得一个dataset。我们模型的当前实现支持三种类型的datasets:random、synthetic、public datasets。
前两个dataset对于从系统角度实验我们的模型很有用。特别的,它允许我们通过生成即时数据,并移除数据存储依赖,来测试不同的硬件属性及瓶颈。后一个dataset允许我们执行真实数据的实验,并measure模型的accuracy。
4.1 Random
回顾DLRM,它接收continuous和categorical features作为inputs。前者可以通过生成一个随机数目的vector,通过使用一个uniform/normal(Gaussian)分布(numpy.random rand/randm缺省参数)。接着通过生成一个matrix来获得mini-batch inputs,其中每行对应在mini-batch中的一个element。
为了生成categorical features,我们需要决定在一个给定multi-hot vector中具有多少非零元素。benchmark允许该数字可以是fixed或在一个[1,k]的范围内random。接着,我们生成整型indices的相应数字,范围在[1,m]中,其中,m是在embedding W中的rows数目(2)。最后,为了创建一个mini-batch的lookups,我们将以上indices进行concatenate,并将每个单独的lookup使用lengths和offsets进行描述。
4.2 Synthetic
对应于categorical features,有许多理由支持定制索引的生成。例如,如果我们的应用使用一个特定dataset,但我们不希望出于私人目的共享它,那么我们可以选择通过distributions来表示categorical features。这可以潜在作为一种隐私保护技术的可选方法(用于联邦学习(federated learning))。同时,如果我们希望练习系统组件(比如:学习内存行为)。。。