阿里在KDD 2018上开放了它们的方法:《Deep Interest Evolution Network for Click-Through Rate Prediction》, 我们来看下:

背景

2.相关工作

由于deep learning在特征表示和特征组合上具有很强的能力,最近的CTR模型已经从传统的线性或非线性模型转换成深度模型。大多数深度模型都使用embedding和多层感知器(MLP)的结构。基于这种基本范式,越来越多的模型关注特征交叉:Wide&Deep,deepFM,PNN。然而这些方法不能很明显地影响数据背后的兴趣。DIN引入了一个attention机制来为给定目标item激活局部的历史行为,可以成功捕获用户兴趣的多性化特性。然而,DIN在捕获序列行为间的依赖关系上很弱。

在许多应用领域,user-item交互会随时间顺序进行记录。许多最近研究表明,该信息可以被用于构建更加丰富的独立用户模型,并能发现额外的行为模式。在推荐系统中,TDSSM(song.2016)会联合优化长期用户兴趣和短期用户兴趣来提升推荐质量;DREAM(Yu et.al 2016)使用RNN的结构来探索每个用户和它的历史购买item全局序列行为的动态表示。He和McAuley(2016)会构建视觉感知(visually-aware)推荐系统,它可以使产品与用户的兴趣和社群的兴趣更匹配。Zhang et al.(2014)基于用户兴趣序列来衡量用户的相似度,并提升协同过滤推荐的效果。Parsana et al.(2018)通过使用关于recurrent网络的大规模的event embedding和attentional output来提升native ads的ctr预测。ATRank(Zhou et al.2018a)使用基于attention的序列框架来建模异种行为。对比起序列独立(sequence-independent)的方法,这些方法可以极大提升预测的accuracy。

然而,这些传统的RNN-based模型有些问题。一方面,它们中的大多数会直接将序列结构(sequential structure)的hidden states看成是隐兴趣(latent interests),而这些hidden states对于兴趣表示来说缺乏特别的监控。另一方面,大多数已经存在的RNN-based框型可以连续地、等价地处理邻近行为(adjacent behaviors)间的依赖。正如我们所知,并非所有的用户行为在它的每个邻近行为上是严格有依赖关系的。对于任意的target item,这些模型只可以获取一个固定的兴趣演进轨迹(interest evolving track),因此这些模型可能会受兴趣漂移的干扰

为了将序列结构的hidden states来有效表示隐兴趣,我们需要为hidden states引入额外的监控。DARNN(Ren et al.2018)使用click-level的序列化预测,它会在每次广告被曝光给用户时建模点击行为。除了点击行为,可以进一步引入ranking信息。在推荐系统中,ranking loss在ranking任务(Rendel 2009; Hidasi 2017)上被广泛使用。与其它ranking losses相类似,我们为兴趣学习提出了一个auxiliary loss。在每一step上,auxiliary loss会使用连贯的点击item,而非无点击item来监控兴趣表示的学习。

对于捕获与target item相关的兴趣演化过程,我们需要更灵活的序列学习框架。在AQ领域,DMN+(xiong 2016)使用attention-based GRU (AGRU)来处理输入facts的位置和顺序。在AGRU中,update gate的vector可以通过attention score来进行简单替换。该替换会忽略在update gates的所有维度间的不同之处,其中update gates包含了从前一序列转换而来的丰富信息。受在QA中使用的新的序列结构的启发,我们提出了使用attentional gate的GRU (AUGRU)来派生活在兴趣演化中的相关兴趣。不同于AGRU,在AUGRU中的attention score扮演着从update gate中计算得到的信息。update gate和attention score的组合,可以更专注、更敏感地推进演化过程。

3.DIEN

在本节中,我们会详细介绍了DIEN. 首先,我们回顾了基础的DeepCTR模型,称为BaseModel。接着全面展示DIEN结构,并引入相应的技术来捕获兴趣以及建模兴趣演化过程。

3.1 BaseModel

特征表示:在我们的在线广告展示系统中,我们使用了4种类型的特征类别:User Profile, User Behavior, Ad, Context。注意ad也就是item。对于生成阶段(generation),在本paper中我们将ad称为target item。特征的每个类型(category)都有多个fields:

  • User Profile的fields有gender、age等;
  • User Behavior的fields是一个关于用户访问过的goods_id的列表;
  • Ad的fields有:ad_id, shop_id等;
  • Context的fields有:time等。

每个field中的特征可以被编码成one-hot vector,例如:User Profile的类别型特征(如:性别(female:女性))可以编码成[0, 1]。关于上述4种类型的特征的不同fields的one-hot vector进行拼接(concat)构成:\(x_p, x_b, x_a, x_c\)。在sequential CTR模型中,值得注意的是,每个field包含了一个行为列表,每个行为对应一个one-hot vector,它可以通过\(x_b = [b_1; b_2; \cdots; b_t] \in R^{K \times T}, b_t \in \lbrace 0, 1 \rbrace ^K\)进行表示,其中,\(b_t\)被编码成one-hot vector,并表示第t个行为,T是用户的历史行为的数目,K是用户可点击的商品总数。

BaseModel的结构:大多数deep CTR模型可以基于embedding&MLR来构建。基本的结构有:

  • embedding
  • MLP

Loss function:deep CTR模型常使用的loss function是负log似然函数,它会使用target item的label来监控整体的预测:

\[L_{target} = -\frac{1}{N} \sum\limits_{(x,y) \in D}^N (y log p(x) + (1-y) log(1-p(x)))\]

…(1)

其中,\(x=[x_p, x_a, x_c, x_b] \in D\),D是size=N的训练集。\(y \in \lbrace 0, 1 \rbrace\)表示用户是否会点击target item。p(x)是网络的output,它是用户点击target item的预测概率。

3.2 DIEN

在许多电商平台中的在线展示广告,用户不会很显确地展示它们的意图,因此捕获用户兴趣和他们的动态性对于CTR预测很重要。DIEN致力于捕获用户兴趣,并建模兴趣演化过程。如图1所示,DIEN由许多部分组成:

  • 首先,所有类别(categories)的特征都使用embedding layer进行转换
  • 接着,DIEN会使用两个step来捕获兴趣演化:兴趣抽取层(interest extractor layer)会基于行为序列抽取兴趣序列;兴趣演化层(interest evolving layer)会建模与target item相关的兴趣演化过程
  • 接着,最终兴趣的表示会和ad、user profile、context的embedding vectors进行拼接(concatenated)。concatenated vector被feed到MLP中来进行最终预测。

在本节其余部分,我们会引入关于DIEN两个核心的模块详细介绍。

图片名称

图1: DIEN的结构。在behavior layer上,behaviors会按时间顺序,embedding layer会将one-hot representation \(b[t]\)转换成embedding vector \(e[t]\)。接着,interest extractor layer会使用auxiliary loss来抽取每个interest state h[t]。在interest evolving layer上,AUGRU会建模与target item相关的interest evolving process。final interest state \(h'[T]\)和其余feature的embedding vectors拼接在一起,并feed到MLR中进行最终的CTR预估。

Interest Extractor Layer:在电商系统中,用户行为是隐兴趣的携带者,在用户发生该行为后兴趣会发生变更。在该interest extractor layer上,我们会从序列形用户行为上抽到一系列表兴趣状态。

用户在电商系统中的点击行为是很丰富的,其中历史行为序列的长度在一个较短周期内(比如:两周)会很长。出于效率和性能的权衡,我们会采用GRU来建模行为间的依赖,其中GRU的输入可以通过它们的出现时间顺序排列的行为。GRU可以克服RNN的梯度消失问题,它比LSTM更快(1997),它对于电商系统更适合。GRU的公式如下所示:

\[u_t = \sigma(W^u i_t + U^u h_{t-1} + b^u), & (2) \\ r_t = \sigma(W^r i_t + U^r h_{t-1} + b^r), & (3) \\ \cap{h}_t = tanh(W^h i_t + r_t \odot U^h h_{t-1} + b^h), & (4) \\ h_t = (1-u_t) \odot h_{t-1} + u_t \odot \cap{h}_t, & (5)\]

其中,\(\sigma\)是sigmoid激活函数,\(\odot\)是element-wise乘法,\(W^u,W^r,W^h \in R^{n_H \times n_I}\), \(U^z, U^r, U^h \in n_H \times n_H\),其中\(n_H\)是hidden size,\(n_I\)是input size。\(i_t\)是GRU的input,\(i_t = e_b[t]\)表示第t个行为,\(h_t\)是第t个hidden states。

然而,hidden state \(h_t\)只捕获行为间的依赖,不能有效表示兴趣。随着target item的点击行为通过最终兴趣触发,在\(L_{target}\)中使用的label只包含了ground truth,它可以监控最终兴趣的预测,而历史的state \(h_t(t < T)\)不能包含合适的监控(supervision)。正如我们所知,每个step上的兴趣状态(interest state)会直接导致连续的行为(consecutive behavior)。因此,我们提出了auxiliary loss,它使用行为\(b_{t+1}\)来监控interest state \(h_t\)的学习。除了使用真实的下一行为作为正例外,我们也会从未点击的item集合中抽样作为负例。有N对(pairs)行为embedding序列:\(\lbrace e_b^i, \hat{e}_b^i \rbrace \in D_B, i \in 1, 2, \cdots, N\),其中\(e_b^i \in R^{T \times n_E}\)表示了点击行为序列,\(\hat{e}_b^i \in R^{T \times n_E}\)表示负样本序列。T是历史行为的数目,\(n_E\)是embedding的维度,\(e_b^i[t] \in G\)表示用户i点击的第t个item的embedding vector,G是整个item set。\(\hat{e}_b^i[t] \in G - e_b^i[t]\)表示item的embedding,它会从item set(除去用户i在第t个step点击的item)中抽样。auxiliary loss可以公式化为:

\[L_{aux} = -\frac{1}{N} (\sum\limits_{i=1}^N \sum\limits_t log sigma(h_t^i, e_b^i[t+1]) + log(1-sigma(h_t^i, \hat{e}_b^i[t+1])))\]

其中,\(\sigma(x_1,x_2) = \frac{1}{exp(-[x_1, x_2])}\)是sigmoid激活函数,\(h_t^i\)表示对于用户i的GRU的第t个hidden state。全局loss(global loss)为:

\[L = L_{target} + \alpha * L_{aux}\]

…(7)

其中,\(\alpha\)是hyper-parameter,它可以对interest representation和CTR prediction进行balance。

有了auxiliary loss的帮助,每个hidden state \(h_t\)是足够表示用户在发生行为\(i_t\)后的interest state。所有T个interest points的concat \([h_1, h_2, \cdots, h_T]\)组成了interest sequence,兴趣演化层(interest evolving layer)可以建模演化的兴趣。

总之,auxiliary loss的介绍具有以下优点:从interest learning的角色看,auxiliary loss的引入可以帮助GRU的每个hidden state表示interest。对于GRU的optimization,当GRU建模长历史行序列(long history behavior sequence)时,auxiliary loss会减小BP的难度。最后,auxiliary loss会给出更多语义信息来学习embedding layer,它会导至一个更好的embedding matrix。

Interest Evolving Layer

由于从外部环境和内部认知的联合影响,不同类型的用户兴趣会随时间演进。例如,对于衣服的兴趣,随着流行趋势和用户品味的变化,用户对衣服的偏好也会演进。用户在衣服上兴趣的演进过程会直接决定着对候选衣服的CTR预测。建模该演进过程的优点如下:

  • Interest evloving module可以为最终的interest表示提供更多的相关历史信息
  • 根据兴趣演进趋势来预测target item的CTR更好

注意,在演化期间兴趣有两个特性:

  • 由于兴趣多样性,兴趣会漂移。在行为上的兴趣漂移的效果是用户可能在一段时间内对许多书(books)感兴趣,在另一段时间内可能又需要衣服(clothes)。
  • 尽管兴趣可以相互影响,每个兴趣都具有它自己的evolving process,例如:books和clothes的evolving process几乎独立。我们只关注那些与target item相关的evloving process。

在第一阶段,有了auxiliary loss的帮助,我们可以获得interest sequence的丰富表示。通过分析interest evloving的特性,我们会组合attention机制的local activation能力,以及来自GRU的sequential learning能力来建模interest evolving。GRU的每个step的local activation可以增强相对兴趣的效果,并减弱来自interest drifting的干扰,这对于建模与target item相关的interest evolving process很有用。

与等式(2-5)的公式相似,我们使用\(i_t^'\)和\(h_t^'\)来表示在interest evolving module上的input和hidden state,其中第二个GRU的input是在Interest Extractor Layer所对应的interest state:\(i_t^' = h_t\)。最后的hidden state \(h_T^'\)表示final interest state。

在interest evolving module中使用的attention function可以公式化成:

\[a_t = \frac{exp(h_t W e_a)}{\sum_{j=1}^T exp(h_j W e_a)}\]

…(8)

其中:

  • \(e_a\)是在category ad中fields的embedding vectors的concat
  • \(W \in R^{n_H \times n_A}\)中,\(n_H\)是hidden state的维度,\(n_A\)是广告(ad)的embedding vector的维度。
  • Attention score可以影响在advertisement \(e_a\)和input \(h_t\)间的关系,并且强相关性会导致一个大的attention score。

接着,我们会引入一些方法来将attention机制和GRU进行组合,来建模interest evolution的过程。

  • \(带attentional input的GRU (AIGRU)\):为了激活在interest evolution间的相对兴趣,我们提出了一个naive方法,称为:”GRU with attentional input(AIGRU)”。AIGRU会使用attention score来影响interest evolving layer的输入。如等式(9)所示:
\[i_t^' = h_t * a_t\]

…(9)

其中,\(h_t\)是在interest extractor layer上的第t个hidden state,\(i_t'\)是第二个GRU的input,它用于interest evolving,其中“*”表示scalar-vector product。在AIGRU中,相关度低的interest的scale可以通过attention score减小。理想情况下,相关度低的interest的输入值可以被减小到0. 然而,AIGRU并不会很好运作。因为zero input可能改变GRU的hidden state,因此,相关度低的interests也会影响interest evolving的学习。

  • Attention based GRU(AGRU)

在QA(question answering)领域,attention based GRU(AGRU)首先被提出来[Xiong, 2016]。通过将attention机制的信息进行embedding修改GRU架构后,AGRU可以有效地在复杂queries中抽取关键信息。受QA系统的启发,我们将AGRU移植用来在interest evolving期间捕获相关兴趣。详细的,AGRU使用attention score来替代GRU的update gate,并直接变更hidden state。正式的:

\[h_t^' = (1-a_t) * h_{t-1}^' + a_t * \bar{h}_t^'\]

…(10)

其中,\(h_t^', h_{t-1}^', \bar{h}_t^'\)是AGRU的hidden state。

在interest evolving场景中,AGRU会利用attention score来直接控制hidden state的更新。AGRU会弱化在interest evolving期间相关度低兴趣的影响。attention的embedding会嵌入到GRU中来提升attention机制的影响,并帮助AGRU克服AIGRU的缺点。

  • GRU with attentional update gate (AUGRU)

尽管AGRU可以使用attention score来直接控制hidden state的更新,它会使用一个scalar(attention score \(a_t\))来替代一个vector(update gate \(u_t\)),其中它会忽略不同维度间的不同影响。我们提出了GRU with attentional update gate (AUGRU)来无缝组合attention机制和GRU:

\[\bar{u}_t^' = a_t * u_t^'\]

…(11)

\[h_t^' = (1 - \bar{u}_t^') \prod h_{t-1}^' + \bar{u}_t^' \prod \bar{h}_t^'\]

…(12)

其中,\(u_t^'\)是AUGRU的original update gate,\(\bar{u}_t^'\)是我们专为AUGRU设计的attentional update gate,\(h_t^', h_{t-1}^', \bar{h}_t^'\)是AUGRU的hidden states。

在AUGRU中,我们会保留update gate的original dimensional信息,它会决定每个维度的重要性。基于不同的信息,我们会使用attention score \(a_t\)来将update gate的所有维度进行缩放,这会导致低相关度的兴趣会在hidden state上影响小。AUGRU会更有效地避免来自interest drifting的干扰,并将相关兴趣更平滑地推向evolve。

实验

参考

阿里在KDD 2018上开放了它们的方法:《Deep Interest Network for Click-Through Rate Prediction》, 我们来看下:

背景

在电商网站上,比如:阿里巴巴,广告是天然的商品。在本paper的剩余部分,如果没有特别声明,我们会将广告(ads)看成是商品。图1展示了在Alibaba的展示广告系统的运行过程,它包含了两个主要stages:

  • i) 匹配阶段(matching):它会通过类似CF的方法生成与正访问用户相关的候选广告列表
  • ii) 排序阶段(ranking):它会为每个给定广告预测ctr,接着选择topN个排序后广告

1.png

图1

每天,有上亿用户访问是电商网络,留给我们大量用户行为数据。值得一提是,带有丰富历史行为的用户包含了多样化的兴趣。例如,一个年轻母亲最近浏览的商品包含:羊毛大衣、T恤、耳环、大手提包、皮手袋、婴儿衣。这些行为数据给了我们一些关于它的购物兴趣的线索。当她访问电商网站时,系统会将合适的广告展示给她,例如,一个新的手提包。很明显,展示广告只会匹配(matches)或者激活(activates)她的部分兴趣。总之,具有丰富用户行为数据的用户兴趣很多样(diverse),可能会受特定广告的局部影响(locally activated)。我们会在paper后展示利用这些特性来构建ctr模型。

4. DIN

不同于竞价排名搜索(sponsored search),用户进入展示广告系统无需显式的意愿。当构建ctr模型时,需要有效方法来从历史行为中抽取用户兴趣。描述users和ads的特征是在CTR模型中的基本元素。合理充分利用这些特征,以及从它们中挖掘信息很关键。

4.1 特征表示

在工业界CTR预测任务中的数据大多数以多分组类别型(multi-group catgorial)形式存在,例如: [weekday=Friday, gender=Female,visited_cate_ids={Bag,Book}, ad_cate_id=Book], 它通常通过encoding[4,19,21]被转换成高级稀疏二值特征。数学上,第i个特征组(feature group)的编码向量可以使用公式化表示:\(t_i \in R^{K_i}\)。\(K_i\)表示特征组i的维度,这意味着特征组i包含了\(K_i\)个唯一的ids。\(t_i[j]\)是\(t_i\)第j个元素,并且满足\(t_i[j] \in \lbrace 0, 1 \rbrace\)。\(\sum\limits_{j=1}^{K_i} t_i[j]=k\)。k=1的向量\(t_i\)指的是one-hot encoding,而k>1表示multi-hot encoding。接着,一个实例可以以group-wise的形式被表示成:\(x = [t_1^T,t_2^T,, ..., t_M^T]^T\),其中M是特征组的数目,\(\sum\limits_{i=1}^M K_i = K\),其中K是整个特征空间的维度。在该方法下,上述实例会有4个分组的特征,如下所示:

\[\underbrace{[0,0,0,0,1,0,0]}_{weekday=Friday} \underbrace{[0,1]}_{gender=Female} \underbrace{[0, .., 1, ..., 1,...,0]}_{visited\_cate\_ids=\lbrace Bag,Book \rbrace} \underbrace{[0,..,1,..,0]}_{ad\_cate\_id=Book}\]

我们系统中用到的整个特征集在表1中描述。它由4个类别组成,用户行为特征通常使用multi-hot encoding向量并包含了关于用户兴趣的丰富的信息。注意,在我们的setting中,没有组合特征(combination features)。我们会使用DNN来捕捉特征的交叉

4.2 Base Model (Embedding & MLP)

2a.png

图2a

大多数流行的模型结构[3,4,21]共享一个相似的Embedding&MLP范式,我们称之为base model,如图2左侧所示。它包含了许多部件:

Embedding layer。由于输入是高维二值向量,embedding layer被用于将他们转换成低维dense表示。对于\(t_i\)第i个feature group,假设 \(W_i = [w_1^i, ..., w_j^i, ..., w_{K_i}^i,] \in R^{D \times K_i}\)表示第i个embedding字典,其中\(w_j^i \in R^D\)是一个具有维度为D的embedding vector。Embedding操作会遵循查表机制,如图2所示。

  • 如果\(t_i\)是one-hot vector,其中第j个元素\(t_i[j]=1\),\(t_i\)的embedded表示是一个单一embedding vector \(v_i = w_j^i\)
  • 如果\(t_i\)是multi-hot vector,其中对于\(j \in \lbrace i_1,i_2, ..., i_k \rbrace\)有\(t_i[j]=1\),\(t_i\)的embedded表示是一个embedding vectors列表:\(\lbrace e_{i=1}, e_{i=2}, ..., e_{i_k} \rbrace= \lbrace w_{i_1}^i, w_{i_2}^i, ... w_{i_k}^i \rbrace\)。

Pooling layer和Concat layer。注意,不同用户具有不同数目的行为。因而对于multi-hot行为特征向量\(t_i\),它的非零值数目会各有不同,从而造成相应的embedding vectors的长度是个变量。由于Fully-connected网络只能处理定长输入。常见的做法[3,4]是将embedding vectors的列表通过一个pooling layer来获得一个固定长度的向量:

\[e_i = pooling(e_{i_1}, e_{i_2}, ..., e_{i_k})\]

…(1)

两种最常用的pooling layers是:sum pooling和average pooling。它可以使用element-wise sum/average操作到embedding vectors列表中。

embedding和pooling layers操作两者都会以group-wise方式将原始稀疏特征映射到多个固定长度表示向量中。接着所有向量被拼接(concatenated)在一起来获得该样本的整个表示向量(overall representation vector)。

MLP。给定拼接后的dense representation vector,FC layers会被用于自动学习特征组合。最近开发的方法[4,5,10]集中于设计MLP的结构来更好的进行信息抽取。

Loss。base model的目标函数为负log似然函数:

\[L = - \frac{1}{N} \sum\limits_{(x,y)\in S} (y logp(x) + (1-y) log(1-p(x)))\]

…(2)

其中S是size N的训练集,x是网络输入,\(y \in \lbrace 0, 1 \rbrace\)是label,p(x)是在softmax layer后的网络输出,它表示样本x被点击的预测概率。

4.3 DIN结构

在表1的所有这些特征中,用户行为特征十分重要,它在电商应用场景中对于建模用户兴趣时扮演重要角色。

t1.png

表1

Base model可以获取关于用户兴趣的固定长度的表示向量,它通过将所有embedding vectors在用户行为feature group上进行pooling,如等式(1)所示。该表示向量对于一个给定的用户来说保持相同,具有有限维度的用户表示向量在表现用户的多样化兴趣时会是一个瓶颈。为了让它可行,一种简单的方法是扩展embedding vector的维度,但很不幸的是这将极剧地增加学习参数的size。这会导致在有限数据下的overfitting,并增加了计算和存储的负担,这对于一个工业界在线系统是不可接受的。

是否存在一种更优雅的方式,在一个向量中使用有限维来表示用户的多样化兴趣?用户兴趣的局部活跃性(local activation characteristic)给了我们启发,我们设计了一个新模型,称为DIN(Deep interest network)。想像下,当一个年轻母亲访问了电商网站,她找到了展示的新手提包,并点击了它。我们仔细分析下点击行为的驱动力。通过对这位年轻母亲的历史行为进行软搜索(soft-searching),并发现她最近浏览过手提袋(tote bag)和皮手袋(leather handbag)相似的商品,展示广告点刚好与她的兴趣相关。换句话说,行为相关的展示广告可以对点击行为做出重大贡献。DIN在局部活跃兴趣对于给定广告的表示(representation)上有一定注意力(pay attention to),来模仿该过程。DIN不需要使用相同的向量来表示所有用户的多样化兴趣,它会考虑到历史行为与候选广告间的相关度,自适应地计算用户兴趣的向量表示。这种representation vector会随广告的不同而改变

2b.png

图2b

图2的右侧展示了DIN的结构。对比起base model,DIN引入了新设计和局部激活单元(local activation unit),其它的结构完全相同。特别的,activation units可以应用到用户行为特征上,它会执行一个加权求和平均(weighted sum pooling)来自适应地计算:在给定一个候选广告A时的用户表示(user representation \(v_U\)),如公式(3):

\[v_U(A) = f(v_A, e_1, e_2, ..., e_H) = \sum\limits_{j=1}^{H} a(e_j, v_A) e_j = \sum\limits_{j=1}^H w_j e_j\]

…(3)

其中:

  • \(\lbrace e_1, e_2, ..., e_H\rbrace\)是用户u的行为的embedding vectors列表,它的长度为H
  • \(v_A\)是广告A的embedding vector。
  • \(v_U(A)\)会随着不同的广告而变化。
  • \(a(\cdot)\)是一个feed-forward网络,它的输出作为activation weight,如图2所示。

除了两个input embedding vectors外,\(a(\cdot)\)会添加它们的外积(output product)来feed到后续网络中,这对于帮助相关度建模来说是显式可知的。

等式(3)的局部激活单元与NMT任务[1]中的attention方法的思想一致。然而,不同于传统的attention方法,在等式(3)中没有\(\sum\limits_i w_i=1\)的限制,从而可以存储用户兴趣的强度(intensity)。也就是说,在\(a(\cdot)\)的output上进行softmax归一化会被取消。做为替代,\(\sum_i w_i\)的值被看成是:在某种程度上,对活跃用户兴趣的强度的一个近似。例如,如果一个用户的历史行为包含了90%的衣服类,10%电子类。给定两个候选广告(T-shirt和phone),T-shirt会激活大多数那些属于衣服(clothes)的历史行为,并可能给出一个比手机(phone)的\(v_U\)更大值。传统的attention方法通过对 \(a(\cdot)\)的output进行归一化会丢掉在\(v_U\)在数值范围上的辩识度。

我们以序列的方式尝试了LSTM来建模用户历史行为数据,但结果展示并没有提升。不同于在NLP任务中语法限制下的文本,我们的用户历史行为序列可能包含多个并发兴趣(concurrent interests)。在这些兴趣上快速跳过和突然结束,会造成用户行为序列数据看起来有噪声。一个可能的方向是,设计特殊结构来以序列方式建模这样的数据。我们会在后续进行研究。

5.训练技术

在Alibaba的广告系统中,商品和用户的数目规模达到上亿。实际上,训练具有大规模稀疏输入特征的工业界深度网络,十分具有挑战性。在本部分,我们引入了两个实际中很有用的重要技术。

5.1 Mini-batch Aware正则化

训练工业界网络,overfitting是很严峻的挑战。例如,除了细粒度特征外,比如:商品id(goods_ids)这样的特征维度有60亿维(包含了表1描述的关于用户的visited_goods_ids,以及关于ad的goods_id),在训练期间,如果没有正则化(regularization),模型性能在第一个epoch之后会快速下降,如6.5节的图4的黑绿线所示。在训练具有稀疏输入和数亿参数的网络时,直接使用传统的正则化方法(l2和l1正则化)并不实际。以l2正则为例:只有出现在每个mini-batch上的非零稀疏特征,需要在SGD的场景下基于无需正则化的最优化方法被更新。然而,当添加l2正则时,它需要为每个mini-batch的所有参数之上计算l2-norm,这会导致严重的计算开销,当参数扩展至数亿时是不可接受的

在本paper中,我们引入了一种有效的mini-batch aware regularizer,它只需要计算出现在每个mini-batch上的稀疏特征参数的l2-norm,这使得计算是可行的。事实上,对于CTR预测模型来说,embedding字典贡献了大多数参数,并带来了严重的计算开销。假设\(W \in R^{D \times K}\)表示整个embedding字典的参数,其中D是embedding vector的维度,K是feature space的维度。我们通过抽样(samples)扩展了在W上的l2正则:

\[L_2(W) = \|W\|_2^2 = \sum\limits_{j=1}^K \|w_j\|_2^2 = \sum\limits_{(x,y) \in S} \sum\limits_{j=1}^{K} \frac{I(x_j \neq 0 )}{n_j} \|W_j\|_2^2\]

…(4)

其中:

  • \(w_j \in R^D\)是第j维的embedding vector
  • \(I(x_j \neq 0)\)表示实例x是否具有特征id j
  • \(n_j\)表示特征id j在所有样本中的出现次数

等式(4)可以以mini-batch aware的方式被转换成公式(5):

\[L_2(W) = \sum\limits_{j=1}^{K} \sum\limits_{m=1}^{B} \sum\limits_{(x,y) \in B_m} \frac{I(x_j \neq 0)}{n_j} \|W_j \|_2^2\]

…(5)

其中:

  • B表示mini-batch的数目
  • \(B_m\)表示第m个mini-batch

假设\(\alpha_{mj} = \max\limits_{(x,y) \in B_m} I(x_j \neq 0)\)表示是否存在至少一个实例在mini-batch \(B_m\)上具有特征id j。那么等式(5)可以近似为:

\[L_2(W) \approx \sum\limits_{j=1}^K \sum\limits_{m=1}^B \frac{\alpha_{mj}}{n_j} \| w_j \|_2^2\]

…(6)

这种方式下,我们对一个近似的mini-batch aware版本的l2正则进行求导。对于第m个mini-batch,对于特征j的各embedding weights的梯度:

\[w_j \leftarrow w_j - \eta [ \frac{1}{|B_m| }\sum\limits_{(x,y) \in B_m} \frac{\partial L(p(x),y)}{\partial w_j} + \lambda \frac{\alpha_{mj}}{n_j} w_j]\]

…(7)

其中,只有出现在第m个mini-batch特征参数参与正则计算。

5.2 数据自适应激活函数(Data Adaptive Activation Function)

PReLU[12]是一种常用的activation函数:

\[f(s) = \begin{cases} s, & \text{if s > 0} \\ \alpha s, & \text{if s $\leq$ 0} \end{cases} = p(s) \cdot s + (1-p(s)) \cdot \alpha s\]

…(8)

其中,s是activation函数\(f(\cdot)\)输入的某一维,\(p(s)=I(s>0)\)是一个指示函数(indicator function),它控制着\(f(s)\)在两个通道\(f(s)=s\)和\(f(s)=\alpha s\)间的切换。\(\alpha\)是一个可学习参数。这里我们将\(p(s)\)看成是控制函数。

3.png

图3

图3的左侧画出了关于PReLU的控制函数。PReLU会采用一个在0值处的硬修正点(hard rectified point),当每个layer的输入遵循不同的分布时它可能并不适合。考虑这一点,我们设计了一种新的data adaptive activation function,称为Dice:

\[f(s) = p(s) \cdot s + (1-p(s)) \cdot \alpha s, p(s)= \frac{1} {1 + e^{-\frac{s-E[s]}{\sqrt{Var[s]+\epsilon}}}}\]

…(9)

控制函数会在图3的右键进行绘制。在训练阶段,\(E[s]\)和\(Var[s]\)是在每个mini-batch中输入的均值(mean)和方差(variance)。在测试阶段,\(E[s]\)和\(Var[s]\)通过在数据上E[s]和Var[s]的移动平均来计算。\(\epsilon\)是一个小的常数,在我们的实践中可以被设置成\(10^{-8}\)。

Dice可以被看成是PReLu的一种泛化。Dice的关键思想是,会根据输入数据的分布自适应调整修正点(rectified point),它们的值被置成输入的平均(mean)。另外,Dice会平滑控制着在两个通道间的切换。当\(E[s]=0\)和\(Var[s]=0\)时,Dice会退化成PReLU.

6. 实验

在本节中,我们进行实验,包含数据集、评估指标、实验设置、模型比较、以及对应的分析。实验会在关于用户行为的两个公共数据集上进行,同时也会在alibaba的展示广告系统中收集到的数据集上进行,效果会与state-of-the-art的CTR预估方法进行比较。两个公共数据集和实验代码在github上有提供。

6.1 数据集和实验设定

Amazon数据集: Amazon数据集包含了产品评论和元数据,可以用于benchmark数据集[13,18,23]。我们在一个称为“电子产品(electronics)”的子集上展开实验,它包含了192403个用户,63001个商品,801个类目,以及1689188个样本。在该数据集上的用户行为很丰富,对于每个用户和每个商品超过5个评论。特征包含:goods_id, cate_id, 用户评论的goods_id_list和cate_id_list。假设一个用户的所有行为是\((b_1, b_2, ..., b_k, ..., b_n)\),任务是:通过利用前k个评论的商品,预测第(k+1)个评论的商品。会为每个用户使用k=1,2,…,n-2来生成训练数据集。在测试集上,我们给定前n-1个评论的商品预测最后一个。对于所有模型,我们使用SGD作为optimizier,使用指数衰减,它的learning rate从1开始,衰减率设置为0.1.mini-batch设置为32.

MovieLens Dataset:MovieLens数据[11]包含了138493个用户,27278个电影,21个类目和20000263个样本。为了让ctr预测任务更合适,我们将它转成一个二分类数据。原始的用户对电影评分是[0,5]间的连续值,我们将4和5以上的样本标记为正样本(positive),其余为负样本。我们基于userID将数据划分成训练和测试数据集。在138493个用户中,其中10w被随机选到训练集上,其余38493为测试集。任务是基于用户行为预测用户是否会对一个给定的电影给出3以上的评分。特征包括:movie_id, movie_cate_id以及用户评分列表movie_id_list,movie_cate_id_list。我们使用与Amazon数据集相同的optimizer,learning rate和mini-batch size。

Alibaba数据集:我们从Alibaba的在线展示广告系统中收集了真实流量日志,两种的样本用于训练集、其余用户测试集。训练集和测试集的size各自大约为20亿、0.14亿。 对于所有deep模型,所有16个组的特征的embedding vector的维度为12. MLP的Layers设置为 192 x 200 x 80 x 2. 由于数据量很大,我们将mini-batch size设置为5000,并使用Adam作为Optimizier。我们使用指数衰减,它的learning rate初始为0.001,接着decay rate设置为 0.9.

上述数据集相关的统计数据如表2所示。

t2.png

表2

6.2 算法比较

  • LR: 较弱baseline
  • BaseModel: 如第4.2节所示,BaseModel采用Embedding&MLP架构。作为较强baseline
  • WideDeep:
  • PNN:
  • DeepFM:

6.3 指标

在CTR预测领域,AUC是广泛使用的指标。它可以测量使用预估CTR对所有ads排序的好坏(包括intra-user和inter-user顺序)。用户加权AUC在[7,13]中引入,它通过在用户上对AUC进行平均,来测量intra-user序的好坏,在展示广告系统中会展示出与在线效果更相关。在实验中我们采用该指标。出于简洁性,我们仍将它看成是AUC。计算如下:

\(AUC = \frac{\sum\limits_{i=1}^n \#impression_i \times AUC_i}{ \sum\limits_{i=1}^n \#impression_i}\) …(10)

其中n是用户数,\(\#impression_i\)和\(AUC_i\)是impression数,AUC对应于第i个用户。

另外,我们根据[25]来介绍RelaImpr指标来测量模型的相对提升。对于一个随机猜测器(random guesser),AUC的值为0.5. 因此,RelaImpr按如下定义:

\[RelaImpr = (\frac{AUC(measured model) - 0.5} {AUC(base model) - 0.5}) \times 100%\]

…(11)

6.4 在Amazon数据集和MovieLens数据集上的结果比较

6.7

6.8 DIN可视化

最后,我们结合案例研究来展示DIN在Alibaba数据集上的内部结果。我们首先确认了局部激活单元(local activation unit)的有效性。图5展示了用户行为各自对应一个候选广告上的激活强度(activation intensity)。正如我们所预料到的,与候选广告具有高相关性的权重更高。

图5

我们接着将学到的embedding vectors进行可视化。还是以之前的年轻母亲为例,我们为该用户随机选择9个类型(dress、sport shoes、bags、等)以及每个类目下的100个商品作为候选广告。图6展示了通过DIN学到的商品embedding vectors的可视化,它使用t-SNE进行表示,相同形状对应相同的类目。我们可以看到,相同类目的商品几乎属于一个聚类,这很明显展示了DIN embeddings的聚类特性。另外,我们通过预测值对候选广告进行着色。图6是这位妈妈在embedding空间上的兴趣密度分布的一个热度图。它展示了DIN可以在候选集的embedding space上,为一个特定用户捕获它的多样化兴趣,从而构成一个多模态兴趣密度分布。

图6

7.结论

在本paper中,我们关注CTR预测任务在电商展示广告场景下的建模。在传统deep CTR模型上使用固定长度的表示(representation)对于捕获用户兴趣多样性(diversity)来说是个瓶颈。为了提升模型的表现力,设计了一种称为DIN的新方法,来激活相关的用户行为,从而为用户兴趣在不同的广告上获取一个自适应表示向量。另外,我们引入了两种新技术来帮助训练工业界深度网络,从而进一步提升DIN的效果。他们可以很方便地泛到到其它工业界deep learning任务上。DIN现在已经在Alibaba中在线展示广告系统上部署。

参考

阿里在KDD 2018上开放了它们的方法:《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》, 我们来看下:

介绍

互联网技术持续改变着商业版图,电商变得无处不在。Alibaba blala,10亿用户,2017 GMV是37670亿rmb,2017收入是1580亿rmb。blala。

淘宝有10亿users和2亿items,最重要的问题是,如何帮助用户快速发现需要和感兴趣的items。推荐系统对于达成这个目标来说至关重要。例如,淘宝移动APP的主页(图1),会基于用户过去的行为结合推荐技术生成,贡献了40%的总推荐流量。再者,在淘宝上,收入和流量的大头都来自推荐。简言之,推荐是taobao和alibaba的GMV和收入的核心引擎。尽管在学术界和工业界大多数推荐方法都能获得成功(例如:CF,基于内容的方法,基于deeplearning的方法),但是在淘宝,这些方法面对的问题变得更严峻,因为有海量的用户和海量的items存在。

图1: 虚线框的区域对于淘宝10亿用户来说是个性化的。为了更好的用户体验,吸引人的图片和方案描述也同样是生成的。注意,Taobao移动端主页贡献了40%的总推荐流量

这里淘宝推荐系统有三个主要的技术挑战:

  • 可扩展性(Scalability):尽量许多已经存在的推荐方法可以在小规模数据集上能很好工作(例如:数百万的users和items),但它们通常会在淘宝的海量数据集上试验失败。
  • 稀疏性(Sparsity):由于用户趋向于只与小部分的items交互,特别是当users或items只有少量交互时,很难训练一个精准的推荐模型。这通常被称为“sparsity”问题。
  • 冷启动(cold start):在淘宝,数百万的新items会在每小时持续被上传。这些items没有用户行为。处理这些items、或者预测用户对这些items的偏好是个挑战,这被称为“cold start”问题。

为了解决这些挑战,我们在淘宝技术平台上设计了two-stage推荐框架。第一阶段称为matching,第二阶段为ranking。在matching阶段,我们会生成一个候选集,它的items会与用户接触过的每个item具有相似性;接着在ranking阶段,我们会训练一个深度神经网络模型,它会为每个用户根据他的偏好对候选items进行排序。由于上述挑战的存在,在两个阶段都会面临不同的问题。另外,每个阶段的目标不同,会导致技术解决方案的不同。

在本paper中,我们主要关注如何解决在matching阶段的挑战,其中,核心任务是,基于用户行为,计算所有items的两两(pairwise)相似度。在获取items的pairwise相似度后,我们可以生成一个items候选集合,进一步在ranking阶段使用。为了达到该目的,我们提出了根据用户行为历史构建一个item graph,接着使用state-of-art的graph embedding方法[8,15,17]来学习每个item的embedding,这被称为BGE(Base Graph Embedding)。在这种方式下,我们可以基于items的embeddings向量进行点乘来计算候选items集合的相似度。注意,在之前的工作中,基于CF的方法来计算这些相似度。然而,基于CF的方法只考虑了在用户行为历史上的items的共现率。在我们的工作中,会在item graph中使用random walk,来捕获items间的高维相似性。这样,它比基于CF的方法要好。然而,为少量或者没有交互行为的items学到精准的embeddings仍是个挑战。为了减轻该问题,我们提供了使用side information来增强embedding过程,这被称为使用Side information的Graph Embedding(Graph Embedding with Side information (GES))。例如,属于相似的类目或品牌的items在embedding space空间应更接近。在这种方式下,即使items只有少数互交或没有交互,我们也可以获取精确的items embedding。然而在淘宝,有许多种类型的side information。比如类目(category)、品牌(brand)、或价格(price)等,直觉上不同的side information对于学习items的embeddings的贡献也不一样。因而,我们进一步提出了一种加权机制来使用,这被称为Enhanced Graph Embedding with Side information(EGES)

总之,matching阶段有三个重要的部分:

  • (1) 基于在淘宝这些年的实践,我们设计了一个有效的启发式方法,基于在淘宝上10亿多用户的行为历史来构建item graph。
  • (2) 我们提供了BGE,GES和EGES,来学习在淘宝上20亿items的embeddings。我们进行离线实验来演示:GES和EGES与BGE、以及其它embedding方法对比的效果。
  • (3) 为了部署十亿级users和items的方法,我们基于baobao XTensorflow(XTF)平台来构建graph embedding systems。我们展示了提出的框架可以极大提升在taobao移动端app上的推荐效果,同时能满足在双十一节上的训练效率和实时服务。

paper的其余部分组织如下:第2节介绍三种embedding方法。第3节介绍离线和在线实验结果。第4节介绍在taobao上的系统部署。第5节回顾相关工作。第6节收尾。

2.框架

这一节,首先引入graph embedding的基础,接着详述如何从用户行为历史上构建item graph。最后,我们研究了在淘宝上进行学习items embeddings的方法。

2.1 前提条件

本节,我们会给出一个关于graph embedding的总览,会采用一个很流行的方法:DeepWalk;在此基础上,我们提出了在matching阶段我们的graph embedding方法。给定一个graph:\(G = (V, E)\),其中V和E分别表示节点集合和边集合。Graph embedding会为空间\(R^d\)上的每个节点\(v \in V\)学习一个低维表示,其中\(d \ll \mid V \mid\)。换句话说,我们的目的是,学习一个映射函数:\(\Phi: V \rightarrow R^d\),(即:在V中的每个节点表示成一个d维向量)。

在[13,14]中,提出了word2vec来学习在语料中的每个词的embedding。受word2vec的启发,Perozzi等提出了DeepWalk来学习在graph中每个节点的embedding。首先通过运行在graph中的random walk来生成节点序列,接着应用Skip-Gram算法来学习在graph中的每个节点表示。为了维持该graph的拓朴结构,他们需要解决以下的优化问题:

\[minimize_{\Phi} \sum\limits_{v \in V} \sum\limits_{c \in N(v)} -log Pr(c | \Phi(v))\]

…(1)

其中,\(N(v)\)是节点v的邻节点,可以被定义为从v开始在一跳或两跳内的节点。\(Pr(c \mid \Phi(v))\)定义了给定一个节点v后,具有上下文节点c的条件概率。

在本节的其它部分,我们首先会介绍如何从用户行为中构建item graph,接着提供了基于DeepWalk的graph embedding方法来生成在taobao上20亿item上的低维表示。

2.2 根据用户行为构建item graph

图2: 淘宝graph embedding总览: a) **用户行为序列:用户u1对应一个session,u2和u3分别各对应一个session;这些序列被用于构建item graph;b) 有向加权item graph(weighted directed item graph)\(G=(V,E)\); **c)在item graph上由random walk生成的序列; d) **使用Skip-Gram生成embedding

在本节,我们详述了从用户行为构建item graph。现实中,在淘宝上一个用户的行为趋向于如图2(a)所示的序列。之前基于CF的方法只考虑了items的共现,但忽略了顺序信息(可以更精准地影响用户的偏好)。然而,不可能使用一个用户的整个历史,因为:

  • 1.计算开销和存储开销会非常大
  • 2.一个用户的兴趣趋向于随时间漂移

因此,实际上,我们设置了一个时间窗口,只选择用户在该窗口内的行为。这被称为是基于session的用户行为(session-based)。经验上,该时间窗口的区间是一个小时。

如果我们获取基于session的用户行为,如果两个items它们连续出现,会通过一个有向边进行连接,例如:图2(b)的item D和item A是连接的,因为在图2(a)中用户\(u_1\)顺序访问了item D和A。通过利用在淘宝上所有用户的协同行为,我们会为每条边\(e_{ij}\)基于在所有用户行为的行连接items中的出现总数分配一个权重。特别的,在所有用户行为历史中,该边的权重等于item i转向item j的频次。这种方法中,构建的item graph可以基于所有用户行为表示不同items间的相似度。

实际上,在我们抽取了用户行为序列之前,我们需要过滤一些非法数据和异常行为来为我们的方法消除噪声。下述行为会被我们的系统认定为噪声:

  • 如果在一次点击后的停留时长少于1秒,该点击可能是无意识的,需要被移除。
  • 在淘宝中有许多”过度活跃(over-active)”用户,它们实际上是有害用户(spam users)。根据我们在淘宝上的时长观察,如果在三个月内,单个用户购买1000个items或者他/她的总点击数超过3500个items,该用户非常可能是一个spam user。我们需要过滤掉这些用户的行为。
  • 淘宝零售商们(Retailers)会保持更新一个商品(commodity)的详情。极端情况下,在淘宝上的一个商品可能在一连串更新后,虽然相同的id,但很可能变成了不同的item。因而,这种item也会根据id进行移除。

2.3 基于图的Embedding(BGE)

在我们获取weighted directed item graph后,表示\(G=(V,E)\)。我们采用DeepWalk来学习在图G中的每个节点的embedding。假设M表示G的邻近矩阵(adjacency matrix),\(M_{ij}\)表示从节点i指向节点j的加权边。我们首先基于随机游走生成节点序列,接着在这些序列上运行Skip-Gram算法。随机游走的转移概率定义如下:

\[P(v_j | v_i) = \begin{cases} \frac{M_{ij}}{\sum\limits_{j \in N_{+}(v_i)} M_{ij}}, & v_j \in N_{+}(v_i) \\ 0, & e_{ij} \notin E \end{cases}\]

…(2)

其中,\(N_{+}(v_i)\)表示出链(outlink)的邻节点集合,例如,从\(v_i\)出发指向在\(N_{+}(v_i)\)所有节点的边。通过运行随机游走,我们可以生成如图2(c)所示的许多序列。

接着,我们使用Skip-Gram算法来学习embeddings,它会最大化在获取序列上的两个节点间的共现概率。这会生成以下的优化问题:

\[minimize_{\Phi} - log Pr (\lbrace v_{i-w}, ..., v_{i+w} \rbrace \backslash v_i | \Phi(v_i))\]

…(3)

其中,w是在序列中上下文节点的window size。使用独立假设,我们具有:

\[Pr (\lbrace v_{i-w}, ..., v_{i+w} \rbrace \backslash v_i | \Phi(v_i)) = \prod_{j=i-w, j \neq i}^{i+w} Pr(v_j | \Phi(v_i))\]

…(4)

应用negative sampling,等式4可以转换成:

\[minimize log \sigma (\Phi(v_j)^T \Phi(v_i)) + \sum_{t \in N_(v_i)'} log \sigma(- \Phi(v_t)^T \Phi(v_i))\]

…(5)

其中,\(V(v_i)'\)是对于\(v_i\)的负采样,\(\sigma()\)是sigmoid函数。经验上,\(\mid N(v_i)' \mid\)越大,获得的结果越好。

2.4 使用Side Information的GE(GES)

通过应用2.3节的embedding方法,我们可以学到在淘宝上的所有items的embedding,来捕获在用户行为序列上的更高阶相似度,这种特性会被基于CF的方法忽略。然而,对于“冷启动(cold-start)”的items,学到精准的embeddings仍然是个挑战。

为了解决冷启动问题,我们提出了增强式BGE,它会使用side information来与冷启动items做绑定。在商业推荐系统的场景中,side information常指关于一个item的:类目(category),shop(商名),价格(price)等,它们常被当成是ranking阶段的关键特征而广泛使用,但很少用于matching阶段。我们可以通过将side information合并到graph embedding中来缓合cold-start问题。例如,优衣库(UNIQLO:相同店)的两款卫衣(相同类目)可能很相似,一个喜欢Nikon镜头的用户,也可能对Canon相机感兴趣(相似类目和相似品牌)。这意味着这些具有相似的side information的items也可在embedding空间中更接近。基于这个猜想,我们提出了如图3的GES方法。

图3: GES和EGES的总框架。SI表示side information,其中”SI 0”表示item自身。惯例上,1)对于items和不同的SIs,稀疏特征趋向于one-hot-encoder vectors。 2) Dense embeddings是items和相应的SI的表示 3) hidden representation是一个item和它相应的SI的聚合embedding

为了清晰些,我们对概念做了精微调整。我们使用W来表示items或者side information的embedding matrix。特别的,\(W_v^0\)表示item v的embedding,\(W_v^S\)表示绑定到item v上的第s个类型的side information的embedding。接着,对于item v,使用n种类型的side information,我们具有n+1个向量\(w_v^0, ..., W_v^n \in R^d\),其中,d是embedding的维度。注意,item embeddings和side information embeddings的维度,经验上设置为相同的值。

如图3所示,为了合并side information,我们为item v将n+1个embedding vectors进行拼接,增加一个layer,使用average-pooling操作来将所有与item v的embeddings进行聚合,它是:

\[H_v = \frac{1}{n+1} \sum_{s=0}^n W_v^s\]

…(6)

其中,\(H_v\)是item v的聚合embeddings。这种方法中,我们将side information以这样的方式合并,从而使具有相近side information的items可以在embedding空间内更接近。这会为cold-start items的embeddings更精准些,并且提升了在线和离线的效果。(见第3节)

2.5 增强型EGS(EGES)

尽管GES可以获得收益,但在embedding过程中集成不同类型的side information时,仍存在一个问题。等式(6)中,不同类型的side information对最终的embedding的贡献是相等的,在现实中这不可能。例如,一个购买了IPhone的用户,趋向于会浏览Macbook或者Ipad,因为品牌都是”Apple”;而一个购买了多个不同品牌衣服的用户,出于便利和更低价格,还会在相同的淘宝店上继续购买。因此,不同类型的side information对于在用户行为中的共现items的贡献各不相同。

为了解决该问题,我们提出了EGES方法来聚合不同类型的side information。该框架与GES相同(见图3)。不同之处是,当embeddings聚合时,不同类型的side information具有不同贡献。 因而,我们提出了一个加权平均的average layer来聚合与items相关的side information的embeddings。给定一个item v,假设\(A \in R^{\mid V \mid \times (n+1)}\)是权重矩阵(weight matrix),条目\(A_{ij}\)是第i个item、第j个类型side information的权重。注意,\(A_{*0}\),即A的首列,表示item v的权限自身。出于简洁性,我们使用\(a_v^s\)来表示关于第v个item的第s个类型的side information的权重,\(a_v^0\)表示item v自身的权重。加权平均层(weighted average layer)会结合不同的side information,定义如下:

\[H_v = \frac{\sum\limits_{j=0}^{n} e^{a_v^j} W_v^j} {\sum\limits_{j=0}^n e^{a_v^j}}\]

…(7)

其中,我们使用\(e^{a_v^j}\)来替代\(a_v^j\),以确保每个side information的贡献大于0, \(\sum_{j=0}^n e^{a_v^j}\)被用于归一化不同类型side information的embeddings的相关权重。

在训练数据中,对于节点v和它的上下文节点u(即output),我们使用\(Z_u \in R^d\)来表示它的embedding,y来表示label。接着,EGES的目标函数变为:

\[L(v, u, y) = - [ y log(\sigma(H_v^T Z_u)) + (1-y)log(1-\sigma(H_v^T Z_u))]\]

…(8)

为了求解它,梯度求导如下:

\[\frac{\partial L}{Z_u}=(\sigma(H_v^T Z_u) -y) H_v\]

…(9)

对于第s个side information:

\[\frac{\partial L} {\partial a_v^s} = \frac{\partial L} {\partial H_v} \frac{\partial H_v} {\partial a_v^s} \\ = (\sigma(H_v^T Z_u) -y) Z_u \frac{(\sum\limits_{j=0}^n e^{a_v^j}) e^{a_v^s} W_v^s - e^{a_v^s} \sum\limits_{j=0}^n e^{a_v^j} W_v^j} { (\sum\limits_{j=0}^n e^{a_v^j})^2}\]

…(10)

\[\frac{\partial L} {\partial W_v^s} = \frac{\partial L} {\partial H_v} \frac{\partial L} {\partial W_v^s} \\ = \frac{e^{a_v^s}}{\sum\limits_{j=0}^n e^{a_v^j}} (\sigma(H_v^T Z_u) -y ) Z_u\]

…(11)

EGES的伪代码如算法1如示,加权Skip-Gram updater的伪代码如算法2所示。最终每个item的隐表示通过等式(7)来计算:

算法一:

算法二:

3.实验

本节中,我们引入大量实验来演示这些方法的效果。首先通过链接预测任务评估方法,然后是在Taobao移动端APP上的在线实验。最终,我们提出一些真实case来进一步深入这些方法。

3.1 离线评估

链接预测(Link Prediction)。链接预测任务被用于离线实验,因为它是在网络中的一个基础问题。给定移除某些边的一个网络,预测任务是预测这些链接的出现概率。根据在[30]中相似的实验设置,1/3的边被随机选中及移除,在测试集中作为ground truth,图中剩余的边作为训练集。在测试集中,相同数目的没有边连接的节点对(node pairs)会被随机选中作为负样本。为了评估链接预测的效果,使用AUC得分作为metric。

数据集:我们使用两个数据集来进行链接预测任务。第一个是Amazon Electronics数据集。第二个从Taobao移动端APP抽取。两个数据集都包含了不同类型的side information。对于Amazon数据集,item graph可以从“共同购买(co-purchasing)”的关系中被构建(在提供的数据中由also_bought表示),使用了三种类型的side information,例如:类目(category),子类目(sub-category)以及品牌。对于Taobao数据集,item graph通过第2.2节的方法购建。注意,为了效率和效果,在Taobao真实生产环境中,使用了12种类型的side information,包括:零售商(retailer), 品牌(brand), 购买级别(purchase level), 年代(age), 适用性别(gender), 风格(style), 等等。这些类型的side information根据这些年在taobao的实际经验很有用。两个数据集的统计如表1所示。我们可以看到两个数据集的稀疏性大于99%。

表1

比较方法。引入了4种方法进行实验:BGE, LINE, GES和EGES。LINE在[17]中被提出,它可以捕获在graph embedding中的第一阶和第二阶的邻近关系。我们使用由作者提供的实现,使用第一阶和第二阶邻近(LINE(1st)和LINE(2nd))来运行它。我们实现了其它三种方法。所有这些方法的embedding维度都设置为160.对于我们的BGE、GES和EGES,随机游走的长度为10, 每个节点的walks数目为20, 上下文窗口为5.

表2

结果分析。结果如表2所示。我们可以看到GES和EGES的AUC效果在两个数据集上都要好于BGE、LINE(1st)和LINE(2st)。另换,稀疏性问题也通过合并side information而缓合。当比较Amazon和Taobao的效果时,我们可以看到,在taobao数据集上的效果增益更大。我们将它归功于在Taobao数据集上使用了更多类型的有效的、有信息量的side information。当比较GES和EGES时,我们可以看到,在Amazon上的效果收益比在Taobao上的要大。这可能归功于Taobao的效果已经非常好了,比如:0.97.因而,EGES的提升不显著。在Amazon dataset上,EGES在AUC上的效果要好于GES。基于这些结果,我们可以观察到合并side information对于graph embedding非常有效,准确率可以通过对多个side information的mebeddings进行加权聚合而提升。

图4 2017年11月连续7天内不同方法的在线CTR

3.2 在线A/B test

我们在一个A/B testing框架下进行在线实验。实验的目标是在Taobao APP主页上的CTR。我们实现了上述的graph embedding方法,接着为每个item生成多个相似的items作为推荐候选。最终在Taobao主页(见图1)上的推荐结果,由基于一个DNN模型的ranking引擎生成。在实验中,我们在ranking上使用相同的方法对候选排序。如上所述,相似items的质量直接影响着推荐结果。因而,推荐效果(例如:CTR)可以受matching阶段不同的方法而影响。我们在A/B test框架上部署了4个方法。并对2017年11月中的7天的结果进行展示(如图4)。注意,“Base”表示一个item-based CF的方法,在graph embedding方法部署之前,它被广泛用于淘宝上。它会根据item的共现以及用户投票权重,计算两个items间的相似度。该相似度可以很好地进行调参、并很适合淘宝电商。

从图4我们可以看到,EGES和GES在CTR上的效果要好于BGE、以及Base方法,这展示了在graph embedding上合并side information的效果。另外,Base的CTR要大于BGE。这意味着,经过良好调参的CF-based方法可以战胜简单的embedding方法,因为在实际中会大量使用人工经验的策略。另一方面,EGES会一直胜过GES,它在3.1节的离线实验中一致。这进一步演示了,side information的加权聚合要胜过平均聚合。

3.2 案例研究

在本节中,我们提出了一些在taobao的真实案例,来展示这些方法的效果。这些case会检查三个方面:

  • 1.通过EGES的embedding可视化
  • 2.冷启动items
  • 3.在EGES中的权重

3.3.1 可视化

在本部分,我们会将由EGES学到的items的embeddings进行可视化。我们使用由tensorflow提供的可视化工具。结果如图7所示。从图7(a),我们可以看到不同类目(categories)的鞋子会在不同的聚类中。这里一种颜色表示一个类目,比如:羽毛球,乒乓球,足球。它演示了学到的合并side information的embeddings的效果。例如,具有相似side information的items在embedding空间中应更接近。从图7(b)看到,我们进一步分析三种鞋子的embeddings:羽毛球,乒乓球,足球。在embedding空间中,羽毛球和乒乓球相互很接近,而足球更更远些。这可以被解释成:在中国,喜欢羽毛球的人很多也喜欢打乒乓球。然而,喜欢足球的人与喜欢户内运动(羽毛球和乒乓球)的人则相当不同。推荐羽毛球鞋给这些观看过乒乓球鞋的人效果要好于推足球鞋的。

3.3.2 冷启动items

图5: 冷启动item的相似items。展示了top4相似的items。注意:这里的”cat”表示category.

在本部分,我们展示了冷启动item的embeddings质量。对于在淘宝上刚更新的一个新item,不能马上在item graph中没法学到embedding,之前基于CF的方法也不能处理冷启动问题。然而,我们可以将一个冷启动item使用它的side information的average embeddings进行表示。接着,我们基于两个items的embeddings的点乘计算,从已经存在的items中检索最相似的items。结果如图5所示。我们可以看到,对于两个冷启动items来说,尽管缺失用户行为,但可以利用不同的side information来有效学到它们的embeddings,在top相似的items上。在图中,我们为每个相似的item注释上:连接到冷启动item上的side information的类型。我们可以看到,items的所属商店(shops)是用于衡量两个items相似度上非常重要的信息,它也会在下面部分使和每个side information的权重进行对齐。

图6: 不同items的不同side information的weights. 这里的”Item”表示一个item本身的embedding

3.3.3 在EGES中的权重

我们会为不同的items作不同类型side information权重可视化。每个在不同类目上的8个items会被选中,与这些items相关的所有side information的权重会从学到的weight matrix A中抽取。结果如图6所示,其中,每一行记录了一个item的结果。可以观察到许多注意点:

  • 1.不同items的weight分布很不同,它们会与我们的猜假一致,不同的side information对于最终的表示来说贡献是不同的。
  • 2.在所有items中,”Item”的权重,表示了item自身的embeddings,会一直大于其它的side information的权重。必须承认的是,一个item自身的embedding仍然是用户行为的主要源,其中side information提供了额外的提示来推断用户行为。
  • 3.除了”Item”外,”Shop”的权重会一直大于其它side information的权重。这与淘宝的用户行为相一致,也就是说,用户可能出于便利或更低价格因素,趋向于购买在相同店内的items。

图7: 随机选中的鞋子的一个集合的embedding可视化。item embeddings通过PCA被投影到一个2D平面上。不同颜色表示不同的categories。相同category中的Item被一起分组。

4.系统部署和操作

本节中介绍graph embedding方法在淘宝的实现和部署。首先给出对淘宝整个推荐平台的一个大体介绍,接着详述与embedding方法相关的模块。

图8: 淘宝推荐平台的架构

在图8中,我们展示了推荐平台的架构。该平台包含了两个子系统:online和offline。对于online子系统,主要组件是TPP(Taobao Personality Platform:淘宝个性化平台)和RSP(Ranking Service Platform: 排序服务平台)。一个典型的workflow如下所示:

  • 当用户加载淘宝移动APP时,TPP会抽取用户最新的信息,并从离线子系统中检索一个items候选集,它们会接着被fed进RSP。RSP会使用一个fine-tuned DNN模型对items候选集进行排序,接着返回相应的排序结果给TPP。
  • 当用户在淘宝内浏览时,它们的行为会被收集和存储成离线子系统中的日志。

offline子系统的workflow,包含了graph embedding的实现和部署,如下描述:

  • 包含用户行为的日志会被检索。item graph会基于用户行为进行构建。实际上,我们会选择最近三个月的日志。在生成基于session的用户行为序列之前,会对数据进行anti-spam。留下的日志包含了6000亿条目。item graph会根据2.2节的方法进行构建。
  • 为了运行我们的graph embedding方法,会采用两种实际方法:1) 整个graph划分成许多个sub-graphs,它们可以通过Taobao的ODPs(Open Data Processing Service)分布式平台进行处理。每个subgraph有将近5000w个节点。2)为了生成random walk序列,我们在ODPs中使用基于迭代的分布式图框架。通过random walk生成的序列总是将近1500亿
  • 为了实现该embedding算法,在我们的XTF平台上使用了100个GPU。在部署平台上,使用1500亿样本,在离线子系统中的所有模块,包含日志检索、anti-spam、item图构建、通过random walk生成序列、embedding、item-to-item相似度计算以及map生成,执行过程小于6个小时。这样,我们的推荐服务可以在非常短时间内响应用户最近行为。

参考

airbnb在KDD 2018上开放了它们的方法:《Real-time Personalization using Embeddings for Search Ranking at Airbnb》, 我们来看下:

介绍

在过去十年的搜索体系中(通常基于经典的IR),已经出现了许多机器学习技术,尤其是在搜索排序领域。

任何搜索算法的目标(objective)都依赖于自身的平台。其中,一些平台的目标是增加网站参与度(engagement:比如在搜索之后的新闻文章上的点击、消费),还有的目标是最大化转化率(conversions: 比如:在搜索后的商品或服务的购买),还有的目标是需要为双边市场主体(比如:购买者和零售商)优化搜索结果。这种双边市场会合成一个可行的商业模型。特别的,我们会从社交网络范式转移到一个关于不同供需类型参与者组成的网络中。工业界的示例有:住房(airbnb),出行共享(Uber, Lyft),在线电商(Etsy)等。为这种类型的市场进行内容发现和搜索排序,需要满足供需双方,从而保持增长和繁荣。

在Airbnb中,需要对主人(hosts)和客人(guests)进行最优化搜索,这意味着,给定一个输入query,它带有位置(location)和旅行日期(trip dates),我们必须为客人带有位置、价格、风格、评论等出现给客户排序高的listings,同时,它又能很好地匹配主人关于旅行日期(trip dates)和交付期(lead days)的偏好。也就是说,我们需要发现这样的listings:它可能因为差评、宠物、逗留时间、group size或其它因素而拒绝客户,并将这些listings排的序更低。为了达到该目的,我们会使用L2R进行重排序。特别的,我们会将该问题公式化成pairwise regression问题(正向:预订bookings,负向:拒绝rejections)。

由于客户通常会在预测前浏览多个搜索结构,例如:点击多个listing,并在它们的搜索session内联系多个主人,我们可以使用这些in-session信号(例如,点击(clicks)、与主人的联系(host contacts)等)进行实时个性化,目标是给用户展示与search session相似的多个listings。同时,我们可以使用负向信号(比如,高排名listings的跳过次数),从而展示给客人尽可能少的不喜欢列表。

3.方法

下面,我们引入了listing推荐、以及listing在搜索的中ranking。我们会描述两个不同的方法,例如:对于短期实时个性化的listing embeddings、以及用于长期个性化 user-type & listing-type embeddings。

3.1 Listing embeddings

假设,给定从N个用户中获取的S个点击sessions的一个集合S,其中每个session \(s = (l_1, ..., l_M) \in S\)被定义成:一个关于该用户点击的M个listing ids连续序列。当在两个连续的用户点击之间超过30分钟的时间间隔时,启动一个新的session。给定该数据集,目标是为每个唯一的listing \(l_i\)学习一个d维的real-valued表示: \(v_{l_i} \in R^d\),以使相似的listing在该embedding空间中更接近。

更正式的,该模型的目标函数是使用skip-gram模型,通过最大化搜索sessions的集合S的目标函数L来学习listing表示,L定义如下:

\[L = \sum\limits_{s \in S} \sum\limits_{l_i \in s} (\sum\limits_{-m \leq j \leq m, i \neq 0} log P(l_{i+j} | l_i))\]

…(1)

从被点击的listing \(l_i\)的上下文邻居上观察一个listing \(l_{i+j}\)的概率\(P(l_{i+j} \mid l_{i})\),使用softmax定义:

\[P(l_{i+j} | l_i) = \frac{exp(v_{l_i}^T v_{l_{i+j}}')} {\sum\limits_{l=1}^{|V|} exp(v_{l_i}^T v_l')}\]

…(2)

其中\(v_l\)和\(v_l'\)是关于listing l的输入和输出的向量表示,超参数m被定义成对于一个点击listing的forward looking和backward looking上下文长度,V被定义成在数据集中唯一listings的词汇表。从(1)和(2)中可以看到提出的方法会对listing点击序列建模时序上下文,其中具有相似上下文的listing,将具有相似的表示。

计算(1)中目标函数的梯度\(\Delta L\)的时间,与词汇表size \(\mid V \mid\)成正比,对于大词汇表来说,通常有好几百万listing ids,是不可行的任务。做为替代,我们会使用negative-sampling方法,它能极大减小计算复杂度。Negative-sampling可以如下所述。我们会生成一个positive pairs (l, c)的集合\(D_p\),其中l表示点击的listings,c表示它的上下文,然后从整个词典V中随机抽取n个listings来组成negative pairs (l, c)的集合\(D_n\)。优化的目标函数变为:

\[argmax_{\theta} \sum\limits_{(l,c) \in D_p} log \frac{1}{1+e^{-v_c'v_l}} + \sum\limits_{(l,c) \in D_n} log \frac{1}{1+e^{v_c'v_l}}\]

…(3)

其中要学的参数\(\theta\)是:\(v_l\)和\(v_c\), \(l, c \in V\). 优化通过随机梯度上升法(SGA)完成

将预订Listing看成全局上下文。 我们将点击session集合S划分为:

  • 1) 预订型sessions(booked sessions), 例如,点击sessions会以用户在某一listing上进行预订而结束
  • 2) 探索型session(exploratory session),例如,点击sessions最后不会以预订结束,用户仅仅只是浏览.

对于捕获上下文相似度的角度来说两者都有用,然而,预订型sessions可以被用于适配以下的最优化:在每个step上,我们不仅仅只预测邻居clicked listing,也会预测booked listing。这种适配可以通过将预测的listing作为全局上下文(global context)来完成,从而能总是被预测,不管是否在上下文窗口内部。因此,对于预订型sessions来说,embedding的更新规则变为:

\[argmax_{\theta} \sum\limits_{(l,c) \in D_p} log \frac{1}{1+e^{-v_c'v_l}} + \sum\limits_{(l,c) \in D_n} log \frac{1}{1+e^{v_c'v_l}} + log \frac{1}{1+ e^{-v_{l_b}' v_l}}\]

…(4)

其中,\(v_{l_b}\)是booked listing \(l_b\)的embedding。对于 探索型session来说,更新仍会由(3)的最优化进行管理。

图1

图1展示了listing embeddings是如何从预定型sessions中进行学习的,它会使用一个滑动窗口size=2n+1, 从第一个clicked listing到最后的booked listing滑动。在每一步,central listing \(v_l\)的embedding会被更新,以便它能预测context listing \(v_c\)的embedding、以及booked listing \(v_{l_b}\)的embedding。随着窗口滑入和滑出上下文集合,booked listing总是会作为全局上下文存在

自适应训练. 在线旅行预定网站的用户通常会在单个market(例如,他们想逗留的地理位置)内进行搜索。因此,\(D_p\)会有较高的概率包含了相同market中的listings。在另一方面,归因于negative sampling,\(D_n\)包含的大多数listings与\(D_p\)包含的listings很大可能不会是相同的markets。在每一步,对于一个给定的central listing l,positive上下文几乎由与l相同market的listings所组成,而negative上下文几乎由与l不同market的listings组成。为了解决该问题,我们提议添加一个随机负样本集合\(D_{m_n}\),它从中心listing l的market上抽样得到:

\[argmax_{\theta} \sum\limits_{(l,c) \in D_p} log \frac{1}{1+e^{-v_c'v_l}} + \sum\limits_{(l,c) \in D_n} log \frac{1}{1+e^{v_c'v_l}} + log \frac{1}{1+ e^{-v_{l_b}' v_l}} + \sum\limits_{(l,m_n) \in D_{m_n}} log \frac{1}{1+e^{v_{m_n}'}v_l}\]

…(5)

其中要学习的参数\(\theta\)有:\(v_l\)和\(v_c\), \(l,c \in V\)。

冷启动listing的embeddings. 每天都有新的listings被主人创建,并在Airbnb上提供出租。这时候,这些listings不会有一个embedding,因为他们在训练数据中没有对应的点击sessions。为了为这些新的listings创建embeddings,我们打算利用其它listings的embeddings。

在listing创建时,需要提供listing的信息,比如:位置,价格,listing type等。我们利用这些关于listing的meta-data来发现3个地理位置上接近的listings(在10公里内),这些listings具有embeddings,并且具有与新listing相同的listing-type,并与新listing属于相同的价格区间(比如:每晚20-25美刀)。接着,我们使用3个embeddings计算平均向量,来构成新的listing embedding。使用该技术,我们可以覆盖98%的新listings。

图2

表1:

表2

检查listing embeddings.。为了评估由embeddings所捕获的listings的特性,我们检查了d=32维的embeddings,它使用公式(5)在800w点击sessions上进行训练。首先,通过在学到的embeddings上执行k-means聚类,我们对地理相似度进行评估。图2展示了生成的在加州的100个聚类,证实相似位置的listing会聚在一起。我们发现这些聚类对于重新评估我们的travel markets的定义非常有用。接着,我们评估了来自洛杉矶的不同listing-type间(表1)、以及不同价格区间(表2)间的listings的平均cosine相似度。从这些表中可以观察到,相同type和相同价格区间间的cosine相似度,要比不同type和不同价格区间间的相似度要高很多。因此,我们可以下结论,两个listing特性在被学到的embeddings中可以很好地编码。

图3

有一些listing特性(比如价格)不需要学习,因为他们会直接从listing的meta-data中被抽取;而其它类型的listing特性(比如:房屋结构:architecture、装修风格:style、感受:feel),很难以listing features的形式进行抽取。为了评估这些特性是否由embeddings捕获,我们检查了在listing embedding空间中单一房屋结构的listings的k近邻。图3展示了这个case,对于左侧的一个单一architecture的listing来说,最相似的listings具有相同的style和architecture。为了能在listing embedding空间上进行快速和方便的探索,我们开发了一个内部的相似度探索工具,如图4所示。

图4

该工具的演示在https://youtu.be/1kJSAG91TrI, 展示了可以发现相同architecture(包括:houseboats, treehouses, castles, chalets, beachfront apartments)的相似listings。

3.2 User-type & Listing-type embeddings

在3.1节描述的是Listing embeddings。它使用clicked sessions进行训练,能很好地发现相同market间的listings相似度。同样的,他们更适合短期(short-term)、session内(insession)、个性化的需求,它们的目标是给用户展示与在搜索session期间点击的listing相似的listings。

然而,除了in-session personalization,(它基于在相同session内发生的信号构建),基于用户长期历史的信号对于个性化搜索来说很有用。例如,给定一个用户,他当前在搜索洛杉矶内的一个listing,过去他在纽约、伦敦预定过,给他推荐之前预定过的listings相似的listings是很有用的。

当在由点击训练得到的listing embeddings中捕获一些cross-market相似度时,学习这种cross-market相似度一个原则性方法是,从由listings构成的sessions中学习。特别的,假设,我们给定一个从N个用户中获取的booking sessions的集合\(S_b\),其中每个booking session \(s_b = (l_{b1}, ..., l_{b_M})\)被定义成:由用户j按预定(booking)的时间顺序排列的一个listings序列。为了使用该类型数据来为每个listing_id,学习embeddings \(v_{l_{id}}\),会有以下多方面挑战:

  • 1.booking sessions数据\(S_b\)比click sessions数据S要小很多,因为预定是低频事件。
  • 2.许多用户在过去只预定单个listing,我们不能从session length=1中进行学习
  • 3.为了上下文信息中的任意实体学习一个有意义的embeddings,至少需要该实体出现5-10次,然而在平台中的许多listing_ids会低于5-10次。
  • 4.最后,由同用户的两个连续预定可能会有很长时间的间隔,这时候,用户偏好( 比如:价格点)可能会随职业发展而变化。

为了解决这些非常常见的问题,我们提出了在listing_type级别学习embeddings,而非listing_id级别。给定一个特定listing_id的meta-data,比如:位置,价格,listing-type,空间,床数等,我们使用一个在表3中定义的基于规则的映射,来决定listing_type。

表3

**例如,一个来自US的Entire Home listing(lt1),它是一个二人间(c2),1床(b1),一个卧室(bd2) & 1个浴室(bt2),每晚平均价格为60.8美刀(pn3),每晚每个客人的平均价格为29.3美刀(pg3),5个评价(r3),所有均5星好评(5s4),100%的新客接受率(nu3),可以映射为:listing_type = U S_lt1_pn3_pg3_r3_5s4_c2_b1_bd2_bt2_nu3. **分桶以一个数据驱动的方式决定,在每个listing_type分桶中最大化覆盖。从listing_id到一个 listing_type的映射是一个多对一的映射,这意味着许多listings会被映射到相同的listing_type。

表4:

为了解释用户随时间变化的偏好,我们提出在与listing_type embedding相同的向量空间中学习user_type embeddings。user_type使用一个与listings相似的过程来决定,例如,利用关于user和它之前预订记录的metadata,如表4定义。例如,对于一个用户,他来自San Francisco(SF)、带有MacBook笔记本(dt1)、说英文(lg1)、具有用户照片资料(pp1)、83.4%平均5星率(l5s3)、他在过去有3个预订(nb1)、其中关于订单(booked listings)的平均消费统计为:52.52美刀 (每晚平均价格: Price Per Night), 31.85美刀 (每晚单客户平均价格:Price Per Night Per Guest), 2.33(Capacity), 8.24(平均浏览数:Reviews)、76.1%(5星好评单:Listing 5 star rating)。对于该用户所生成的user_type是:SF_lg1_dt1_fp1_pp1_nb1_ppn2_ppg3_c2_nr3_l5s3_g5s3. 当为训练embeddings生成booking sessions时,我们会一直计算user_type直到最近的预定。对于那些首次做出预定的user_type的用户,可以基于表4的第5行进行计算,因为预测时我们没有关于过去预定的先验信息。这很便利,因为对于为user_types的embeddings,它基于前5行,可以用于对登出用户或者没有过往预定记录的新用户进行冷启动个性化

训练过程. 为了学习在相同向量空间中的user_type和listing_type的embeddings,我们将user_type插入到booking sessions中。特别的,我们形成了一个\(S_b\)集合,它由N个用户的\(N_b\)个booking sessions组成, 其中每个session \(s_b = (u_{type_1} l_{type_1}, ..., u_{type_M} l_{type_M}) \in S_b\)被定义成一个关于booking事件的序列,例如:按时间顺序排列的(user_type, listing_type)元组。注意,每个session由相同user_id的bookings组成,然而,对于单个user_id来说,他们的user_types可以随时间变化,这一点与下述情况相似:相同listing的listing_types会随着他们接受越来越多的bookings按时间变化。

目标函数与(3)相似,会替换listing l,中心项需要使用\(user\_type(u_t)\)或者\(listing\_type(l_t)\)进行更新,取决于在滑动窗口中捕获的项。例如,为了更新中心项\(user\_type(u_t)\),我们使用:

\[argmax_{\theta} \sum\limits_{(u_t,c) \in D_{book}} log \frac{1} {1+e^{-v_c'v_{u_t}}} + \sum\limits_{(u_t,c) \in D_{neg}} log \frac{1} {1 + e^{v_c'v_{u_t}}}\]

…(6)

其中\(D_{book}\)包含了来自最近用户历史的user_type和listing_type,特别是与中心项接近的用户预定记录,其中\(D_{neg}\)包含了使用随机的user_type或listing_type实例作为负例。相似的,如果中心项是一个\(listing\_type(l_t)\),我们可以对下式最优化:

\[argmax_{\theta} \sum\limits_{(l_t,c) \in D_{book}} log \frac{1} {1+e^{-v_c'v_{l_t}}} + \sum\limits_{(l_t,c) \in D_{neg}} log \frac{1} {1 + e^{v_c'v_{l_t}}}\]

…(7)

图5a展示了一个该模型的图形表示,其中,中心项表示\(user\_type(u_t)\)用于执行(6)中的更新。

图5

由于定义中的booking sessions几乎包含了来自不同markets的listings,没有必要从相同market中抽样额外的负样本作为booked listing。

拒绝订单(rejection)的显式负样本。不同于点击只影响guest端的偏好,bookings也会影响host端的偏好,也存在着来自host的一个显式反馈,形式表现为:接受guest的请求进行预定,或者拒绝guest的预订请求。对于host来说,拒绝的一些原因可能是:客户较差的guest star ratings、用户资料不完整或空白、没有资料图等等。这些特性有一部分存在表4中的user_type定义中。

来自主人的拒绝(Host rejections),可以在训练期间被用来编码主人(host)在向量空间中的偏好。合并这些拒绝信号的目的是:一些listing_types比没有预定记录的、不完整的资料、以及较低的评星率的user_types敏感度更小。我们希望,这些listing_types和user_types在向量空间的embedding更接近,这样基于embedding相似度的推荐可以减小拒绝率,最大化预订机会

我们对rejections看成是显式负样本,以如下方式公式化。除了集合\(D_{booking}\)和\(D_{neg}\),我们会生成一个集合\(D_{rej}\),它由涉及到rejection事件的user_type和listing_type的pairs(\(u_t, l_t\))组成。如图5b所示,我们特别关注,对于同一用户,当在对于另一个listing的成功预定(通过一个正号标记)之后主人拒绝(通过一个负号-标记)。新的目标函数可以为:

更新一个\(user\_type(u_t)\)的中心item:

\[argmax_{\theta} \sum_{(u_t,c) \in D_{book}} log \frac{1} {1+e^{-v_c'v_{u_t}}} + \sum_{(u_t,c) \in D_{neg}} log \frac{1} {1 + e^{v_c'v_{u_t}}} + \sum_{(u_t,l_t) \in D_{reject}} log \frac{1} {1+exp^{v_{l_t}' v_{u_t}}}\]

…(8)

更新一个\(listing\_type(l_t)\)的中心item: \(argmax_{\theta} \sum\limits_{(l_t,c) \in D_{book}} log \frac{1} {1+e^{-v_c'v_{l_t}}} + \sum\limits_{(l_t,c) \in D_{neg}} log \frac{1} {1 + e^{v_c'v_{l_t}}} + \sum\limits_{(l_t,u_t) \in D_{reject}} log \frac{1}{1+exp(v_{u_t}' v_{l_t})}\)

…(9)

表5

对于所有user_types和listing_types所学到的embeddings,我们可以根据用户当前的user_type embedding和listing_type embedding,基于cosine相似度给用户推荐最相关的listings。例如,表5中,我们展示了cosine相似度:

user_type = SF_lg1_dt1_fp1_pp1_nb3_ppn5_ppg5_c4_nr3_l5s3_g5s3, 该用户通常会预定高质量、宽敞、好评率高、并且在美国有多个不同listing_types的listings。可以观察到,listing_types最匹配这些用户的偏好,例如,整租,好评多,大于平均价,具有较高cosine相似度;而其它不匹配用户偏好的,例如:空间少,低价,好评少,具有较低cosine相似度。

4.实验

4.1 Listing embeddings训练

对于listing embeddings的训练,我们从搜索中创建了8亿个点击sessions,通过使用从logged-in users所有searches,将它们通过user id进行分组,并在listing ids上按时间进行排序。

4.2 Listing Embeddings的离线评估

为了能快速根据不同最优化函数、训练数据构造、超参数、等做出快速决策,我们需要一种方式来快速对比不同的embeddings。

对训练出的embedding进行评估的一种方法是,基于用户最近点击行为,测试在用户推荐列表中将要预定的效果好坏。更特别的,假设我们给定了最常见的clicked listing和需要被排序的candidate listings(它包含了用户最终预定的listing)。通过计算在clicked listing和candidate listings间的cosine相似度,我们可以对候选进行排序,并观察booked listing的排序位置。

f6.png

图6

为了评估,我们使用一个较大数目的这种search、click和booking事件,其中rankings通过我们的Search Ranking模型进行分派。在图6中,我们展示了离线评估的结果,我们比较了d=32的多个版本embeddings,并认为他们基于点击来对booked listing进行排序。booked listing的rankings对于每个产生预定的点击进行平均,在预定之前的17次点击,转到在预定之前的最后一次点击(Last click)。越低值意味着越高的ranking。我们要对比的embedding versions有:

  • d32: 它使用(3)进行训练
  • d32 book: 它使用bookings做为全局上下文 (4)
  • d32 book + neg: 它使用bookings做为全局上下文,并对于相同的market采用展式负样本(5)

可以观察到,Search Ranking模型会随着它使用记忆型特征(memorization features)而获得更好更多的点击。可以观查到基于embedding相似度的re-ranking listings是有用的,特别是在search漏斗的早期阶段。最后,我们可以断定:d32 book + neg的效果要好于其它两者。相同类型的图可以被用于对其它因素:(超参数、数据构建)做出决策。

4.3 使用Embeddings的相似listing

每个Airbnb的home listing page页包含了Similar Listings(类似房源)这个 carousel控件,它会为home listing推荐与它相似的listings,并在相近的时间集合是可入住的。在我们的测试中,对于“Similar Listing” carousel控件的已存在算法,会调用主要的Search Ranking模型,给出通过给定listing过滤出与它相近位置、是否可入住、价格区间、listing type的listing。

我们进行了A/B test,其中会对比已存在算法与embedding-based的算法,其中,相似listings通过在listing embedding空间中寻找k个最近邻得到。给定学到的listing embeddings,对于一个给定的listing l,相似listings可以在时间上吻合(check-in和check-out的dates设置相同)的相同market上所有listings,通过计算\(v_l\)和\(v_j\)间的cosine相似度找到。具有最高相似度的K listings会被检索为相似listings。计算可以在线执行,使用我们共享架构来并行得到,其中,embeddings的部分存储在每个search机器上。

A/B test展示了,embedding-based解决方案在Similar Listing carousel上会产生一个21%的ctr提升(当listing page有entered dates时为23%,无date时为20%)。在Similar Listing carousel上发现listing并进行预定的客户,4.9%提升。从而部署到生产环境中。

4.4 使用Embeddings在Search Ranking上实时个性化

背景。为了正式描述我们的搜索排序模型(Search Ranking Model),我们假设,给定关于每个搜索\(D_s = (x_i, y_i), i=1, ..., K\)的训练数据,其中K是通过search返回的listings数目,\(x_i\)是一个向量,它包含了第i个listing结果的features,\(y_i \in \lbrace 0, 0.01, 0.25, 1, -0.4 \rbrace\)是分配给第i个listing结果的label。为了给一个特定的listing分配label。…

参考

Taobao在2017年《Optimized Cost per Click in Taobao Display Advertising》提出了GAUC的概念:

1.介绍

广告促进了新品牌的提升,并保持已存在的高质量品牌长青。在线广告自1990s年后获得了指数式增长,它的市场策略涉及到使用互联网做为中介来获取网站流量和受众(target),并分发市场信息给合适的顾客。在在线广告中的实时竞价(RTB: real-time bidding)技术,允许广告主(advertiser)为每个独立的曝光(impression)进行竞价(bid)。大量研究【23-26】发现,有效的竞价策略可以最大化一个party(比如:广告主、消费者、媒介平台)的单边经济顺差(unilateral economic surplus)。

除了RTB系统外,淘宝建立了世界上最高级的在线广告系统之一。在移动app和pc网站上,被选中的ads会在指定spots(插播广告)中被呈现给用户。本文中关注在taobao移动app端上CPC展示广告(display advertising)中的竞价优化问题。主要涉及到两块:

  • Banner CPC Ads:图1中taobao主页的top banner上出现的ads。广告主会为单个item、一个store或一个brand设置广告系列。
  • Item CPC Ads:在猜你喜欢栏目中,单个items会被展示给用户,它包含了200多个spots,只有三个是广告,其它为推荐项,如图1所示。

图片名称

图1

考虑到用户和广告主,taobao广告平台形成了自己独特的经济体,特性如下:

  • 1.不同于大多数RTB系统(很难获取完整用户数据),taobao自身同时扮演着需求端和供给端。这种经济闭环系统使得taobao可以收集完整的用户数据和广告活动(ad campaign)信息。
  • 2.系统中的大多数广告主是小型、中型广告主,它们只关注收益(revenue)的增加,而非品牌提升。因此,在GMV(交易总额:Gross Merchandise Volume)上的增加可以使这些广告主受益。
  • 3.不同的广告主会购买不同的KPI(比如:impressions,clicks,ROI),它们对于taobao平台上的点击进行竞价,例如:采用CPC。我们会讨论其它方法,比如:CPM(每千人成本:cost per mille)和CPS(每次销售成本:cost per sale)。
  • 4.最后但最重要的是:广告位(advertising spots)必须满足媒介需求,它可以通过一些指标进行衡量,比如:CTR、转化率(CVR)、GMV等。这里有一个GMV的分析。首先,我们希望商业流量的介绍不会过度影响用户体验。因而,设置GMV需要达到一个在商业回报和用户体验上的双赢(win-win)。第二,一个taobao广告主通常是taobao的卖方(sellers),它们会使用一个固定比例的回顾用于市场推广,提升GMV会导致广告主增加它们的广告预算,这会带来平台的长期收益。

考虑上述优缺点,我们在两种广告形式上采用CPC。尽管广告主认为CPS对比于CPC的风险更低,但CPS会忽略点击的价值,提供更差的流量清算效率。由于广告形式主要针对中小广告主,CPM造成更高的风险,而CPC允许广告主控制点击成本(cost of clicks),平台则承担着调整page views给clicks的风险。有了taobao完整的数据生态(data ecology)、以及标准电商广告和交互过程,CPC足够有效。

许多SOTA的系统,比如facebook[7]使用不同的设计。对于一些大型社交网络服务(SNSs),通过oCPM(optimized cost per mille),广告主可以为click竞价,实际每次impression都有花费。SNS广告交互通常是有差异的,比如:like、click、share等。而taobao交易通常通过简单的系列点击(serial clicks)来完成。从数据生态的视角,在ad click之后,taobao用户的所有行为仍在taobao平台上,这可以为可跟踪的基于交互的演绎提供条件。然而,SNS通常会让广告主为clicks或其它actions竞价,从而转化成等价的CPM方式,这在机制上鼓励广告主上传实际的follow-up intereaction数据,以便进一步优化bid。

前面提到的两种ad形式,根据生态、效率等,我们选择CPC。

taobao的广告系统包括:数百万ads的过滤,并对这些候选ads进行ranking。首先,根据历史行为以及ad item细节挖掘用户偏好。taobao targeting系统[17,18]会训练模型为每次page view请求来过滤大量ads,这被称为matching stage。不同于推荐(不涉及广告主),matching service会召回相关的users,它们必须反映广告主竞价意愿,并确保市场深度。第二,实时预测(RTP:real-time prediction)引擎会为每个符合条件的广告(eligible ad)预测pCTR。第三,传统上,这些候选广告通过bid * pctr进行排序,并基于该order来最大化eCPM(effective cost per mille:每千次展示可以获得的有效广告收入)。

广告主总是希望bid匹配流量质量(traffic quanlity)。由于技术限制,对于粗粒度流量差异,传统方法只能为指定user groups和ad slots设置固定竞价(fixed bid),然而,广告主正进一步寻找细粒度bids和traffic quanlity的匹配(matching)。一方面,一个fiexed bid set很。。。

2.系统架构

这部分描述了taobao中的展示广告系统(display ads system)中数据和信息是如何流动的,如图2所示。每个系统组件和events序列会从foremost page view request中:

图片名称

图2

3.OCPC

OCPC(Optimized Cost Per Click)

在这部分,我们首先数学描述advertisers和conditions以便optimization。第二,我们提出一个算法来优化平台生态指标(index)和平台回报(revenue)。最后,介绍相关细节。实际上,我们的算法框架使用大量广告主需求和平台生态指标,比如:(PV数、点击数、转化率(conversion)等)。作为一个常见case,该paper会将ROI和gaining qulity traffic按广告主的要求进行设置,GMV作为平台生态指标,它与平台收益(playform revenue)通过调节广告主的竞价来进行优化。假设A是对于一个PV请求来说合格的广告活动(ad campaigns)的集合。有了该特定PV请求,对于每个campaign \(a \in A\),存在一个由advertiser预先设定的相应的bid \(b_a\)。对于每个\(b_a\),OCPC算法的角色是,调整并发现一个最优的\(b_a^*\)来达到预先设计的多种最优化需求。

3.1 Optimization Scope

ROI constraint。考虑

3.2 ranking

3.3 算法细节

4.模式估计

4.1 模型和features

4.2 模型performance

serving precise结果对于预测模型来说非常重要。在像CTR预估的任务中,AUC是一个被广泛用来评估模型有效性的指标。然而,一些研究表明[4],在testing上更好的AUC结果可能会在生产环境中带来差的performance。当在实际中对预测模型进行调参时,这会带来困扰。我们分析了该问题,并发现,AUC指标并不会对用户(users)和广告位(spots)进行区别对待。例如,从未点击任何ad的用户或模糊的广告位,可能会对AUC结果偏向一个更低值。根据这些事实和分析,我们提出了一个AUC-like metric,称为Group AUC(GAUC),如等式(9)所示。

  • 首先,我们将所有测试数据根据the user (u)和广告位的特定位置(p)进行聚合
  • 接着,在每个单一group上会计算AUC结果(注意:如果在一个group中存在的样本全为正、或全为负时,我们需要从数据中对该group进行移除)
  • 最后,我们对这些在不同的groups上的AUC进行加权平均(weight \(w_{(u,p)}\)与group中的impression times或click times成比例),并将结果作为GAUC value
\[GAUC = \frac{\sum\limits_{(u,p)} w_{(u,p)} * AUC_{(u,p)}}{\sum\limits_{(u,p)} w_{(u,p)}}\]

…(9)

CTR和CVR模型performance。在图6中,我们给出了在一个7天周期中,CTR和CVR预测模型在AUC和GAUC的performance。结果表明,由MLR算法的天模型(daily model)的performance很稳定。CVR模型比CTR模型具有更高的GAUC,因为在CVR模型的样本中具有更小的noises。在图7和4中,我们展示了CTR、CVR在不同预测值levels下的预测和实际ratio。结果表明,CTR的预测值(predicted)通常要比实际值(real)更大。然而,在提出的OCPC策略中,不同的predicted CTR值间的顺序关系影响会更多。

图片名称

图6 在一个7天的周期中,CTR和CVR模型在AUC和GAUC上的performance (从2017.1.10-2017.1.16)

图片名称

图7 predicted和real CTR间的gap w.r.t. 不同pCTR level(从2017.1.10-2017.1.16)

参考