1.介绍

对于词（words）的分布式组成语义的算法开发是一个长期存在的开放性难题。最近几年的算法有：将word vectors映射到sentence vectors（包括recursive networks, recurrent networks, convolutional networks，以及recursive-convolutional方法）。所有的这些方法会生成句子表示，传给一个监督式任务，依赖一个class label来对组成权重（composition weights）做BP算法。因而，这些方法能学到高质量句子表示，但只能对自己的特定任务进行调整。paragraph vector是另一种方法，它通过引入一个分布式句子索引作为模型的一部分，以非监督式学习进行句子表示。

本文中，我们考虑了另一种loss function，可以用于任何组成操作（composition operator）上。考虑以下的问题：是否存在一个任务，它对应的loss允许我们学习高度泛化的句子表示？受使用word vector学习的启发，我们提出了一个目标函数，它从句子级别上抽象了skip-gram模型。也就是说，它不再使用单个word来预测它的上下文，我们会encode一个句子。因而，任何组成操作（composition operator）都适用于一个句子编码器(sentence encoder)，只是目标函数被修改了而已。图1展示了该模型，我们会调用我们的skip-thoughts模型和向量。

图1: skip-thoughts模型。给定一个tuple（\(s_{i-1}, s_i, s_{i+1}\)），\(s_i\)表示book中的第i个句子，\(s_i\)被编码并尝试重构前一个句子\(s_{i+1}\)和下一个句子\(s_{i+1}\)。在本例中，输入的句子三元组：I got back home. I could see the cat on the steps. This was strange. 未绑定箭头被连接到encoder output上。颜色表示哪个component共享参数。(与skip-gram有点像)

表1: BookCorpus dataset的统计信息

我们的模型依赖于一个关于连续文本的训练语料。我们选择使用一个小说集合BookCorpus dataset来训练我们的模型。这些书由未出版的作者编写。该dataset具有6种不同的种类：Romance, Fantasy, Science fiction , Teen等。表1高亮了该语料的统计。伴随着故事，书包含着对话，感情（emotion）和广泛的字符交叉。另外，训练集的量很大，不会偏向于任何特定领域或应用。表2展示了该语料中句子的最近邻。该结果展示了skip-thought vectors精确地捕获了编码后的句子的语义和结构。

表2: 在每个样本中，第一个句子是一个query，而第二个句子是它的最近邻。通过从语料中随机抽取5w个句子中，通过计算cosine相似度进行最近邻分数排序。

我们以新的setting评估了我们的向量：在学到skip-thoughts后，冻结模型，使用encoder作为一个泛化的特征抽取器（generic feature extractor）以用于特定任务。在我们的实验中，我们考虑了8个任务：句义相关性，段落检测，图像句子排序以及其它5个标准的分类benchmarks。在这些实验中，我们抽取了skip-thought向量，并训练了线性模型来评估它的表示（representations），没有任何额外的参数fine-tuning。结果说明，skip-thoughts提出的泛化表示对所有任务都很robust。

一个难点是，这样的实验会构建一个足够大的词汇表来编码句子。例如，一个从wikipedia文章中的句子可能包含了与我们的词汇表高度不一样的名词。为了解决这个问题，我们学到了一个mapping：从一个模型传递给另一个模型。通过使用cbow模型预训练好的word2vec表示，我们学到了这样的一个线性映射：将在word2vec空间中的一个词映射到encoder词汇表空间中的一个词上。学到的该mapping会使用所有单词，它们共享相同的词汇表。在训练后，出现在word2vec中的任何word，可以在encoder word embedding空间中获得一个vector。

2.方法

2.1 引入skip-ghought vectors

我们使用encoder-decoder模型框架来对待skip-thoughts。也就是说，一个encoder会将words映射到一个句子向量（sentence vector）上，一个decoder会用于生成周围的句子。在该setting中，一个encoder被用于将一个英文句子映射到一个向量。decoder接着根据该向量来生成一个关于源英文句子（source sentence）的翻译（translation）。已经探索了许多encoder-decoder pair选择，包括：ConvNet-RNN，RNN-RNN，LSTM-LSTM。源句子表示（source sentence representation）也可以通过使用一个attention机制来动态变化，用于说明任何时候只有相关的才用于翻译（translation）。在我们的模型中，我们使用一个带GRU activations的RNN encoder，以及一个conditional GRU的RNN decoder。该模型组合近似等同于神经机器翻译中的RNN encoder-decoder【11】。GRU展示了在序列建模任务中效果比LSTM要好，并且更简单。GRU units只有两个gates，不需要使用一个cell。而我们的模型则使用RNN，只要能在它之上进行BP算法，任何encoder和decoder可以被使用。

假设我们给定了一个句子的tuple：\((s_{i-1}, s_i, s_{i+1})\)。假设\(w_i^t\)表示了句子中的第t个word，\(x_i^t\)表示它的word embedding。我们将模型描述成三部分：encoder，decoder，目标函数。

Encoder：假设\(w_i^1, ..., w_i^N\)是句子\(s_i\)中的words，其中N表示在句子中的words数目。在每个step中，encoder会产生一个hidden state：\(h_i^t\)，它可以解释成序列\(w_i^1,...,w_i^t\)的表示（representation）。hidden state：\(h_i^N\)可以表示整个句子。

为了encode一个句子，我们对下面的等式进行迭代（这里去掉了下标i）：

\(r^t = \sigma(W_r x^t + U_r h^{t-1})\) … (1)

\(z^t = \sigma(W_z x^t + U_z h^{t-1})\) … (2)

\(\bar{h}^t = tanh(W x^t + U (r^t \odot h^{t-1})\) … (3)

\(h^t = (1-z^t) \odot h^{t-1} + z^t \odot \bar{h}^t\) …(4)

其中 \(\bar{h}^t\)是在时间t提出的状态更新，\(z^t\)是update gate，\(r^t\)是reset gate（\(\odot\)）表示一个component-wise product。两个update gates会采用0到1间的值。

Decoder: decoder是一个神经语言模型，它的条件是encoder output \(h_i\)。该计算与encoder相似，除了我们引入了矩阵\(C_z，C_r\)，以及C，它们被用于偏置由句子向量计算得到的update gate，reset gate和hidden state。一个decoder会被用于下一个句子\(s_{i+1}\)，而第二个decoder被用于前一句子\(s_{i-1}\)。Separate参数被用于每个decoder，除了词汇矩阵V，它的权重矩阵会连接decoder的hidden state，以便计算在词上的一个分布。我们在下一个句子\(s_{i+1}\)上描述decoder，通过一个在前一句子\(s_{i-1}\)上的类似计算得到。假设\(h_{i+1}^t\)表示decoder在时间t的hidden state。对下面的等式进行迭代（丢掉下标i+1）：

\(r^t = \sigma(W_r^d x^{t-1} + U_r^d h^{t-1} + C_r h_i)\) …(5)

\(z^t = \sigma(W_z^d x^{t-1} + U_z^d h^{t-1} + C_z h_i)\) …(6)

\(\bar{h}^t = tanh(W^d x^{t-1} + U^d (r^t \odot h^{t-1} + C h_i\) …(7)

\(h_{i+1}^t = (1-z^t) \odot h^{t-1} + z^t \odot \bar{h}^t\) …(8)

给定\(h_{i+1}^t\)，单词\(w_{i+1}^t\)的概率给出了前(t-1) words，encoder vector为：

\(P(w_{i+1}^t | w_{i+1}^{<t}, h_i) \propto exp(v_{w_{i+1}^t} h_{i+1}^t )\) …(9)

其中，\(v_{w_{i+1}^{t}}\)表示V的行，对应于word \(w_{i+1}^t\)。对于前面句子\(s_{i-1}\)可以做一个类似的计算。

目标函数。给定一个tuple \((s_{i-1}, s_i, s_{i+1})\)，目标优化为：

\(\sum_{t} log P(w_{i+1}^t | w_{i+1}^{<t}, h_i) + \sum_{t} log P(w_{i-1}^t | w_{i-1}^{<t}, h_i)\) …(10)

总的目标函数是对所有这样的training tuples进行求和。

2.2 词汇表膨胀

现在，我们会描述如何将我们的encoder的词汇表扩展到那些在训练期间未见过的词上。假设我们有个被训练的模型引入了词表示（word representations），假设\(V_{rnn}\)表示了RNN的词向量空间。我们假设词汇表\(V_{w2v}\)比\(V_{rnn}\)更大。我们的目标是构建一个mapping f: \(V_{w2v} \rightarrow V_{rnn}\)，它由一个矩阵W进行参数化，比如：\(v'=Wv\)，其中\(v \in V_{w2v}\)， \(v' \in V_{rnn}\)。受[15]的启发，它会学到在词空间转移之间的线性映射，我们为矩阵W求解一个非正则的L2线性回归loss。这样，对于编码中的句子，任何来自\(V_{w2v}\)的词可以被映射到\(V_{rnn}\)。

3 实验

在我们的实验中，我们在BookCorpus dataset上评估了我们的encoder作为一个通用的feature extractor的性能。实验setup如下：

使用学到的encoder作为一个feature extractor，抽取所有句子的skip-thought vectors
如果该任务涉及到计算句子对（pairs of sentences）之间的分数，会计算pairs间的component-wise features。
在抽取的features上训练一个线性分类器，在skip-thoughts模型中没有任何额外的fine-tuning或者backpropagation。

我们限定在线性分类器主要出于两个原因。第一个是为了直接评估计算向量的representation quality。如果使用非线性模型可能会获得额外的性能增益，但这超出了我们的目标。再者，它可以允许更好地分析学到的representations的优点和缺点。第二个原因是，重现（reproducibility）很简单。

3.1 训练细节

为了引入skip-thought vectors，我们在我们的book corpus上训练了两个独立的模型。一个是带有2400维的unidirectional encoder，它常被称为uni-skip。另一个是一个bidirectional model，forward和backward每个各1200维。该模型包含了两个encoder，它们具有不同的参数：一个encoder会给出正确顺序的句子，另一个会给出逆序的句子。输出接着被拼接形成一个2400维的向量。我们将该模型称为bi-skip。对于训练，我们会初始化所有的recurrent矩阵：进行正交初始化。non-recurrent weights则从一个[-0.1, 0.1]的均匀分布上进行初始化。使用mini-batches的size=128, 如果参数向量的norm超过10, 梯度会被裁减（clip）。我们使用Adam算法进行optimization。模型会被训练两周。另外作为一个额外的试验，我们使用一个组合模型导出了试验结果，包含了uni-skip和bi-skip，会生成4800维的向量。我们称该模型为combine-skip。

在被模型被训练后，我们接着使用词汇扩展，将word embedding映射到RNN encoder空间上。会使用公开提供的CBOW word vectors[2]。被训练的skip-thought会有一个词汇size=20000个词。在从CBOW模型中移除多个word样本后，会产生一个词汇size=930911个词。这样，即使被训练的skip-thoughts模型具有20000个词，在词汇表扩展后，我们可以对930991个可能的词进行成功编码。

由于我们的目标是将skip-thoughts作为一个通用的feature extractor进行评估，我们将文本预处理保持最低水平。当编码新句子时，除了基本的tokenization，不会有额外的预处理。这样做可以测试我们的vectors的健壮性。作为一个额外的baseline，我们也会考虑来自uni-skip模型学到的word vectors的平均（mean）。我们将该baseline称为bow。这会决定着在BookCorpus上训练的标准baseline的效果。

Skip-thought Vectors介绍

September 12, 2016

1.介绍

2.方法

2.1 引入skip-ghought vectors

2.2 词汇表膨胀

3 实验

3.1 训练细节

3.2 语义相关性

3.3 段落检测

3.4 Image-sentence ranking

3.5 Classification benchmarks

3.6 skip-thoughts可视化

参考

Netflix关于cosine相似度的讨论

Meta AdaTT介绍

SATrans介绍