目录

目录

15.7. 词向量的相似度和类比任务¶

在 Colab 中打开 Notebook

在 Colab 中打开 Notebook

在 Colab 中打开 Notebook

在 Colab 中打开 Notebook

在 SageMaker Studio Lab 中打开 Notebook

在第 15.4 节中，我们在一个小数据集上训练了word2vec模型，并将其应用于查找输入词的语义相似词。在实践中，在大型语料库上预训练的词向量可以应用于下游自然语言处理任务，这将在第 16 章中介绍。为了直观地演示大型语料库中预训练词向量的语义，让我们将它们应用于词相似度和类比任务。

import os
import torch
from torch import nn
from d2l import torch as d2l

import os
from mxnet import np, npx
from d2l import mxnet as d2l

npx.set_np()

15.7.1. 加载预训练的词向量¶

下面列出了维度为50、100和300的预训练GloVe嵌入，可以从GloVe网站下载。预训练的fastText嵌入有多种语言版本。这里，我们使用一个可以从fastText网站下载的英文版本（300维“wiki.en”）。

#@save
d2l.DATA_HUB['glove.6b.50d'] = (d2l.DATA_URL + 'glove.6B.50d.zip',
                                '0b8703943ccdb6eb788e6f091b8946e82231bc4d')

#@save
d2l.DATA_HUB['glove.6b.100d'] = (d2l.DATA_URL + 'glove.6B.100d.zip',
                                 'cd43bfb07e44e6f27cbcc7bc9ae3d80284fdaf5a')

#@save
d2l.DATA_HUB['glove.42b.300d'] = (d2l.DATA_URL + 'glove.42B.300d.zip',
                                  'b5116e234e9eb9076672cfeabf5469f3eec904fa')

#@save
d2l.DATA_HUB['wiki.en'] = (d2l.DATA_URL + 'wiki.en.zip',
                           'c1816da3821ae9f43899be655002f6c723e91b88')

#@save
d2l.DATA_HUB['glove.6b.50d'] = (d2l.DATA_URL + 'glove.6B.50d.zip',
                                '0b8703943ccdb6eb788e6f091b8946e82231bc4d')

#@save
d2l.DATA_HUB['glove.6b.100d'] = (d2l.DATA_URL + 'glove.6B.100d.zip',
                                 'cd43bfb07e44e6f27cbcc7bc9ae3d80284fdaf5a')

#@save
d2l.DATA_HUB['glove.42b.300d'] = (d2l.DATA_URL + 'glove.42B.300d.zip',
                                  'b5116e234e9eb9076672cfeabf5469f3eec904fa')

#@save
d2l.DATA_HUB['wiki.en'] = (d2l.DATA_URL + 'wiki.en.zip',
                           'c1816da3821ae9f43899be655002f6c723e91b88')

为了加载这些预训练的GloVe和fastText嵌入，我们定义了下面的 TokenEmbedding 类。

#@save
class TokenEmbedding:
    """Token Embedding."""
    def __init__(self, embedding_name):
        self.idx_to_token, self.idx_to_vec = self._load_embedding(
            embedding_name)
        self.unknown_idx = 0
        self.token_to_idx = {token: idx for idx, token in
                             enumerate(self.idx_to_token)}

    def _load_embedding(self, embedding_name):
        idx_to_token, idx_to_vec = ['<unk>'], []
        data_dir = d2l.download_extract(embedding_name)
        # GloVe website: https://nlp.stanford.edu/projects/glove/
        # fastText website: https://fasttext.cc/
        with open(os.path.join(data_dir, 'vec.txt'), 'r') as f:
            for line in f:
                elems = line.rstrip().split(' ')
                token, elems = elems[0], [float(elem) for elem in elems[1:]]
                # Skip header information, such as the top row in fastText
                if len(elems) > 1:
                    idx_to_token.append(token)
                    idx_to_vec.append(elems)
        idx_to_vec = [[0] * len(idx_to_vec[0])] + idx_to_vec
        return idx_to_token, torch.tensor(idx_to_vec)

    def __getitem__(self, tokens):
        indices = [self.token_to_idx.get(token, self.unknown_idx)
                   for token in tokens]
        vecs = self.idx_to_vec[torch.tensor(indices)]
        return vecs

    def __len__(self):
        return len(self.idx_to_token)

#@save
class TokenEmbedding:
    """Token Embedding."""
    def __init__(self, embedding_name):
        self.idx_to_token, self.idx_to_vec = self._load_embedding(
            embedding_name)
        self.unknown_idx = 0
        self.token_to_idx = {token: idx for idx, token in
                             enumerate(self.idx_to_token)}

    def _load_embedding(self, embedding_name):
        idx_to_token, idx_to_vec = ['<unk>'], []
        data_dir = d2l.download_extract(embedding_name)
        # GloVe website: https://nlp.stanford.edu/projects/glove/
        # fastText website: https://fasttext.cc/
        with open(os.path.join(data_dir, 'vec.txt'), 'r') as f:
            for line in f:
                elems = line.rstrip().split(' ')
                token, elems = elems[0], [float(elem) for elem in elems[1:]]
                # Skip header information, such as the top row in fastText
                if len(elems) > 1:
                    idx_to_token.append(token)
                    idx_to_vec.append(elems)
        idx_to_vec = [[0] * len(idx_to_vec[0])] + idx_to_vec
        return idx_to_token, np.array(idx_to_vec)

    def __getitem__(self, tokens):
        indices = [self.token_to_idx.get(token, self.unknown_idx)
                   for token in tokens]
        vecs = self.idx_to_vec[np.array(indices)]
        return vecs

    def __len__(self):
        return len(self.idx_to_token)

下面我们加载50维的GloVe嵌入（在维基百科子集上预训练）。在创建 TokenEmbedding 实例时，如果指定的嵌入文件尚未下载，则必须下载该文件。

glove_6b50d = TokenEmbedding('glove.6b.50d')

Downloading ../data/glove.6B.50d.zip from http://d2l-data.s3-accelerate.amazonaws.com/glove.6B.50d.zip...

glove_6b50d = TokenEmbedding('glove.6b.50d')

Downloading ../data/glove.6B.50d.zip from http://d2l-data.s3-accelerate.amazonaws.com/glove.6B.50d.zip...
[22:05:47] ../src/storage/storage.cc:196: Using Pooled (Naive) StorageManager for CPU

输出词表大小。词表中包含400000个单词（词元）和一个特殊的未知词元。

len(glove_6b50d)

len(glove_6b50d)

我们可以得到一个单词在词表中的索引，反之亦然。

glove_6b50d.token_to_idx['beautiful'], glove_6b50d.idx_to_token[3367]

(3367, 'beautiful')

glove_6b50d.token_to_idx['beautiful'], glove_6b50d.idx_to_token[3367]

(3367, 'beautiful')

15.7.2. 应用预训练词向量¶

使用加载的GloVe向量，我们将通过在以下词相似度和类比任务中应用它们来演示它们的语义。

15.7.2.1. 词相似度¶

与第 15.4.3 节类似，为了基于词向量之间的余弦相似度为输入词查找语义相似词，我们实现了下面的 knn （\(k\)-近邻）函数。

def knn(W, x, k):
    # Add 1e-9 for numerical stability
    cos = torch.mv(W, x.reshape(-1,)) / (
        torch.sqrt(torch.sum(W * W, axis=1) + 1e-9) *
        torch.sqrt((x * x).sum()))
    _, topk = torch.topk(cos, k=k)
    return topk, [cos[int(i)] for i in topk]

def knn(W, x, k):
    # Add 1e-9 for numerical stability
    cos = np.dot(W, x.reshape(-1,)) / (
        np.sqrt(np.sum(W * W, axis=1) + 1e-9) * np.sqrt((x * x).sum()))
    topk = npx.topk(cos, k=k, ret_typ='indices')
    return topk, [cos[int(i)] for i in topk]

然后，我们使用来自 TokenEmbedding 实例 embed 的预训练词向量来搜索相似的词。

def get_similar_tokens(query_token, k, embed):
    topk, cos = knn(embed.idx_to_vec, embed[[query_token]], k + 1)
    for i, c in zip(topk[1:], cos[1:]):  # Exclude the input word
        print(f'cosine sim={float(c):.3f}: {embed.idx_to_token[int(i)]}')

def get_similar_tokens(query_token, k, embed):
    topk, cos = knn(embed.idx_to_vec, embed[[query_token]], k + 1)
    for i, c in zip(topk[1:], cos[1:]):  # Exclude the input word
        print(f'cosine sim={float(c):.3f}: {embed.idx_to_token[int(i)]}')

glove_6b50d 中预训练词向量的词表包含400000个词和一个特殊的未知词元。排除输入词和未知词元，在这个词表中，我们来找与“chip”一词在语义上最相近的三个词。

get_similar_tokens('chip', 3, glove_6b50d)

cosine sim=0.856: chips
cosine sim=0.749: intel
cosine sim=0.749: electronics

get_similar_tokens('chip', 3, glove_6b50d)

cosine sim=0.856: chips
cosine sim=0.749: intel
cosine sim=0.749: electronics

下面输出与“baby”和“beautiful”相似的词。

get_similar_tokens('baby', 3, glove_6b50d)

cosine sim=0.839: babies
cosine sim=0.800: boy
cosine sim=0.792: girl

get_similar_tokens('beautiful', 3, glove_6b50d)

cosine sim=0.921: lovely
cosine sim=0.893: gorgeous
cosine sim=0.830: wonderful

get_similar_tokens('baby', 3, glove_6b50d)

cosine sim=0.839: babies
cosine sim=0.800: boy
cosine sim=0.792: girl

get_similar_tokens('beautiful', 3, glove_6b50d)

cosine sim=0.921: lovely
cosine sim=0.893: gorgeous
cosine sim=0.830: wonderful

15.7.2.2. 词类比¶

除了查找相似词，我们还可以将词向量应用于词类比任务。例如，“man” : “woman” :: “son” : “daughter” 是一个词类比的形式：“man”之于“woman”相当于“son”之于“daughter”。具体来说，词类比任务可以定义为：对于词类比 \(a : b :: c : d\)，给定前三个词 \(a\), \(b\) 和 \(c\)，找到 \(d\)。用 \(\textrm{vec}(w)\) 表示词 \(w\) 的向量。为了完成这个类比，我们将找到一个词，其向量与 \(\textrm{vec}(c)+\textrm{vec}(b)-\textrm{vec}(a)\) 的结果最相似。

def get_analogy(token_a, token_b, token_c, embed):
    vecs = embed[[token_a, token_b, token_c]]
    x = vecs[1] - vecs[0] + vecs[2]
    topk, cos = knn(embed.idx_to_vec, x, 1)
    return embed.idx_to_token[int(topk[0])]  # Remove unknown words

def get_analogy(token_a, token_b, token_c, embed):
    vecs = embed[[token_a, token_b, token_c]]
    x = vecs[1] - vecs[0] + vecs[2]
    topk, cos = knn(embed.idx_to_vec, x, 1)
    return embed.idx_to_token[int(topk[0])]  # Remove unknown words

让我们使用加载的词向量来验证“male-female”类比。

get_analogy('man', 'woman', 'son', glove_6b50d)

'daughter'

get_analogy('man', 'woman', 'son', glove_6b50d)

'daughter'

下面完成一个“capital-country”的类比：“beijing”:“china”::“tokyo”:“japan”。这表明预训练词向量中蕴含了语义信息。

get_analogy('beijing', 'china', 'tokyo', glove_6b50d)

'japan'

get_analogy('beijing', 'china', 'tokyo', glove_6b50d)

'japan'

对于“adjective-superlative adjective”（形容词-最高级形容词）的类比，例如“bad”:“worst”::“big”:“biggest”，我们可以看到预训练的词向量可能捕捉到了句法信息。

get_analogy('bad', 'worst', 'big', glove_6b50d)

'biggest'

get_analogy('bad', 'worst', 'big', glove_6b50d)

'biggest'

为了展示预训练词向量中捕捉到的过去时态的概念，我们可以使用“present tense-past tense”（现在时-过去时）的类比来测试句法：“do”:“did”::“go”:“went”。

get_analogy('do', 'did', 'go', glove_6b50d)

'went'

get_analogy('do', 'did', 'go', glove_6b50d)

'went'

15.7.3. 小结¶

在实践中，在大型语料库上预训练的词向量可以应用于下游自然语言处理任务。
预训练词向量可用于词相似度和词类比任务。

15.7.4. 练习¶

使用 TokenEmbedding('wiki.en') 测试fastText的结果。
当词汇量非常大时，我们如何能更快地找到相似词或完成词类比？

目录

15.7. 词相似性和类比

15.6. 子词嵌入

15.8. 来自Transformers的双向编码器表示（BERT）