PyTorch教程15.7之词的相似性和类比-电子发烧友网

在15.4 节中，我们在一个小数据集上训练了一个 word2vec 模型，并将其应用于为输入词寻找语义相似的词。在实践中，在大型语料库上预训练的词向量可以应用于下游的自然语言处理任务，这将在第 16 节后面介绍。为了以直接的方式展示来自大型语料库的预训练词向量的语义，让我们将它们应用到词相似度和类比任务中。

						import os
import torch
from torch import nn
from d2l import torch as d2l

						 

						import os
from mxnet import np, npx
from d2l import mxnet as d2l

npx.set_np()

15.7.1。加载预训练词向量

下面列出了维度为 50、100 和 300 的预训练 GloVe 嵌入，可以从GloVe 网站下载。预训练的 fastText 嵌入有多种语言版本。这里我们考虑一个可以从fastText 网站下载的英文版本（300 维“wiki.en”）。

							#@save
d2l.DATA_HUB['glove.6b.50d'] = (d2l.DATA_URL + 'glove.6B.50d.zip',
                '0b8703943ccdb6eb788e6f091b8946e82231bc4d')

#@save
d2l.DATA_HUB['glove.6b.100d'] = (d2l.DATA_URL + 'glove.6B.100d.zip',
                 'cd43bfb07e44e6f27cbcc7bc9ae3d80284fdaf5a')

#@save
d2l.DATA_HUB['glove.42b.300d'] = (d2l.DATA_URL + 'glove.42B.300d.zip',
                 'b5116e234e9eb9076672cfeabf5469f3eec904fa')

#@save
d2l.DATA_HUB['wiki.en'] = (d2l.DATA_URL + 'wiki.en.zip',
              'c1816da3821ae9f43899be655002f6c723e91b88')

							 

							#@save
d2l.DATA_HUB['glove.6b.50d'] = (d2l.DATA_URL + 'glove.6B.50d.zip',
                '0b8703943ccdb6eb788e6f091b8946e82231bc4d')

#@save
d2l.DATA_HUB['glove.6b.100d'] = (d2l.DATA_URL + 'glove.6B.100d.zip',
                 'cd43bfb07e44e6f27cbcc7bc9ae3d80284fdaf5a')

#@save
d2l.DATA_HUB['glove.42b.300d'] = (d2l.DATA_URL + 'glove.42B.300d.zip',
                 'b5116e234e9eb9076672cfeabf5469f3eec904fa')

#@save
d2l.DATA_HUB['wiki.en'] = (d2l.DATA_URL + 'wiki.en.zip',
              'c1816da3821ae9f43899be655002f6c723e91b88')

							 

为了加载这些预训练的 GloVe 和 fastText 嵌入，我们定义了以下TokenEmbedding类。

							#@save
class TokenEmbedding:
  """Token Embedding."""
  def __init__(self, embedding_name):
    self.idx_to_token, self.idx_to_vec = self._load_embedding(
      embedding_name)
    self.unknown_idx = 0
    self.token_to_idx = {token: idx for idx, token in
               enumerate(self.idx_to_token)}

  def _load_embedding(self, embedding_name):
    idx_to_token, idx_to_vec = [''], []
    data_dir = d2l.download_extract(embedding_name)
    # GloVe website: https://nlp.stanford.edu/projects/glove/
    # fastText website: https://fasttext.cc/
    with open(os.path.join(data_dir, 'vec.txt'), 'r') as f:
      for line in f:
        elems = line.rstrip().split(' ')
        token, elems = elems[0], [float(elem) for elem in elems[1:]]
        # Skip header information, such as the top row in fastText
        if len(elems) > 1:
          idx_to_token.append(token)
          idx_to_vec.append(elems)
    idx_to_vec = [[0] * len(idx_to_vec[0])] + idx_to_vec
    return idx_to_token, torch.tensor(idx_to_vec)

  def __getitem__(self, tokens):
    indices = [self.token_to_idx.get(token, self.unknown_idx)
          for token in tokens]
    vecs = self.idx_to_vec[torch.tensor(indices)]
    return vecs

  def __len__(self):
    return len(self.idx_to_token)

							 

							#@save
class TokenEmbedding:
  """Token Embedding."""
  def __init__(self, embedding_name):
    self.idx_to_token, self.idx_to_vec = self._load_embedding(
      embedding_name)
    self.unknown_idx = 0
    self.token_to_idx = {token: idx for idx, token in
               enumerate(self.idx_to_token)}

  def _load_embedding(self, embedding_name):
    idx_to_token, idx_to_vec = [''], []
    data_dir = d2l.download_extract(embedding_name)
    # GloVe website: https://nlp.stanford.edu/projects/glove/
    # fastText website: https://fasttext.cc/
    with open(os.path.join(data_dir, 'vec.txt'), 'r') as f:
      for line in f:
        elems = line.rstrip().split(' ')
        token, elems = elems[0], [float(elem) for elem in elems[1:]]
        # Skip header information, such as the top row in fastText
        if len(elems) > 1:
          idx_to_token.append(token)
          idx_to_vec.append(elems)
    idx_to_vec = [[0] * len(idx_to_vec[0])] + idx_to_vec
    return idx_to_token, np.array(idx_to_vec)

  def __getitem__(self, tokens):
    indices = [self.token_to_idx.get(token, self.unknown_idx)
          for token in tokens]
    vecs = self.idx_to_vec[np.array(indices)]
    return vecs

  def __len__(self):
    return len(self.idx_to_token)

							 

下面我们加载 50 维 GloVe 嵌入（在维基百科子集上预训练）。创建TokenEmbedding实例时，如果尚未下载指定的嵌入文件，则必须下载。

							glove_6b50d = TokenEmbedding('glove.6b.50d')

							 

							Downloading ../data/glove.6B.50d.zip from http://d2l-data.s3-accelerate.amazonaws.com/glove.6B.50d.zip...

						

							glove_6b50d = TokenEmbedding('glove.6b.50d')

							 

							Downloading ../data/glove.6B.50d.zip from http://d2l-data.s3-accelerate.amazonaws.com/glove.6B.50d.zip...

						

输出词汇量。词汇表包含 400000 个单词（标记）和一个特殊的未知标记。

							len(glove_6b50d)

							 

							len(glove_6b50d)

							 

我们可以获得一个词在词汇表中的索引，反之亦然。

							glove_6b50d.token_to_idx['beautiful'], glove_6b50d.idx_to_token[3367]

							 

							(3367, 'beautiful')

						

							glove_6b50d.token_to_idx['beautiful'], glove_6b50d.idx_to_token[3367]

							 

							(3367, 'beautiful')

						

15.7.2。应用预训练词向量

使用加载的 GloVe 向量，我们将通过将它们应用于以下单词相似性和类比任务来演示它们的语义。

15.7.2.1。词相似度

与第 15.4.3 节类似，为了根据词向量之间的余弦相似度为输入词找到语义相似的词，我们实现以下knn （k-最近的邻居）功能。

								def knn(W, x, k):
  # Add 1e-9 for numerical stability
  cos = torch.mv(W, x.reshape(-1,)) / (
    torch.sqrt(torch.sum(W * W, axis=1) + 1e-9) *
    torch.sqrt((x * x).sum()))
  _, topk = torch.topk(cos, k=k)
  return topk, [cos[int(i)] for i in topk]

								 

								def knn(W, x, k):
  # Add 1e-9 for numerical stability
  cos = np.dot(W, x.reshape(-1,)) / (
    np.sqrt(np.sum(W * W, axis=1) + 1e-9) * np
							

PyTorch教程15.7之词的相似性和类比

15.7.1。加载预训练词向量

15.7.2。应用预训练词向量

15.7.2.1。词相似度

基于结构相似性可靠性监测结果

可编程IC的类型、主要功能、相似性和差异性

Effective PyTorch之 PyTorch基础知识（译）

一种改进的局部和相似度保持特征选择算法

基于路口相似度的信号配时控制算法

基于卷积神经网络的相似度计算模型

一种快速计算动态网络相似性的方法

基于通道间相关性的彩色图像超分辨率算法

基于神经网络和代码相似度的漏洞检测

以运动方向为主导的移动对象轨迹相似度度量

基于时空分析的交通路口相似度计算方法

基于安全性的成对约束扩充方法PCES

一种基于约束推导式的增强型相似性方法

基于生成器的图像分类对抗样本生成模型

时间序列的特征表示和相似性度量研究分析

基于节点多属性相似性聚类的社团划分算法SM-CD

针对协同过滤推荐算法的相似度计算方法

一种用于释义识别的句子相似度算法

基于矩阵分解的网络表示学习算法ANEMF

一种改进的聚类联合相似度推荐算法

一种针对数据泄露的匿名模型GDPPR

一种节点拓扑紧密型指标及链路预测方法

github上的pytorch学习资料详细说明

基于结构自相似性和形变块特征的单幅图像超分辨率算法

语言与编译器设计课程之词法分析程序源程序

如何使用会话时序相似性进行矩阵分解数据填充

如何使用三维矫正和相似性学习进行无约束人脸验证

耦合冲击滤波器的片相似性各向异性扩散模型

基于节点相似性社团结构划分

基于用户兴趣相似性的节点移动模型

pytorch怎么在pycharm中运行

PyTorch深度学习开发环境搭建指南

pytorch中有神经网络模型吗

PyTorch的介绍与使用案例

tensorflow和pytorch哪个更简单?

如何使用PyTorch建立网络模型

使用PyTorch构建神经网络

基于PyTorch AMD的解决方案

使用PyTorch加速图像分割

信号的相干性是什么

深度学习框架pytorch介绍

深入了解六种最重要的机器学习算法类型

PyTorch构建自己一种易用的计算图结构

TensorFlow和PyTorch的实际应用比较

苹果iOS15.7正式版的升级方法

PyTorch 的 Autograd 机制和使用

利用GPU和深度学习算法加速十亿向量相似性搜索

CS556X/7X/8X与SAR转换器的相似性和比较

基于PyTorch的深度学习入门教程之PyTorch的自动梯度计算

基于PyTorch的深度学习入门教程之PyTorch简单知识

基于PyTorch的深度学习入门教程之PyTorch重点综合实践

使用PyTorch提取CNNs图像特征

评价Python字符串相似度的六种度量方法

用于学习图结构对象相似性的图匹配网络

区块链理论和全息原理有怎样的相似性

一文解构PyTorch：深入了解PyTorch内部机制

浅谈保护物联网生态系统的重要性

计算文本相似度几种最常用的方法，并比较它们之间的性能

如何基于Tf-Idf词向量和余弦相似性根据字幕文件找出相似的TED演讲

关于Nodejs中最关键也是最难的异步编程做一些介绍和讲解

下载排行榜

UC3842/3/4/5电源管理芯片中文手册

DMT0660数字万用表产品说明书

STM32F101x8/STM32F101xB手册

华瑞昇CR216芯片数字万用表规格书附原理图及校正流程方法

TPS54202H降压转换器评估模块用户指南

HY12P65/HY12P66数字万用表芯片规格书