PyTorch教程10.7之用于机器翻译的编码器-解码器Seq2Seq-电子发烧友网

在所谓的 seq2seq 问题中，如机器翻译（如第 10.5 节所述），其中输入和输出均由可变长度的未对齐序列组成，我们通常依赖编码器-解码器架构（第10.6 节）。在本节中，我们将演示编码器-解码器架构在机器翻译任务中的应用，其中编码器和解码器均作为 RNN 实现（ Cho等人，2014 年，Sutskever等人，2014 年）。

在这里，编码器 RNN 将可变长度序列作为输入并将其转换为固定形状的隐藏状态。稍后，在第 11 节中，我们将介绍注意力机制，它允许我们访问编码输入，而无需将整个输入压缩为单个固定长度的表示形式。

然后，为了生成输出序列，一次一个标记，由一个单独的 RNN 组成的解码器模型将在给定输入序列和输出中的前一个标记的情况下预测每个连续的目标标记。在训练期间，解码器通常会以官方“ground-truth”标签中的前面标记为条件。然而，在测试时，我们希望根据已经预测的标记来调节解码器的每个输出。请注意，如果我们忽略编码器，则 seq2seq 架构中的解码器的行为就像普通语言模型一样。图 10.7.1说明了如何在机器翻译中使用两个 RNN 进行序列到序列学习。

https://file.elecfans.com/web2/M00/A9/C8/poYBAGR9N3mATR0fAAFvoV0b0sI161.svg

图 10.7.1使用 RNN 编码器和 RNN 解码器进行序列到序列学习。

在图 10.7.1中，特殊的“”标记标志着序列的结束。一旦生成此令牌，我们的模型就可以停止进行预测。在 RNN 解码器的初始时间步，有两个特殊的设计决策需要注意：首先，我们以特殊的序列开始“”标记开始每个输入。其次，我们可以在每个解码时间步将编码器的最终隐藏状态输入解码器（Cho等人，2014 年）。在其他一些设计中，例如Sutskever等人。( 2014 )，RNN 编码器的最终隐藏状态仅在第一个解码步骤用于启动解码器的隐藏状态。

						import collections
import math
import torch
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l

						 

						import collections
import math
from mxnet import autograd, gluon, init, np, npx
from mxnet.gluon import nn, rnn
from d2l import mxnet as d2l

npx.set_np()

						 

						import collections
import math
from functools import partial
import jax
import optax
from flax import linen as nn
from jax import numpy as jnp
from d2l import jax as d2l

						 

						import collections
import math
import tensorflow as tf
from d2l import tensorflow as d2l

						 

10.7.1。教师强迫

虽然在输入序列上运行编码器相对简单，但如何处理解码器的输入和输出则需要更加小心。最常见的方法有时称为 教师强制。在这里，原始目标序列（标记标签）作为输入被送入解码器。更具体地说，特殊的序列开始标记和原始目标序列（不包括最终标记）被连接起来作为解码器的输入，而解码器输出（用于训练的标签）是原始目标序列，移动了一个标记： “”，“Ils”，“regardent”，“。” →“Ils”、“regardent”、“.”、“”（图 10.7.1）。

我们在10.5.3 节中的实施为教师强制准备了训练数据，其中用于自监督学习的转移标记类似于9.3 节中的语言模型训练。另一种方法是将来自前一个时间步的预测标记作为当前输入提供给解码器。

下面，我们将更详细地解释图 10.7.1中描绘的设计。我们将在第 10.5 节中介绍的英语-法语数据集上训练该模型进行机器翻译。

10.7.2。编码器

回想一下，编码器将可变长度的输入序列转换为固定形状的上下文变量 c（见图 10.7.1）。

考虑一个单序列示例（批量大小 1）。假设输入序列是x1,…,xT, 这样xt是个 tth令牌。在时间步t, RNN 变换输入特征向量xt为了xt 和隐藏状态ht−1从上一次进入当前隐藏状态ht. 我们可以使用一个函数f表达RNN循环层的变换：

(10.7.1)ht=f(xt,ht−1).

通常，编码器通过自定义函数将所有时间步的隐藏状态转换为上下文变量q:

(10.7.2)c=q(h1,…,hT).

例如，在图 10.7.1中，上下文变量只是隐藏状态hT对应于编码器 RNN 在处理输入序列的最终标记后的表示。

在这个例子中，我们使用单向 RNN 来设计编码器，其中隐藏状态仅取决于隐藏状态时间步和之前的输入子序列。我们还可以使用双向 RNN 构建编码器。在这种情况下，隐藏状态取决于时间步长前后的子序列（包括当前时间步长的输入），它编码了整个序列的信息。

现在让我们来实现 RNN 编码器。请注意，我们使用嵌入层来获取输入序列中每个标记的特征向量。嵌入层的权重是一个矩阵，其中行数对应于输入词汇表的大小 ( vocab_size)，列数对应于特征向量的维度 ( embed_size)。对于任何输入令牌索引i，嵌入层获取ith权矩阵的行（从 0 开始）返回其特征向量。在这里，我们使用多层 GRU 实现编码器。

							def init_seq2seq(module): #@save
  """Initialize weights for Seq2Seq."""
  if type(module) == nn.Linear:
     nn.init.xavier_uniform_(module.weight)
  if type(module) == nn.GRU:
    for param in module._flat_weights_names:
      if "weight" in param:
        nn.init.xavier_uniform_(module._parameters[param])

class Seq2SeqEncoder(d2l.Encoder): #@save
  """The RNN encoder for sequence to sequence learning."""
  def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
         dropout=0):
    super().__init__()
    self.embedding = nn.Embedding(vocab_size, embed_size)
    self.rnn = d2l.GRU(embed_size, num_hiddens, num_layers, dropout)
    self.apply(init_seq2seq)

  def forward(self, X, *args):
    # X shape: (batch_size, num_steps)
    embs = self.embedding(X.t().type(torch.in
						

PyTorch教程10.7之用于机器翻译的编码器-解码器Seq2Seq

10.7.1。教师强迫

10.7.2。编码器

视频编码器与解码器的应用方案

TIR1000,TIR1000I编码器和解码器数据表

LDPC编码器解码器产品简介（v2.0）

PyTorch教程10.6之编码器-解码器架构

PyTorch教程10.5之机器翻译和数据集

1路编码器脉冲计数器或2路DI高速计数器，Modbus RTU模块 YL150

1路编码器脉冲计数器或2路DI高速计数器，Modbus RTU模块 YL150

信路达 解码器/编码器 XD74LS47数据手册

信路达 解码器/编码器 XD74LS48数据手册

stroke-seq_MB单手笔顺输入法码表

基于句子级上下文的神经机器翻译综述

基于DNN与规则学习的机器翻译算法综述

基于模板驱动的神经机器翻译模型综述

下载适用于Blackfin的JPEG解码器的生产版。

基于结构感知的双编码器解码器模型

解码器认证

基于短语的汉语维吾尔语机器翻译系统

船舶自动识别系统轨迹序列预测模型

AD938A：双HDMI接收机，多格式HDTV视频解码器和RGB图形编码器

基于双编码器网络结构的CGAtten-GRU模型

适用于PIC和AVR器件的JSON解码器

如何使用深度神经网络技术实现机器学习的全噪声自动编码器

VS1053B音频解码器的数据手册免费下载

Xilinx Logicore IP极轴编码器解码器产品指南资料免费下载

机器翻译系统融合技术概述

基于MCP2122下的红外编码 / 解码器

基于MCP2120下的红外编码 / 解码器

dsPIC33F系列参考手册之正交编码器接口（QEI）

立体声解码器的基本原理技术文档分享

智能编解码器TMS320DM365x的特点详细概述

光栅解码器四根信号线怎么接

自编码器的原理和类型

编码器好坏怎么判断,编码器原理

视频编码器与解码器的应用方案

YXC丨视频编码器与解码器的应用方案

视频编码器与解码器的应用方案

详解编码器和解码器威廉希尔官方网站

机器翻译研究进展

神经编码器-解码器模型的历史

基于 Transformers 的编码器-解码器模型

基于 RNN 的解码器架构如何建模

基于transformer的编码器-解码器模型的工作原理

PyTorch教程-10.7. 用于机器翻译的编码器-解码器 Seq2Seq

PyTorch教程-11.4. Bahdanau 注意力机制

PyTorch教程-10.5。机器翻译和数据集

PyTorch教程-10.6. 编码器-解码器架构

如何使用Linux seq命令

详解编码器和解码器威廉希尔官方网站 ：定义/工作原理/应用/真值表

Allegro DVT发布了其D3x0和E2x0解码器和编码器IP的新版本

浅析Google Research的LaserTagger和Seq2Edits

二进制解码器到底是什么

一文看懂NLP里的模型框架 Encoder-Decoder和Seq2Seq

NDI|HX2视频源通过视频解码器解码输出步骤的介绍

如此强大的机器翻译架构内部的运行机制究竟是怎样的？

高清解码器的作用

这款名为Seq2Seq-Vis的工具能将人工智能的翻译过程进行可视化

硬件编码器是什么，软件编码和硬件解码的区别

编码器和解码器的区别是什么，编码器用软件还是硬件好

关于tcp协议栈中rst报文的seq跳变问题

神经机器翻译的编码-解码架构有了新进展， 具体要怎么配置？

下载排行榜

UC3842/3/4/5电源管理芯片中文手册

DMT0660数字万用表产品说明书

STM32F101x8/STM32F101xB手册

华瑞昇CR216芯片数字万用表规格书附原理图及校正流程方法

TPS54202H降压转换器评估模块用户指南

HY12P65/HY12P66数字万用表芯片规格书

信路达解码器/编码器 XD74LS47数据手册

信路达解码器/编码器 XD74LS48数据手册

详解编码器和解码器威廉希尔官方网站：定义/工作原理/应用/真值表

神经机器翻译的编码-解码架构有了新进展，具体要怎么配置？