谷歌和微软自然语言理解榜单中超越人类表现

时光月 2021-01-08 1909

电子说

1.3w人已加入

描述

近日，科技公司谷歌和微软相继在一份权威自然语言理解榜单中超越人类的表现，微软宣称这“标志着迈向通用人工智能的重要里程碑。”

自然语言理解（Natural Language Understanding，简称NLU）任务在人工智能领域历史悠久，被誉为“人工智能皇冠上的明珠”。由于自然语言本身存在的歧义性或多义性，实现高质量的自然语言理解有相当的难度。

为了衡量人工智能模型的自然语言理解能力，纽约大学、华盛顿大学、Facebook和DeepMind在2019年合作提出一个名为SuperGLUE的人工智能基准测试。SuperGLUE由2018年GLUE演化而来，其语言理解任务难度更大，包括问答、自然语言推理、指代消解和词义消歧等等。

SuperGLUE榜单

在最近更新的SuperGLUE上，微软的DeBERTa模型和谷歌的T5+Meena模型分列第一第二，超越人类基准线（human baseline）。这是人工智能首次在SuperGLUE中表现超越人类。

尽管在SuperGLUE测试上取得令人满意的结果，但微软坦言，DeBERTa模型还没有达到人类智能的自然语言理解水平。人类非常善于利用从不同任务中学到的知识来解决新的任务，这是AI模型需要学习的地方。

排名第一的微软模型DeBERTa共有15亿个参数。在SuperGLUE测试中，单个DeBERTa模型的宏观平均分（89.9分）超过了人类的表现（89.8分）；模型整体得分（90.3分）也超过人类基准线（89.8分），在SuperGLUE排名第一。排名第二的T5+Meena模型得分90.2，同样超过人类基准线（89.8分）。

在SuperGLUE测试中，人工智能模型被要求回答类似这样的问题：

已知“这个孩子对疾病产生了免疫力”，问“这是由什么导致的？”请选择：A.“他避免接触这种疾病”；或B.“他接种了这一疾病的疫苗”。

这是一个简单的因果推理任务，人类很容易选出正确答案。但对人工智能模型而言，却是不小的挑战。为了得出正确答案，模型需要理解已知条件和选项之间的因果关系。

责任编辑：PSY

2021年1月6日，微软在博客发文详细介绍此次取得榜首的DeBERTa模型。

DeBERTa全称Decoding-enhanced-BERT-with-disentangled attention，是一个基于Transformer架构的神经语言模型，采用自监督学习方法对大量原始文本语料库进行预训练。DeBERTa的目标是学习通用的语言表达形式，适用于各种自然语言理解任务。DeBERTa主要用到三种新技术，分别是分离注意力机制、增强的掩码解码器和用于微调的虚拟对抗训练方法。

排名第二的T5+Meena技术来自谷歌。谷歌团队尚未详细解释其模型在SuperGLUE创纪录的原因。但微软在博客文章中评价称，谷歌的T5模型由110亿个参数组成，相比之下，15亿参数的DeBERTa在训练和维护上更加节能，更容易压缩并部署到各种程序中。

微软正在将DeBERTa模型集成到下一代“图灵自然语言生成模型”（Turing NLRv4）中。下一步，他们准备向公众公开15亿参数的DeBERTa模型及其源代码。

打开APP阅读更多精彩内容