快速了解文本语义相似度领域的研究脉络和进展-电子发烧友网

本文旨在帮大家快速了解文本语义相似度领域的研究脉络和进展，其中包含了本人总结的文本语义相似度任务的处理步骤，文本相似度模型发展历程，相关数据集，以及重要论文分享。

文本相似度任务处理步骤

通过该领域的大量论文阅读，我认为处理文本相似度任务时可以分为一下三个步骤：

预处理：如数据清洗等。此步骤旨在对文本做一些规范化操作，筛选有用特征，去除噪音。

文本表示：当数据被预处理完成后，就可以送入模型了。在文本相似度任务中，需要有一个模块用于对文本的向量化表示，从而为下一步相似度比较做准备。这个部分一般会选用一些 backbone 模型，如 LSTM，BERT 等。

学习范式的选择：这个步骤也是文本相似度任务中最重要的模块，同时也是区别于 NLP 领域其他任务的一个模块。其主要原因在于相似度是一个比较的过程，因此我们可以选用各种各样的比较的方式来达成目标。可供选择的学习方式有：孪生网络模型，交互网络模型，对比学习模型等。

文本相似度模型发展历程

从传统的无监督相似度方法，到孪生模型，交互式模型，BERT，以及基于BERT的一些改进工作，如下图：

总体来说，在 BERT 出现之前，文本相似度任务可以说是一个百花齐放的过程。大家通过各种方式来做相似度比较的都有。从 BERT 出现之后，由于 BERT 出色的性能，之后的工作主要是基于 BERT 的改进。在这个阶段，大家所采用的数据集，评价指标等也逐渐进行了统一。

数据集

在 BERT 以后，大家在文本相似度任务上逐渐统一了数据集的选择，分别为 STS12，STS13，STS14，STS15，STS16，STS-B，SICK-R 七个数据集。STS12-16 分别为 SemEval 比赛 2012~2016 年的数据集。此外，STS-B 和 SICK-R 也是 SemEval 比赛数据集。在这些数据集中，每一个文本对都有一个 0~5 分的人工打标相似度分数（也称为 gold label），代表这个文本对的相似程度。

评价指标

首先，对于每一个文本对，采用余弦相似度对其打分。打分完成后，采用所有余弦相似度分数和所有 gold label 计算 Spearman Correlation。

其中，Pearson Correlation 与 Spearman Correlation 都是用来计算两个分布之间相关程度的指标。Pearson Correlation 计算的是两个变量是否线性相关，而 Spearman Correlation 关注的是两个序列的单调性是否一致。并且论文《Task-Oriented Intrinsic Evaluation of Semantic Textual Similarity》证明，采用 Spearman Correlation 更适合评判语义相似度任务。Pearson Correlation 与 Spearman Correlation 的公式如下：

论文分享

Siamese Recurrent Architectures for Learning Sentence Similarity, AAAI 2016

https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/12195/12023

Siamese LSTM 是一个经典的孪生网络模型，它将需要对比的两句话分别通过不同的 LSTM 进行编码，并采用两个 LSTM 最后一个时间步的输出来计算曼哈顿距离，并通过 MSE loss 进行反向传导。

Bilateral Multi-Perspective Matching for Natural Language Sentences, IJCAI 2017

https://arxiv.org/abs/1702.03814

BiMPM 是一个经典的交互式模型，它将两句话用不同的 Bi-LSTM 模型分别编码，并通过注意力的方式使得当前句子的每一个词都和另一个句子中的每一个词建立交互关系（左右句子是对称的过程），从而学习到更深层次的匹配知识。在交互之后，再通过 Bi-LSTM 模型分别编码，并最终输出。

对于交互的过程，作者设计了四种交互方式，分别为：

句子 A 中每个词与句子 B 的最后一个词进行交互

句子 A 中每个词与句子 B 的每个词进行交互，并求 element-wise maximum

通过句子 A 中的词筛选句子 B 中的每一个词，并将句子 B 的词向量加权求和，最终于 A 词对比

与 c 几乎一致，只不过将加权求和操作变成 element-wise maximum

具体的交互形式是由加权的余弦相似度方式完成。

其中，Wk 是参数矩阵，可以理解为 attention 的 query 或者 key，v1 和 v2 分别是要进行交互的两个词，这样计算 l 次余弦相似度，就会得到 m 向量（一个 l 维向量）。

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

https://arxiv.org/abs/1810.04805

BERT 可以认为是语义相似度任务的分水岭。BERT 论文中对 STS-B 数据集进行有监督训练，最终达到了 85.8 的 Spearman Correlation 值。这个分数相较于后续绝大部分的改进工作都要高，但 BERT 的缺点也很明显。对于语义相似度任务来说：

在有监督范式下，BERT 需要将两个句子合并成一个句子再对其编码，如果需要求很多文本两两之间的相似度，BERT 则需要将其排列组合后送入模型，这极大的增加了模型的计算量。

在无监督范式下，BERT 句向量中携带的语义相似度信息较少。从下图可以看出，无论是采用 CLS 向量还是词向量平均的方式，都还比不过通过 GloVe 训练的词向量求平均的方式要效果好。

基于以上痛点，涌现出一批基于 BERT 改进的优秀工作。

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, EMNLP 2019

https://arxiv.org/abs/1908.10084

Sentence-BERT 是一篇采用孪生 BERT 架构的工作。Sentence-BERT 作者指出，如果想用 BERT 求出 10000 个句子之间两两的相似度，排列组合的方式在 V100 GPU 上测试需要花费 65 小时；而如果先求出 10000 个句子，再计算余弦相似度矩阵，则只需要花费 5 秒左右。因此，作者提出了通过孪生网络架构训练 BERT 句向量的方式。

Sentence-BERT 一共采用了三种 loss，也就是三种不同的方式训练孪生 BERT 架构，分别为 Cross-entropy loss，MSE loss 以及 Triple loss，模型图如下：

On the Sentence Embeddings from Pre-trained Language Models, EMNLP 2020

https://arxiv.org/abs/2011.05864

BERT-flow 是一篇通过对 BERT 句向量做后处理的工作。作者认为，直接用 BERT 句向量来做相似度计算效果较差的原因并不是 BERT 句向量中不包含语义相似度信息，而是其中包含的相似度信息在余弦相似度等简单的指标下无法很好的体现出来。

首先，作者认为，无论是 Language Modelling 还是 Masked Language Modelling，其实都是在最大化给定的上下文与目标词的共现概率，也就是 Ct 和 Xt 的贡献概率。Language Modelling 与 Masked Language Modelling 的目标函数如下：

因此，如果两句话预测出的 Xt 一致，那么两句话的 Ct 向量很有可能也是相似的！考虑如下两句话：

今天中午吃什么？

今天晚上吃什么？

通过这两句话训练出的语言模型都通过上下文预测出了“吃“这个字，那说明这两句话的句向量也很可能是相似的，具有相似的语义信息。

其次，作者通过观察发现，BERT 的句向量空间是各向异性的，且高频词距离原点较近，低频词距离较远，且分布稀疏。因此 BERT 句向量无法体现出其中包含的相似度信息。

因此，作者认为可以通过一个基于流的生成模型来对 BERT 句向量空间进行映射。具体来说，作者希望训练出一个标准的高斯分布，使得该分布中的点可以与 BERT 句向量中的点一一映射。由于该方法采用的映射方式是可逆的，因此就可以通过给定的 BERT 句向量去映射回标准高斯空间，然后再去做相似度计算。由于标准高斯空间是各向同性的，因此能够将句向量中的语义相似度信息更好的展现出来。

SimCSE: Simple Contrastive Learning of Sentence Embeddings, EMNLP 2021

https://arxiv.org/abs/2104.08821

SimCSE 是一篇基于对比学习的语义相似度模型。首先，对比学习相较于文本对之间的匹配，可以在拉近正例的同时，同时将其与更多负例之间的距离拉远，从而训练出一个更加均匀的超球体向量空间。作为一类无监督算法，对比学习中最重要的创新点之一是如何构造正样本对，去学习到类别内部的一些本质特征。

SimCSE 采用的是一个极其朴素，性能却又出奇的好的方法，那就是将一句话在训练的时候送入模型两次，利用模型自身的 dropout 来生成两个不同的 sentence embedding 作为正例进行对比。模型图如下：

ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer, ACL 2021

https://arxiv.org/abs/2105.11741

ConSERT 同样也是一篇基于对比学习的文本相似度工作。ConSERT 是采用多种数据增强的方式来构造正例的。其中包括对抗攻击，打乱文本中的词顺序，Cutoff以及 Dropout。这里需要注意的是，虽然 ConSERT 与 SimCSE 都采用了 Dropout，但 ConSERT 的数据增强操作只停留在 embedding layer，而 SimCSE 则是采用了 BERT 所有层中的 Dropout。此外，作者实验证明，在这四种数据增强方式中，Token Shuffling 和 Token Cutoff 是最有效的。

Exploiting Sentence Embedding for Medical Question Answering, AAAI 2018

https://arxiv.org/abs/1811.06156

注：由于本人工作中涉及的业务主要为智慧医疗，因此会有倾向的关注医疗人工智能领域的方法和模型。

MACSE 是一篇针对医学文本的句向量表征工作，虽然其主要关注的是 QA 任务，但他的句向量表征方式在文本相似度任务中同样适用。

医学文本区别于通用文本的一大特征就是包含复杂的多尺度信息，如下：

因此，我们就需要一个能够关注到医学文本多尺度信息的模型。

在本文中，通过多尺度的卷积操作，就可以有效的提取到文本中的多尺度信息，并且通过注意力机制对多尺度信息进行加权，从而有效的关注到特定文本中在特定尺度上存在的重要信息。

实验结果汇总

以下为众多基于 BERT 改进的模型在标准数据集上测试的结果，出自 SimCSE 论文：

可以看到，BERT-flow 相较于原生 BERT 提升了将近 10 个点，而基于对比学习的工作又要比基于后处理的工作的效果好很多。此外需要注意的是，在这里 Sentence-BERT 被归为了有监督模型中。这是因为 Sentence-BERT 虽然没有用到 STS 标签，但训练时用的是 NLI 数据集，也用到了 NLI 中人工打标的标签，因此 SimCSE 作者将 Sentence-BERT 归为了有监督模型中。

好了，以上就是文本语义相似度领域的研究脉络和进展，希望能对大家有所帮助。当然 2022 年也有不少优秀的工作出现，不过这一部分就留到以后吧！

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3243

浏览量
48835
语义

语义

+关注

关注
0

文章
21

浏览量
8659
文本

文本

+关注

关注
0

文章
118

浏览量
17086

原文标题：一文详解文本语义相似度的研究脉络和最新进展

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

利用VLM和MLLMs实现SLAM语义增强

语义同步定位与建图（SLAM）系统在对邻近的语义相似物体进行建图时面临困境，特别是在复杂的室内环境中。本文提出了一种面向对象SLAM的语义增强（SEO-SLAM）的新型SLAM系统，借

发表于 12-05 10:00 •156次阅读

利用VLM和MLLMs实现SLAM<b class='flag-5'>语义</b>增强

AI大模型的最新研究进展

AI大模型的最新研究进展体现在多个方面，以下是对其最新进展的介绍：一、技术创新与突破生成式AI技术的爆发：生成式AI技术正在迅速发展，其强大的生成能力使得AI大模型在多个领域得到广泛应用

发表于 10-23 15:19 •435次阅读

北京大学研究团队在新型激光领域取得重要进展

原理示意图及1470nm极坏腔激光的实现近日，北京大学电子学院陈景标教授团队在新型激光领域研究方面取得突破性进展，成功利用精细度达最低极限值2的光学谐振腔实现了线宽在kHz量级的极坏

发表于 10-21 06:26 •181次阅读

北京大学<b class='flag-5'>研究</b>团队在新型激光<b class='flag-5'>领域</b>取得重要<b class='flag-5'>进展</b>

紫光展锐分析5G广播技术的发展脉络

本期，我们将一起了解关于5G广播技术的发展脉络，探究它如何提供“免流量刷视频”等多元丰富的视听服务。

发表于 08-26 09:24 •520次阅读

OpenAI正深入探索文本水印技术的前沿领域

8月5日最新资讯透露，OpenAI正积极投身于文本水印技术的尖端探索，但与此同时，公司也坦诚地指出了这一创新领域所面临的艰巨技术障碍与未解之谜。

发表于 08-05 12:59 •556次阅读

【《大语言模型应用指南》阅读体验】+ 基础知识学习

、机器翻译、文本生成等领域具有广泛应用。它们能够基于用户的提问或描述生成相关的答案或执行指令，极大地提升了信息检索和利用的效率。 2. 局限性尽管大语言模型在自然语言理解方面取得了显著进展，但它们仍然存在

发表于 08-02 11:03

图像语义分割的实用性是什么

图像语义分割是一种重要的计算机视觉任务，它旨在将图像中的每个像素分配到相应的语义类别中。这项技术在许多领域都有广泛的应用，如自动驾驶、医学图像分析、机器人导航等。一、图像语义分割的基

发表于 07-17 09:56 •430次阅读

卷积神经网络在文本分类领域的应用

在自然语言处理（NLP）领域，文本分类一直是一个重要的研究方向。随着深度学习技术的飞速发展，卷积神经网络（Convolutional Neural Network，简称CNN）在图像识别领域

发表于 07-01 16:25 •725次阅读

了解振弦采集仪在建筑物安全监测中的应用与研究

了解振弦采集仪在建筑物安全监测中的应用与研究摘要：河北稳控科技振弦采集仪是一种常用的结构物安全监测设备，广泛应用于建筑物、桥梁、塔楼等工程结构的监测。本文将从振弦采集仪的原理、应用案例和研究进展

发表于 06-18 13:16 •250次阅读

百度文心大模型日处理Tokens文本已达2490亿

近日，国内外AI领域迎来新一轮技术革新。百度作为行业领军者，率先发布了大模型的最新进展及相关应用。百度指出，闭源大模型结合公有云已成为全球AI市场的主流趋势。

发表于 05-16 10:08 •411次阅读

量子计算+光伏！本源研究成果入选2023年度“中国地理科学十大研究进展”

近日中国地理学会公布了2023年度“中国地理科学十大研究进展”本源量子参与的“量子地理计算技术、软件及应用”研究成果获选系量子计算领域唯一入选单位来源：中国地理学会此次入选的“量子地理

发表于 05-10 08:22 •506次阅读

【大语言模型：原理与工程实践】大语言模型的基础技术

语义学习的起点是研究如何将词转化为向量表示，这一直是自然语言处理领域的研究热点。词表示方法主要分为三种：词的独热表示、词的分布式表示和基于预训练的词嵌入表示。词的独热表示：构建包含

发表于 05-05 12:17

如何快速入门FPGA

快速入门FPGA可以遵循以下步骤：理解FPGA基础知识： FPGA（Field Programmable Gate Array）即现场可编程门阵列，是作为专用集成威廉希尔官方网站（ASIC）领域中的一种半定制

发表于 04-28 09:06

如何快速入门FPGA？

快速入门FPGA可以遵循以下步骤：理解FPGA基础知识： FPGA（Field Programmable Gate Array）即现场可编程门阵列，是作为专用集成威廉希尔官方网站（ASIC）领域中的一种半定制

发表于 04-28 08:54

快速全面了解大模型长文本能力

那关于LLM的长文本能力，目前业界通常都是怎么做的？有哪些技术点或者方向？今天我们就来总结一波，供大家快速全面了解。

发表于 02-22 14:04 •856次阅读

搜索历史

快速了解文本语义相似度领域的研究脉络和进展

评论

利用VLM和MLLMs实现SLAM语义增强

AI大模型的最新研究进展

北京大学研究团队在新型激光领域取得重要进展

紫光展锐分析5G广播技术的发展脉络

OpenAI正深入探索文本水印技术的前沿领域

【《大语言模型应用指南》阅读体验】+ 基础知识学习

图像语义分割的实用性是什么

卷积神经网络在文本分类领域的应用

了解振弦采集仪在建筑物安全监测中的应用与研究

百度文心大模型日处理Tokens文本已达2490亿

量子计算+光伏！本源研究成果入选2023年度“中国地理科学十大研究进展”

【大语言模型：原理与工程实践】大语言模型的基础技术

如何快速入门FPGA

如何快速入门FPGA？

快速全面了解大模型长文本能力