LLM在各种情感分析任务中的表现如何-电子发烧友网

最近几年，GPT-3、PaLM和GPT-4等LLM刷爆了各种NLP任务，特别是在zero-shot和few-shot方面表现出它们强大的性能。因此，情感分析(SA)领域也必然少不了LLM的影子，但是哪种LLM适用于SA任务依然是不清晰的。

论文：Sentiment Analysis in the Era of Large Language Models: A Reality Check
地址：https://arxiv.org/pdf/2305.15005.pdf
代码：https://github.com/DAMO-NLP-SG/LLM-Sentiment

这篇工作调查了LLM时代情感分析的研究现状，旨在帮助SA研究者们解决以下困惑：

LLM在各种情感分析任务中的表现如何？

与在特定数据集上训练的小模型(SLM)相比，LLM在zero-shot和few-shot方面的表现如何？

在LLM时代，当前的SA评估实践是否仍然适用？

实验

实验设置

1、调查任务和数据集

该工作对多种的SA任务进行了广泛调查，包括以下三种类型任务：情感分类(SC)、基于方面的情感分析(ABSA)和主观文本的多面分析(MAST)。

2、基线模型

Large Language Models (LLMs) LLM将直接用于SA任务的推理而没有特定的训练，本文从Flan模型家族中选取了两个模型，分别是Flan-T5(XXL版本，13B)和Flan-UL2(20B)。同时，采用了GPT-3.5家族两个模型，包括ChatGPT(gpt-3.5-turbo)和text-davinci-003(text-003，175B)。为了正确性预测，这些模型的温度设置为0。

Small Language Models (SLMs) 本文采用T5(large版本，770M)作为SLM。模型训练包括全训练集的方式和采样部分数据的few-shot方式，前者训练epoch为3而后者为100。采用Adam优化器并设置学习率为1e-4，所有任务的batch大小设置为4。为了稳定对比，为SLM构造3轮不同随机seed的训练，并采用其平均值作为结果。

3、Prompting策略

SC,ABSA,和MAST的提示实例。虚线框为few-shot设置，在zero-shot设置时删除。

为了评估LLM的通用能力，本文为不同模型采用相对一致的的propmts，这些propmts满足简单清晰直接的特性。对于zero-shot学习，propmt只包含任务名、任务定义和输出格式三个必要组件，而对于few-shot学习，将为每个类增加k个实例。

实验结果

1、Zero-shot结果
对于LLM，直接将其用于测试集上进行结果推理。对于SLM，先将其在完整训练集上fine-tuned然后再用于测试，从上图结果中可以观测到：

LLM在简单SA任务上表现出强大的zero-shot性能 从表中结果可以看到LLM的强大性能在SC和MAST任务上，而不需要任何的前置训练。同时也能观察到任务稍微困难一点，比如Yelp-5(类目增多)和，LLM就比fine-tuned模型落后很多。

更大的模型不一定导致更好的性能 从表中结果可以看到LLM对于SC和MAST任务表现较好，而且不需要任何的前置训练。但是也能观察到任务稍微困难一点，比如Yelp-5(类目增多)，LLM就比fine-tuned模型落后很多。

LLM难以提取细粒度的结构化情感和观点信息 从表中中间部分可以看出，Flan-T5和Flan-UL2在ABSA任务根本就不适用，而text-003和ChatGPT虽然取得了更好的结果，但是对于fine-tuned的SLM来说，依然是非常弱的。

RLHF可能导致意外现象 从表中可以观察到一个有趣现象，ChatGPT在检测仇恨、讽刺和攻击性语言方面表现不佳。即使与在许多其他任务上表现相似的text-003相比，ChatGPT在这三项任务上的表现仍然差得多。对此一个可能的解释是在ChatGPT的RLHF过程与人的偏好“过度一致”。这一发现强调了在这些领域进一步研究和改进的必要性。

2、Few-shot结果
本文采用了手中K-shot的设置：1-shot, 5-shot, 和10-shot。这些采样的实例分别作为LLM上下文学习实例以及SLM的训练数据。可以有如下发现：

在不同的few-shot设置下，LLM超越SLM 在三种few-shot设置中，LLM几乎在所有情况下都始终优于SLM。这一优势在ABSA任务中尤为明显，因为ABSA任务需要输出结构化的情感信息，SLM明显落后于LLM，这可能是由于在数据有限的情况下学习这种模式会变得更加困难。

SLM通过增加shot在多数任务性能得到持续提升 随着shot数目的增加，SLM在各种SA任务中表现出实质性的提升。这表明SLM能有效利用更多的示例实现更好的性能。任务复杂性也可以从图中观察到，T5模型用于情感分类任务性能逐渐趋于平稳，然而对于ABSA和MAST任务，性能继续增长，这表明需要更多的数据来捕捉其基本模式。

LLM shots的增加对不同任务产生不同结果 增加shot数目对LLM的影响因任务而异。对于像SC这种相对简单的任务，增加shot收益并不明显。此外，如MR和Twitter等数据集以及立场和比较任务，甚至随着shot的增加，性能受到阻碍，这可能是由于处理过长的上下文误导LLM的结果。然而，对于需要更深入、更精确的输出格式的ABSA任务，增加few数目大大提高了LLM的性能。这表明更多示例并不是所有任务的灵丹妙药，需要依赖任务的复杂性。

SA能力评估再思考

呼吁更全面的评估 目前大多数评估往往只关注特定的SA任务或数据集，虽然这些评估可以为LLM的情感分析能力的某些方面提供有用见解，但它们本身并没有捕捉到模型能力的全部广度和深度。这种限制不仅降低了评估结果的总体可靠性，而且限制了模型对不同SA场景的适应性。因此，本文试图在这项工作中对广泛的SA任务进行全面评估，并呼吁在未来对更广泛的SA工作进行更全面的评估。

呼吁更自然的模型交互方式 常规情感分析任务通常为一个句子配对相应的情感标签。这种格式有助于学习文本与其情感之间的映射关系，但可能不适合LLM，因为LLM通常是生成模型。在实践中不同的写作风格产生LLM解决SA任务的不同方式，所以在评估过程中考虑不同的表达以反映更现实的用例是至关重要的。这确保评估结果反映真实世界的互动，进而提供更可靠的见解。

prompt设计的敏感性 如图所示，即使在一些简单的SC任务上，prompt的变化也会对ChatGPT的性能产生实质性影响。当试图公平、稳定地测试LLM的SA能力时，与prompt相关的敏感性也带来了挑战。当各种研究在一系列LLM中对不同的SA任务使用不同的prompt时，挑战被进一步放大。与prompt相关的固有偏见使采用相同prompt的不同模型的公平对比变得复杂，因为单个prompt可能并不适用于所有模型。

为了缓解上述评估LLM的SA能力时的局限性，本文提出了SENTIEVAL基准，用于在LLM时代进行更好的SA评估，并利用各种LLM模型进行了再评估，结果如图所示。

总结

这项工作使用LLM对各种SA任务进行了系统评估，有助于更好地了解它们在SA问题中的能力。结果表明，虽然LLM在zero-shot下的简单任务中表现很好，但它们在处理更复杂的任务时会遇到困难。在few-shot下，LLM始终优于SLM，这表明它们在标注资源稀缺时的潜力。同时还强调了当前评估实践的局限性，然后引入了SENTIEVAL基准作为一种更全面、更现实的评估工具。

总体而言，大型语言模型为情感分析开辟了新的途径。虽然一些常规SA任务已经达到了接近人类的表现，但要全面理解人类的情感、观点和其他主观感受还有很长的路要走。LLM强大的文本理解能力为LLM时代情感分析探索之路提供了有效的工具和令人兴奋的研究方向。

审核编辑：彭静

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3243

浏览量
48836
数据集

数据集

+关注

关注
4

文章
1208

浏览量
24700
ChatGPT

ChatGPT

+关注

关注
29

文章
1560

浏览量
7664
LLM

LLM

+关注

关注
0

文章
288

浏览量
334

原文标题：ChatGPT时代情感分析还存在吗？一份真实调查

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

双目标函数支持向量机在情感分析中的应用

双目标函数支持向量机在情感分析中的应用_刘春雨

发表于 01-03 17:41 •0次下载

简单介绍ACL 2020中有关对象级情感分析的三篇文章

CL 2020中有关情感分析的文章主要集中在Sentiment Analysis, Stylistic Analysis, and Argument Miningwilliam hill官网

发表于 08-28 09:49 •6086次阅读

简单介绍ACL 2020<b class='flag-5'>中</b>有关对象级<b class='flag-5'>情感</b><b class='flag-5'>分析</b>的三篇文章

金融市场中的NLP 情感分析

的机器学习，而不是使用深层神经网络。 2018年，在一些NLP任务中，一种名为BERT的最先进（STOA）模型的表现超过了人类的得分。在这里，我将几个模型应用于情绪

发表于 11-02 16:18 •1978次阅读

将对话中的情感分类任务建模为序列标注并对情感一致性进行建模

本文是平安科技发表在ACL2020上的一篇论文，思路比较新颖，它将ERC任务看做序列标注任务，并对情感一致性进行建模。之前解决ERC的思路是利用上下文的话语特征预测对话

发表于 01-18 16:24 •3113次阅读

绍华为云在细粒度情感分析方面的实践

推荐、产品辅助决策、公司政府的舆情监测、服务评价等等。本文主要介绍情感分析的概念、应用、任务和方法，进一步会介绍华为云在细粒度情感

发表于 03-08 10:40 •1884次阅读

情感分析常用的知识有哪些呢？

一般的文本分类任务只提供句子或文档级别的情感标签，引入情感词典等先验情感知识可以给情感文本引入更细粒度监督信号，使得模型能学到更适合

发表于 04-15 14:22 •3391次阅读

<b class='flag-5'>情感</b><b class='flag-5'>分析</b>常用的知识有哪些呢？

图模型在方面级情感分析任务中的应用

方面级情感分析(Aspect-based Sentiment Analysis, ABSA)是一项细粒度的情感分析任务，主要针对句子级别的文

发表于 11-24 10:20 •1870次阅读

Macaw-LLM：具有图像、音频、视频和文本集成的多模态语言建模

尽管指令调整的大型语言模型 (LLM) 在各种 NLP 任务中表现出卓越的能力，但它们在文本以外

发表于 06-19 10:35 •1472次阅读

Macaw-<b class='flag-5'>LLM</b>：具有图像、音频、视频和文本集成的多模态语言建模

适用于各种NLP任务的开源LLM的finetune教程~

ChatGLM2-6b是清华开源的小尺寸LLM，只需要一块普通的显卡(32G较稳妥)即可推理和微调，是目前社区非常活跃的一个开源LLM。

发表于 07-24 09:04 •1719次阅读

适用于<b class='flag-5'>各种</b>NLP<b class='flag-5'>任务</b>的开源<b class='flag-5'>LLM</b>的finetune教程~

基于单一LLM的情感分析方法的局限性

LLM的发展为情感分析任务带来的新的解决方案。有研究人员使用LLM，在上下文学习(in-context learning, ICL)的范式下

发表于 11-23 11:14 •859次阅读

基于单一<b class='flag-5'>LLM</b>的<b class='flag-5'>情感</b><b class='flag-5'>分析</b>方法的局限性

如何利用OpenVINO加速LangChain中LLM任务

去完成一些更复杂的任务。简单来说，LangChain 可以让你的 LLM 在回答问题时参考自定义的知识库，实现更精确的答案输出。例如在以下这个Retrieval Augmented Generation

发表于 12-05 09:58 •813次阅读

LLM技术对人工智能发展的影响

。一、LLM技术在人工智能领域的应用自然语言处理（NLP） LLM技术在自然语言处理领域发挥着重要作用。通过训练模型识别和生成语言模式，LLM

发表于 11-08 09:28 •374次阅读

LLM技术的未来趋势分析

随着人工智能技术的飞速发展，大型语言模型（LLM）已经成为自然语言处理（NLP）领域的一个热点。这些模型通过分析和学习大量的文本数据，能够执行多种语言任务，如文本生成、翻译、问答和情感

发表于 11-08 09:35 •258次阅读

基于LSTM神经网络的情感分析方法

情感分析是自然语言处理（NLP）领域的一项重要任务，旨在识别和提取文本中的主观信息，如情感倾向、情感

发表于 11-13 10:15 •523次阅读

什么是LLM？LLM在自然语言处理中的应用

所未有的精度和效率处理和生成自然语言。 LLM的基本原理 LLM基于深度学习技术，尤其是变换器（Transformer）架构。变换器模型因其自注意力（Self-Attention）机制而闻名，这种机制使得模型能够捕捉文本中的长距

发表于 11-19 15:32 •574次阅读

搜索历史

LLM在各种情感分析任务中的表现如何

评论