0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Instruct-UIE:信息抽取统一大模型

深度学习自然语言处理 来源:FudanNLP 2023-04-25 10:46 次阅读

复旦大学自然语言处理实验室桂韬、张奇课题组发布信息抽取统一大模型 Instruct-UIE,在领域大模型上取得突破性进展。Instruct-UIE 在信息抽取精度上全面大幅度超越ChatGPT以及基于预训练微调的单一小模型。

自2022年11月 ChatGPT 横空出世以来,其在对话、阅读理解、对话、代码生成等方面优异性能,受到了极大的关注。大模型所展现出来的长文本建模能力以及多任务统一学习能力使得自然语言处理范式正在发生快速变革。

在对 GPT 系列工作进行了详细分析[1][2]后,我们发现虽然 ChatGPT 在很多任务上都展现出了良好的性能,但是在包括命名实体识别、关系抽取、事件抽取等在工业界有广泛应用的信息抽取任务上效果却亟待提升。ChatGPT 在某些命名实体识别数据集合上的的精度甚至只有不到20%。但是大模型所展示出来的多任务统一学习能力,驱使我们针对信息抽取领域的统一大模开展了深入研究。

ae761038-ddc5-11ed-bfe3-dac502259ad0.png

实 验 结 果

针对信息抽取任务,我们收集了包括 ACE 2005、ConLL 2003 等在内的41种评测集合,针对Flan-T5、Bloomz、LLama 等大模型进行了系统研究,构建了信息抽取统一大模型Instruct-UIE。该模型在绝大部分信息抽取任务中(85%以上)都超越了单个小模型的预训练微调结果。

ae7bf44e-ddc5-11ed-bfe3-dac502259ad0.png

Instruct-UIE 统一了信息抽取任务训练方法,可以融合不同类型任务以及不同的标注规范,统一进行训练。针对新的任务需求,仅需要少量的数据进行增量式学习,即可完成模型的升级。

ae9af2cc-ddc5-11ed-bfe3-dac502259ad0.png

小模型时代任务,模型开发需要经过标注数据,训练模型,模型评测和模型部署等多个步骤。其显著缺点是成本高、时间周期长;相同任务的微小需求变化,需要30%-70%的重新开发成本;模型开发和维护成本高等问题都极大地制约了自然语言处理产品化。

而在大模型时代,我们可以将大量各类型任务,统一为生成式自然语言理解框架,并构造训练语料进行微调。由于大模型所展现出来的通用任务理解能力和未知任务泛化能力,使得未来自然语言处理的研究范式进一步发生变化。这样的研究范式使得小模型时代所面临的问题可以在一定程度上可以得到解决。针对新任务和需求,基于大模型的方法可以快速训练,并且不需要部署新的模型,从而实现自然语言处理的低成本产品化。

aea67dae-ddc5-11ed-bfe3-dac502259ad0.png

aeb022fa-ddc5-11ed-bfe3-dac502259ad0.png

InstructUIE 工作验证了领域大模型的可行性,针对B端场景,百亿级领域模型具有高效、成本低、可私有化部署等优势,在行业应用中具有广阔前景。我们将近期开源相关代码和模型。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3243

    浏览量

    48836
  • 自然语言处理

    关注

    1

    文章

    618

    浏览量

    13561
  • ChatGPT
    +关注

    关注

    29

    文章

    1560

    浏览量

    7664

原文标题:Instruct-UIE:信息抽取统一大模型

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    文本信息抽取的分阶段详细介绍

    系统基于已有的标注构建个学习模型,并用个条件概率分布进行表示。信息抽取系统则是根据得到的条件概率分布
    发表于 09-16 15:03

    基于子树广度的Web信息抽取

    提出种新的网页信息抽取方法,基于子树的广度可不加区分地对不同科技文献网站的页面信息进行自动抽取。对大量科技文献网站进行
    发表于 03-28 10:03 14次下载

    基于XML的WEB信息抽取模型设计

    对现有的信息抽取技术和XML 技术加以研究,在此基础上提出了适合XML 的通用的web 信息抽取模型,它能够把Web 上的数据
    发表于 12-22 13:56 17次下载

    基于HMM和小波神经网络混合模型的Web信息抽取_李少天

    基于HMM和小波神经网络混合模型的Web信息抽取_李少天
    发表于 03-19 11:38 0次下载

    使用神经网络进行微博情绪识别与诱因抽取联合模型的说明

    文本中表情符通常表达文本的情绪,提出了种基于双向长短期记忆条件随机场( Bi-LSTM-CRF)模型的情绪诱因和表情符情绪识别的联合模型。该模型将情绪诱因
    发表于 12-26 14:58 0次下载

    模型NLP事件抽取方法总结

    : Event Extraction as Definition Comprehension, EMNLP 2020[1] 动机 提出种新颖的事件抽取方法,为模型提供带有漂白语句(实体用通用的方式指代)的
    的头像 发表于 12-31 10:19 1w次阅读
    <b class='flag-5'>模型</b>NLP事件<b class='flag-5'>抽取</b>方法总结

    了解信息抽取必须要知道关系抽取

    当我们拿到信息抽取的任务,需要明确我们抽取的是什么,”今天天气真冷“,我们要抽的天气的状态天气-状态-冷,而非 今天-气候-冷(虽然也可以这样抽),因此
    的头像 发表于 04-15 14:32 2068次阅读
    了解<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>必须要知道关系<b class='flag-5'>抽取</b>

    基于篇章信息和Bi-GRU的事件抽取综述

    事件抽取信息抽取个重要的研究方向,其中事件检测是事件抽取的关键。目前,中文神经网络事件检测方法均是基于句子的方法,这种方法获得的局部上
    发表于 04-23 15:35 3次下载
    基于篇章<b class='flag-5'>信息</b>和Bi-GRU的事件<b class='flag-5'>抽取</b>综述

    统一的文本到结构生成框架——UIE

    众所周知,信息抽取(IE)是个从文本到结构的转换过程。常见的实体、关系、事件分别采取Span、Triplet、Record形式的异构结构。
    的头像 发表于 04-13 09:54 3381次阅读

    如何统一各种信息抽取任务的输入和输出

    信息抽取任务包括命名实体识别(NER)、关系抽取(RE)、事件抽取(EE)等各种各样的任务。
    的头像 发表于 09-20 15:25 1299次阅读

    基于统一语义匹配的通用信息抽取框架USM

    信息提取(Information Extraction,IE)需要提取句子中的实体、关系、事件等,其不同的任务具有多样的抽取目标和异质的机构,因此,传统的方法需要针对特定的任务进行模型设计和数据标注,使得难以推广到新的模式中,极
    的头像 发表于 01-16 10:21 1120次阅读

    介绍信息抽取的大统方法USM

    信息抽取任务具有多样的抽取目标和异构的结构,而传统的模型需要针对特定的任务进行任务设计和标签标注,这样非常的耗时耗力。
    的头像 发表于 02-15 14:13 824次阅读

    基于统一语义匹配的通用信息抽取框架-USM

    信息提取(Information Extraction,IE)需要提取句子中的实体、关系、事件等,其不同的任务具有多样的抽取目标和异质的机构,因此,传统的方法需要针对特定的任务进行模型设计和数据标注,使得难以推广到新的模式中,极
    的头像 发表于 02-22 11:09 853次阅读
    基于<b class='flag-5'>统一</b>语义匹配的通用<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>框架-USM

    最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发

    Mixtral 8x7B模型开源后,AI社区再次迎来一大波微调实践。来自Nous Research应用研究小组团队微调出新代大模型Nous-Hermes 2 Mixtral 8x7B
    的头像 发表于 01-30 15:29 938次阅读
    最佳开源<b class='flag-5'>模型</b>刷新多项SOTA,首次超越Mixtral <b class='flag-5'>Instruct</b>!「开源版GPT-4」家族迎来大爆发

    Stability AI发布Stable Code Instruct 3B大语言模型,可编译多种编程语言

    据报道,Stability AI公司近期推出了适配程序员使用的Stable Code Instruct 3B大语言模型,此款模型的显著特点是能够实现编程语言间的自如切换。
    的头像 发表于 03-27 10:04 497次阅读