0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何优雅地使用bert处理长文本

深度学习自然语言处理 来源:深度学习自然语言处理 作者:wangThr 2020-12-26 09:17 次阅读

这是今年清华大学及阿里巴巴发表在NIPS 2020上的一篇论文《CogLTX: Applying BERT to Long Texts》,介绍了如何优雅地使用bert处理长文本。作者同时开源了不同NLP任务下使用COGLTX的代码:

论文题目:

CogLTX: Applying BERT to Long Texts

论文链接:

http://keg.cs.tsinghua.edu.cn/jietang/publications/NIPS20-Ding-et-al-CogLTX.pdf

Github:

https://github.com/Sleepychord/CogLTX

bert在长文本处理一般分为三种方法[1]:

截断法;

Pooling法;

压缩法。

该论文就是压缩法的一种,是三种方法中最好的。我们在科研和工作中都会遇到该问题,例如我最近关注的一个文本分类比赛:

面向数据安全治理的数据内容智能发现与分级分类 竞赛 - DataFountain[2].

其文本数据长度就都在3000左右,无法将其完整输入bert,使用COGLTX就可以很好地处理该问题,那么就一起来看看该论文具体是怎么做的吧。

1.背景

基于以下情形:

bert作为目前最优秀的PLM,不用是不可能的;

长文本数据普遍存在,且文本中包含的信息非常分散,难以使用滑动窗口[3]截断。

而由于bert消耗计算资源和时间随着token的长度是平方级别增长的,所以其无法处理太长的token,目前最长只支持512个token,token过长也很容易会内存溢出,所以在使用bert处理长文本时需要设计巧妙的方法来解决这个问题。

b48db3fa-4690-11eb-8b86-12bb97331649.jpg

2.提出模型

COGLTX模型在三类NLP任务中的结构如下:

b5408b9c-4690-11eb-8b86-12bb97331649.jpg

b5acc258-4690-11eb-8b86-12bb97331649.jpg

首先假设:存在短文本 可以完全表达原长文本 的语义:

那么令 代替 输入原来的模型即可,那么怎么找到这个 呢

1、使用动态规划算法将长文本 划分为文本块集合 ;

2、使用MemRecall对原长句中的子句进行打分,MemRecall结构如图,而表现如下式:

从而选择出分数最高的子句组成 再进行训练,这样一来的话,COGLTX相当于使用了了两个bert,MemRecall中bert就是负责打分,另一个bert执行原本的NLP任务。

可以发现刚才找到 例子将问题Q放在了初始化 的开头,但是并不是每个NLP任务都可以这么做,分类的时候就没有类似Q的监督,这时候COGLTX采用的策略是将每个子句从原句中移除判断其是否是必不可少的(t是一个阈值):

作者通过设计不同任务下的MemRecall实现了在长文本中使用bert并通过实验证明了方法的有效性。

3.实验

b63a5dd4-4690-11eb-8b86-12bb97331649.jpg

通过多维度地对比,证明了本文提出算法的有效性。

参考文献

[1]https://zhuanlan.zhihu.com/p/88944564

[2]https://www.datafountain.cn/competitions/471

[3]Z. Wang, P. Ng, X. Ma, R. Nallapati, and B. Xiang. Multi-passage bert: A globally normalized bert model for open-domain question answering. arXiv preprint arXiv:1908.08167, 2019.

责任编辑:xj

原文标题:【NIPS 2020】通过文本压缩,让BERT支持长文本

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 文本
    +关注

    关注

    0

    文章

    118

    浏览量

    17085
  • nlp
    nlp
    +关注

    关注

    1

    文章

    488

    浏览量

    22034

原文标题:【NIPS 2020】通过文本压缩,让BERT支持长文本

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    单日获客成本超20万,国产大模型开卷200万字以上的长文本处理

    更精准的推理和高并发流量以外,似乎已经没有太多值得厂商大肆宣传的特性了,直到最近超长文本处理的爆火。   国产大模型的新卷法,长文本处理   当下将大模型长文本处理炒热的,无疑是来自月之暗面的Kimi。作为去年发布的大模型,Ki
    的头像 发表于 03-27 00:53 3363次阅读
    单日获客成本超20万,国产大模型开卷200万字以上的<b class='flag-5'>长文本处理</b>

    如何使用自然语言处理分析文本数据

    使用自然语言处理(NLP)分析文本数据是一个复杂但系统的过程,涉及多个步骤和技术。以下是一个基本的流程,帮助你理解如何使用NLP来分析文本数据: 1. 数据收集 收集文本数据 :从各种
    的头像 发表于 12-05 15:27 271次阅读

    如何掌握Linux文本处理

    /from/sed_script: 从指定的文本中读取处理脚本 -r: 使用扩展正则表达式 sed命令选项 替换标记 g:表示行内全面替换 w:表示把行写入一个文件 x:表示互换模式
    的头像 发表于 11-10 13:40 171次阅读

    卷积神经网络在文本分类领域的应用

    在自然语言处理(NLP)领域,文本分类一直是一个重要的研究方向。随着深度学习技术的飞速发展,卷积神经网络(Convolutional Neural Network,简称CNN)在图像识别领域取得了
    的头像 发表于 07-01 16:25 717次阅读

    MiniMax推出“海螺AI”,支持超长文本处理

    近日,大模型公司MiniMax宣布,其全新产品“海螺AI”已正式上架。这款强大的AI工具支持高达200ktokens的上下文长度,能够在1秒内处理近3万字的文本
    的头像 发表于 05-17 09:30 735次阅读

    讯飞星火长文本功能全新升级

    科大讯飞近日宣布,其首个长文本、长图文、长语音大模型已完成全新升级。这一大模型不仅具备强大的学习能力,可以快速吸收海量文本、图文资料以及会议录音等多元化信息,更能在各行业场景中提供精准、专业的回答。
    的头像 发表于 05-06 11:22 555次阅读

    【大语言模型:原理与工程实践】大语言模型的基础技术

    模型架构奠定基础。然后,引介一些经典的预训练模型,如BERT、GPT等。最后,解读ChatGPT和LLaMA系列模型,帮助读者初步感知大语言模型。文本主要由词序列构成,词是自然语言处理的基本单元。
    发表于 05-05 12:17

    科大讯飞创新推出长文本、长图文、长语音大模型,解决落地难题

    近期,科大讯飞推出了首个支持长文本、长图及语音大数据处理的大模型,该系统融合了多元化数据源,包括海量文字、图片以及会议音频等,能为各行业场景提供专业化、精准化的答案。
    的头像 发表于 04-28 09:32 373次阅读

    讯飞星火大模型V3.5春季升级,多领域知识问答超越GPT-4 Turbo 

    刘庆峰指出,现如今,星火大模型在通用长文本处理能力方面已相当成熟,覆盖长文档信息抽取、知识问答、归纳总结、文本生成等诸多领域,整体表现已达GPT-4 Turbo今年4月最新版的97%水准;
    的头像 发表于 04-26 14:26 1043次阅读

    Kimi爆火背后的技术奥秘 大模型长文本能力的技术难点

    当用户认为在国内的大模型中,长文本=kimi的时候,除非竞争对手能以绝对的实力碾压几个量级,但凡与kimi打平或者是微弱超越,都很难威胁到kimi在用户心目中的地位。
    发表于 04-17 10:11 1246次阅读
    Kimi爆火背后的技术奥秘 大模型<b class='flag-5'>长文本</b>能力的技术难点

    OpenHarmony开发案例:【自定义通知】

    通知类型包括基本类型、长文本类型、多行文本类型、图片类型、带按钮的通知、点击可跳转到应用的通知。
    的头像 发表于 04-15 15:58 524次阅读
    OpenHarmony开发案例:【自定义通知】

    360开源70亿参数模型,助力360k长文本输入

    周鸿祎指出,近期大模型产业正在以数据量为竞争重点,百万字文本处理能力“有望成为未来标配”。他表示,360决定发布这项功能,以避免相关行业研发者重复投入精力,同时360K作为长度单位也是象征性的选择。
    的头像 发表于 03-29 15:54 407次阅读

    阿里通义千问重磅升级,免费开放1000万字长文处理功能

    近日,阿里巴巴旗下的人工智能应用通义千问迎来重磅升级,宣布向所有人免费开放1000万字的长文处理功能,这一创新举措使得通义千问成为全球文档处理容量第一的AI应用。
    的头像 发表于 03-26 11:09 786次阅读

    快速全面了解大模型长文本能力

    那关于LLM的长文本能力,目前业界通常都是怎么做的?有哪些技术点或者方向?今天我们就来总结一波,供大家快速全面了解。
    发表于 02-22 14:04 855次阅读
    快速全面了解大模型<b class='flag-5'>长文本</b>能力

    优雅停机是什么?SpringBoot+Nacos+k8s实现优雅停机

    优雅停机是什么?网上说的优雅下线、无损下线,都是一个意思。
    的头像 发表于 02-20 10:00 2042次阅读
    <b class='flag-5'>优雅</b>停机是什么?SpringBoot+Nacos+k8s实现<b class='flag-5'>优雅</b>停机