Qwen2强势来袭,AIBOX支持本地化部署

描述

Qwen2 是阿里通义推出的新一代多语言预训练模型,经过更深入的预训练和指令调整,在多个基准评测结果中表现出色,尤其在代码和数学方面有显著提升,同时拓展了上下文长度支持,最高可达128K。目前 AIBOX-1684X 已适配 Qwen2 系列模型,并已集成在 FireflyChat 对话应用中,开机即可体验。

 

 

 模型基础更新 

 

预训练和指令微调模型

Qwen2系列包含5个尺寸的预训练和指令微调模型,所有尺寸模型都使用了 GQA(分组查询注意力)机制,方便用户体验到推理加速和显存占用降低的优势。

模型

 

加强27种语言的训练数据

Qwen团队通过扩展多语言预训练和指令微调数据的规模,针对除中英文以外的27种语言进行加强,提升模型的多语言能力。

模型

 

 模型多方面测评 

模型

基准测评结果

相比 Qwen1.5,得益于预训练数据及训练方法的优化,Qwen2 在大模型实现大幅度的效果提升。在针对预训练语言模型的评估中,Qwen2-72B 在包括自然语言理解、知识、代码、数学及多语言等多项能力上均表现卓越。

模型

 

小模型方面,相比近期推出的领先模型,Qwen2-7B-Instruct 依然能在多个评测上取得显著的优势,尤其是代码及中文理解。

模型

 

代码和数学能力显著提升

代码方面,沿用 Qwen1.5 的代码能力,实现 Qwen2 在多种编程语言上的效果提升;数学方面,投入了大规模且高质量的训练数据提升 Qwen2-72B-Instruct 的数学解题能力。

模型

 

长文本处理

Qwen2 系列模型中较为关注的功能是它能够理解和处理扩展的上下文序列,对于冗长文档的应用程序,Qwen2 可以提供更准确、全面的响应,实现长文本自然语言高效处理。在 Needle in a Haystack 的测试集上显示:Qwen2-7B-Instruct 几乎完美地处理长达128k的上下文。

模型

 

 Qwen2-7B本地化部署 

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分