5月18日,北京智源研究院发布了关于国内外各类开/闭源语言及多模态大模型性能评估的最新研究成果。此项研究覆盖了140余个语言模型的综合实力对比,包括其对中文文本理解和多模态图文问答等任务的处理能力。
研究发现,尽管国内头部语言模型在中文环境中的整体表现已接近国际一流水平,但仍存在能力发展不平衡的问题。
在多模态理解图文问答任务中,开源和闭源模型表现相当,而国产模型则表现出色。此外,在中文语境下的文生图能力方面,国产多模态模型与国际一流水平的差距相对较小。
具体到语言模型的排名,在中文语境下,字节跳动的豆包Skylark2以及OpenAI的GPT-4分别名列第一和第二。值得注意的是,国产大模型在理解中国用户需求方面具有明显优势。
在语言模型客观评价中,OpenAI的GPT-4和百川智能的Baichuan3分列第一和第二。同时,百度的文心一言4.0、智谱华章的GLM-4以及月之暗面的Kimi也跻身语言模型主客观评价的前五名。
在多模态理解模型的客观评价中,图文问答方面,阿里巴巴的通义Qwen-vl-max和上海人工智能实验室的InternVL-Chat-V1.5在某些指标上超越了OpenAI的GPT-4,LLaVA-Next-Yi-34B和上海人工智能实验室的Intern-XComposer2-VL-7B紧随其后。
全部0条评论
快来发表一下你的评论吧 !