5 月 28 日,微软在 Build 2024 大会上推出了最新的 Phi-3 系列成员——Phi-3-vision。这一工具主打视觉应用,能有效处理图片文字信息,且在移动设备上也能运行自如。
Phi-3-vision 是一种小型多模式语言模型(SLM),主要适用于本地人工智能场景。其模型参数高达 42 亿,上下文序列包含 128k 个符号,可满足各种视觉推理和其他任务需求。
Microsoft 通过一篇新发表的论文[PDF]展示了 Phi-3-vision 的强大实力。与其他模型如 Claude 3-haiku、Gemini 1.0 Pro 相比,Phi-3-vision 毫不逊色。
此外,Microsoft 还对 Phi-3-vision 进行了多项测试,并将其与其他竞品模型进行了比较,包括字节跳动的 Llama3-Llava-Next(8B)、微软研究院与威斯康星大学、哥伦比亚大学联合开发的 LlaVA-1.6(7B)以及阿里巴巴通义千问 QWEN-VL-Chat 模型等。结果表明,Phi-3-vision 在多个项目中的表现均十分出色。
-
微软
+关注
关注
4文章
6594浏览量
104054 -
人工智能
+关注
关注
1791文章
47259浏览量
238431 -
语言模型
+关注
关注
0文章
523浏览量
10277
发布评论请先 登录
相关推荐
评论