OpenAI o1大模型震撼发布，号称秒杀GPT-4o、claude-3.5-sonnet？还超越了人类专家？

胡优妮 2024-09-13 398

电子说

1.3w人已加入

描述

OpenAI o1大模型震撼发布，号称秒杀GPT-4o、claude-3.5-sonnet、llama3.1-405b、deepseekv2.5、Qwen2？还超越了人类专家？

9月13日午夜（北京时间），OpenAI正式公开一系列全新AI大模型,这些模型旨在专门攻克各类难题。它们具备强大的复杂推理能力，作为通用模型，其所能解决问题的难度远超前代的科学、代码和数学模型。

大模型

o1便是此前OpenAI从山姆・奥特曼到各位科学家们一直大力“高调宣传”的草莓大模型。据了解，它具备真正意义上的通用推理能力。在一系列高难度的基准测试中，o1大模型展现出了令人惊叹的超强实力，相较于GPT-4o实现了巨大的跨越，使大模型的水平从不尽人意直接跃升至优秀级别。它无需专门训练就能在数学奥赛中斩获金牌，甚至在博士级别的科学问答环节中超越了人类专家。

不过，由于o1等大型语言模型是基于大量文本数据集进行预训练的，尽管它们蕴含了广泛的世界知识，但在实际应用中，可能存在成本高昂且运行速度较慢的问题。

因此，更多的企业或许会优先选择开源模型。

说到开源模型，大家在评估开源模型使用效果时，通常会使用哪些站点呢？

在此，我推荐我正在使用的两个平台：www.perfxcloud.cn和llmworld.net，PerfXCloud可以免费评估各类主流大模型，包括llama3.1-405b、deepseek，面壁小钢炮等各类主流大模型，llmworld上还有一些非常实用的AI小应用。

大模型

目前，o1-preview每位用户每周仅能发送30条消息，o1-mini每位用户每周仅能发送50条消息，我们都在期待正式上线后的价格公布。在llmworld.net上暂时还没有看到该模型的价格信息。

大模型

在人工智能飞速发展的当下，OpenAI的o1大模型无疑为我们带来了新的思考和挑战。一方面，我们惊叹于其强大的性能表现，另一方面也不得不面对其在实际应用中的局限性。

期待有更多优秀的开源模型崛起，为我们提供更多的选择和可能性！

审核编辑黄宇

打开APP阅读更多精彩内容