电子说
OpenAI o1大模型震撼发布,号称秒杀GPT-4o、claude-3.5-sonnet、llama3.1-405b、deepseekv2.5、Qwen2?还超越了人类专家?
9月13日午夜(北京时间),OpenAI正式公开一系列全新AI大模型,这些模型旨在专门攻克各类难题。它们具备强大的复杂推理能力,作为通用模型,其所能解决问题的难度远超前代的科学、代码和数学模型。
o1便是此前OpenAI从山姆・奥特曼到各位科学家们一直大力“高调宣传”的草莓大模型。据了解,它具备真正意义上的通用推理能力。在一系列高难度的基准测试中,o1大模型展现出了令人惊叹的超强实力,相较于GPT-4o实现了巨大的跨越,使大模型的水平从不尽人意直接跃升至优秀级别。它无需专门训练就能在数学奥赛中斩获金牌,甚至在博士级别的科学问答环节中超越了人类专家。
不过,由于o1等大型语言模型是基于大量文本数据集进行预训练的,尽管它们蕴含了广泛的世界知识,但在实际应用中,可能存在成本高昂且运行速度较慢的问题。
因此,更多的企业或许会优先选择开源模型。
说到开源模型,大家在评估开源模型使用效果时,通常会使用哪些站点呢?
在此,我推荐我正在使用的两个平台:www.perfxcloud.cn和llmworld.net,PerfXCloud可以免费评估各类主流大模型,包括llama3.1-405b、deepseek,面壁小钢炮等各类主流大模型,llmworld上还有一些非常实用的AI小应用。
目前,o1-preview每位用户每周仅能发送30条消息,o1-mini每位用户每周仅能发送50条消息,我们都在期待正式上线后的价格公布。在llmworld.net上暂时还没有看到该模型的价格信息。
在人工智能飞速发展的当下,OpenAI的o1大模型无疑为我们带来了新的思考和挑战。一方面,我们惊叹于其强大的性能表现,另一方面也不得不面对其在实际应用中的局限性。
期待有更多优秀的开源模型崛起,为我们提供更多的选择和可能性!
审核编辑 黄宇
全部0条评论
快来发表一下你的评论吧 !