OpenAI:耐心时刻结束了!gpt-o1深度测评!
就在本周,OpenAI 高调发布了其最新模型「o1」的预览版,以及更小、更经济的「o1-mini」。这次发布不仅引起了广泛关注,也标志着OpenAI在高级推理领域的又一次重大突破。
我的AI工具(https://ai.quanyouhulian.com/#/news/index)也实时抓取到了该重大更新,大家可以收藏查看每日最新快讯
接下来,我将从:o1模型是什么、o1模型有哪些独特之处、o1模型测评表现,o1模型的产品定价、o1模型如何使用、o1模型的未来发展机会进行深度测评剖析!
o1模型是什么?
OpenAI o1模型是OpenAI公司最新发布的“Strawberry”系列AI大模型,这个强大的推理模型不仅包括高性能的OpenAI o1-preview版本,还有一个更小巧、成本更低的o1 mini版本。尽管目前处于「预览版」阶段,o1模型已经展示出惊人的潜力,能够解决比以往任何科学、代码和数学模型更复杂的问题。
o1 模型有哪些独特之处?
与之前的 GPT-4o 模型相比,o1 具有更强大的能力,**尤其在解决编程和数学等复杂问题上表现出色。**
OpenAI 采用了一种全新的「强化学习」方法来训练 o1,使其能够像人类一样进行逐步思考,花费更多时间来解决问题。通过这种方式,o1 学会了完善自己的思维过程,尝试不同的策略,并能识别和纠正自己的错误。
这些特点总结如下:
- 强化学习训练:通过强化学习技术,o1模型在处理复杂推理任务时展现出前所未有的效率。
- 复杂推理能力:擅长处理需要深入思考和多步骤逻辑推理的问题,尤其在数学、编程和科学领域表现卓越。
- 思维链机制:o1模型在回答问题前会进行内部的长链条逻辑推理,模拟人类的思考过程,提高解决问题的准确性。
- 自我纠错:具备识别并纠正自身错误的能力,通过训练过程中的反馈机制实现。
- 性能卓越:在多个专业基准测试中,o1模型的表现超越以往所有模型,包括在国际数学奥林匹克(IMO)资格考试中的优异成绩。
- 多模态理解:尽管主要专注于文本,o1模型也展现出处理多模态任务的潜力,如结合视觉信息进行推理。
- 安全性和可靠性:通过思维链技术提高模型的可解释性,便于监控和防止潜在的操纵行为。
- 成本效益:在提供高性能的同时,o1模型也注重成本效益,特别是o1-mini版本,旨在提供更经济的推理能力。
o1模型测评表现
为了验证 o1 的能力,OpenAI 使用了国际奥林匹克数学资格考试进行测试,结果显示 o1 的得分高达 83%,而 GPT-4o 仅为 13%。
- GPT-4o 的表现:平均只能解决 12% 的问题(15 题中的 1.8 题)。
- o1 的表现:
- 单次尝试:平均解决 74% 的问题(15 题中的 11.1 题)
- 64 次采样取共识:正确率提升至 83%(15 题中的 12.5 题)
- 1000 次采样后使用学习型评分函数重新排序:正确率高达 93%(15 题中的 13.9 题)
例如,困扰 ChatGPT 和其他 AI 机器人的「Strawberry 有几个 r」问题,o1 能够正确回答,但在「9.8 和 9.11 哪个大」的经典难题上依然表现不佳。
虽然 o1 目前还不具备浏览网页或处理文件和图像的能力,但在解决复杂问题上的表现已经令人瞩目。
不过,o1 在解决实际问题时展现了强大的逻辑推理能力,比如网友 @howie_serious 用 o1 模型做 2024 年高考数学卷
除了证明题没有测试外,其他题目均答对。
再来看下它对高中的微积分的题目解答推理效果如何:
可以看到推理清晰,也完美解答了问题!
文字识别
对于o1的文字识别效果,目前来看效果不是很理想,不确定是否是中文的原因,我们以徐志摩的散文进行测试,提示词如下
1 |
|
gpt4o测试结果
gpt o1-preview测试结果
gpt o1-mini测试结果
从结果来看生成的文字逻辑及合理性并没有得到多大提升,也可能是chatgpt对于中文的含义理解还不够,相信以后随着更多的知识库训练能让它下个版本得到进一步提升!
o1模型的产品定价
开发人员可以通过 API 调用 o1 模型,输入 tokens 每百万个价格为 15 美元(约合人民币 106.75 元),输出 tokens 每百万个价格为 60 美元(约合人民币 427 元),远高于 GPT-4o 的价格。
尽管价格较高,o1 的性能提升无疑使其在市场上具有竞争力。
经常关注我的老粉都知道,我的AI工具(https://ai.quanyouhulian.com/#/chat/1002)后台服务器是直接部署在英国,是直接使用的原生接口,**此o1目前已经适配完成!受限制于价格问题,后期针对部分高级用户开放o1体验权限!**
官网API接口调用定价
- o1-preview模型:
- 输入价格:每百万token 15美元,约合106.76人民币。
- 输出价格:每百万token 60美元,约合427.03人民币。
- o1-mini模型:
- 输入价格:每百万token 3美元,约合21.35人民币。
- 输出价格:每百万token 12美元,约合85.41人民币。
也可以直接使用chatgpt原生网页(https://openai.com/o1/)去使用,**打开需要特殊方式,如何访问可以翻看我之前文章或者进到AI工具去查看**
新模型的因为推理成本的原因,使用次数受到了大大的限制。o1-preview 的每周限制使用条数为 30 条消息。
OpenAI 没有具体说明 o1-mini 的参数量有多大,但通过技术文档可以看出,o1mini 版,和 o1 版上下文长度没有区别,甚至最大输出 token 数更高。
o1模型社区反馈与应用实例
数学家陶哲轩表示,o1 模型的体验类似于指导一个水平一般但不算太无能的研究生。虽然 o1 在处理最复杂的数学研究任务时仍然表现不佳,但其在其他领域的表现已经令人刮目相看。
网友 @real_kai42 尝试用 o1 模型解读加密文,经过 76 秒的思考,最终得出正确答案,展现出强大的逻辑推理能力。
此外,还有网友用 o1 模型在不到一分钟的时间内创建了一个 3D 版的贪吃蛇游戏
甚至搭配近期爆火的代码神器 Cursor 创建了一个 iOS 天气 APP,全程用时不到 10 分钟
o1模型工作原理
- 预训练与微调:在大规模文本数据集上进行预训练,然后通过微调适应特定任务或领域。
- 强化学习:通过奖励和惩罚机制优化模型行为。
- 思维链推理:构建内部的思维链,逐步思考问题的不同方面,模拟人类的推理过程。
- 自适应计算:根据问题复杂性动态调整计算资源的使用。
- 多步推理能力:执行一系列逻辑上相互关联的推理步骤。
- 自我监督学习:通过预测或生成数据中的某些部分提高对数据的理解。
- 错误识别与纠正:具备识别并纠正自身错误的能力。
- 安全性和对齐:整合安全规则和价值观,确保模型做出符合人类期望的决策。
安全性与未来发展
在使用 o1 模型时,OpenAI 对用户的行为进行了严格监控。**如果用户试图询问 o1 模型详细的思考过程及步骤,OpenAI 将发出警告邮件,甚至有部分网友因为试图「套话」o1 模型的完整思维链(CoT)而遭到封号**。
OpenAI 解释说,公司内部需要监测模型的思维过程,因此不能在这些原始 tokens 中加入安全限制,也就不方便让用户看到。
据《财富》杂志报道,OpenAI CEO Sam Altman 在一次全公司会议上透露,公司复杂的非营利性企业结构将发生变化,预计在明年某个时候会有新的进展。
未来的挑战与机遇
面对 Claude 3.5 等竞争对手的市场蚕食,OpenAI 通过发布 o1-preview(高级推理)和 o1-mini(更快的推理速度)两个版本,意在重新夺回市场份额。
o1 模型通过强化学习方法进行训练,能够在回答问题之前进行深入思考,并生成内部推理链。**模型在处理科学、编程和数学问题上展现出了超越以往模型的能力,在某些领域甚至超过了人类专家**。
结语
OpenAI o1 模型的发布无疑是人工智能领域的一大进步。虽然目前仍有一些功能尚未完善,但其在复杂推理和逻辑分析上的卓越表现已经为未来的发展奠定了坚实的基础。随着 AI 技术的不断进步,我们有理由期待 o1 在更多应用场景中展现出其强大的能力。
OpenAI o1 模型不仅是技术上的突破,更是对未来人工智能应用的一次重要探索。无论是科学研究、软件开发还是教育辅导,o1 都展现出了巨大的潜力。未来,**随着技术的不断成熟,o1 有望在更多领域发挥重要作用,推动人工智能的发展迈向新的高度。**