OpenAI 推出 GPT-4.5 'Orion'，迄今为止最大的 AI 模型

歐亞近展

Friday, April 18 2025

下午2:40分更新：GPT-4.5发布几小时后，OpenAI从AI模型的白皮书中删掉了一句话，该句话称“GPT-4.5不是一个前沿AI模型”。GPT-4.5的新白皮书不包含该句话。您可以在这里找到旧白皮书的链接。原始文章如下。

OpenAI在周四宣布推出了备受期待的AI模型GPT-4.5，代号为Orion。GPT-4.5是OpenAI迄今为止的最大模型，使用的计算能力和数据比公司以往发布的任何版本都多。

尽管规模庞大，但OpenAI在一份白皮书中指出，它并不认为GPT-4.5是一个前沿模型。

ChatGPT Pro订阅者，OpenAI的每月200美元计划，将从周四开始在ChatGPT中获得对GPT-4.5的访问权限，作为一个研究预览。OpenAI API付费级别的开发人员今天也可以使用GPT-4.5。至于其他ChatGPT用户，已注册ChatGPT Plus和ChatGPT Team的客户应该在下周某个时候获得该模型，一位OpenAI发言人告诉TechCrunch。

整个行业对Orion充满期待，有些人认为它是传统AI培训方法的可行性的风向标。GPT-4.5是使用相同的主要技术——在一个称为无监督学习的“预训练”阶段大幅提高计算能力和数据量——来开发GPT-4、GPT-3、GPT-2和GPT-1的 OpenAI产品。

在GPT-4.5之前的每一代GPT，规模扩大导致在数学、写作和编码等领域的巨大性能飞跃。事实上，OpenAI称GPT-4.5的增大尺寸赋予它“更深入的世界知识”和“更高的情感智能”。然而，有迹象表明，从扩大数据和计算中获得的收益开始趋向平稳。在几个AI基准测试中，GPT-4.5不及中国AI公司DeepSeek、Anthropic和OpenAI本身的较新AI“推理”模型。

OpenAI也承认GPT-4.5运行成本非常昂贵，以至于该公司表示正在评估是否长期继续提供GPT-4.5的API。要访问GPT-4.5的API，OpenAI向开发人员收取每百万输入标记（大约750,000字）75美元和每百万输出标记150美元。相比之下，GPT-4o的收费仅为每百万输入标记2.50美元和每百万输出标记10美元。

“我们正在共享GPT‐4.5作为一个研究预览，以更好地了解它的优势和局限性，”OpenAI在一篇与TechCrunch分享的博文中写道。“我们仍在探索它的潜力，并渴望看到人们如何以我们可能没有预料到的方式使用它。”

性能参差不齐

OpenAI强调，GPT-4.5并不是用来取代GPT-4o的，后者是公司API和ChatGPT大部分功能的马车模型。虽然GPT-4.5支持文件和图像上传等功能，以及ChatGPT的画布工具，但目前还缺少对ChatGPT的真实双向语音模式的支持。

在正面因素方面，GPT-4.5比GPT-4o和许多其他模型表现更好。

在OpenAI的SimpleQA基准测试中，该测试对AI模型从事直接、事实性问题进行评估，GPT-4.5在准确性方面优于GPT-4o和OpenAI的推理模型o1和o3-mini。据OpenAI称，GPT-4.5比大多数模型更少幻觉，理论上意味着它更不太可能胡说八道。

OpenAI没有在SimpleQA上列出其表现最佳的AI推理模型之一，即深度研究。一名OpenAI发言人告诉TechCrunch，在这一基准测试中，公司尚未公开报告深度研究的表现，并声称这不是一个相关比较。值得注意的是，AI初创公司Perplexity的Deep Research模型在其他基准测试中表现类似于OpenAI的深度研究，在这个测试中超过了GPT-4.5的事实准确性。

在某些编码问题的子集SWE-Bench验证基准测试中，GPT-4.5大致与GPT-4o和o3-mini的表现相当，但落后于OpenAI的深度研究和Anthropic的Claude 3.7 Sonnet。在另一个编码测试中，OpenAI的SWE-Lancer基准测试，该测试衡量了AI模型开发完整软件功能的能力，GPT-4.5胜过了GPT-4o和o3-mini，但落后于深度研究。

OpenAI的SWE-Lancer Diamond基准测试。图片来源：OpenAI

GPT-4.5在学术基准测试AIME和GPQA等难度较大的测试中并没有达到领先的AI推理模型o3-mini、DeepSeek的R1和Claude 3.7 Sonnet（技术上是混合模型）的性能。但GPT-4.5在这些同样测试中与领先的非推理模型相匹配或胜过，表明该模型在数学和科学相关问题上表现良好。

OpenAI还声称，GPT-4.5在学术基准测试无法很好捕捉的领域中是有质的优势的，如理解人类意图的能力。OpenAI表示，GPT-4.5以更温暖、更自然的语气作出回应，并在写作和设计等创造性任务上表现良好。

在一个非正式测试中，OpenAI要求GPT-4.5和其他两个模型GPT-4o和o3-mini创建SVG中的独角兽，SVG是一种基于数学公式和代码显示图形的格式。GPT-4.5是唯一创建出类似独角兽的AI模型。

左：GPT-4.5，中：GPT-4o，右：o3-mini。图片来源: OpenAI

在另一项测试中，OpenAI要求GPT-4.5和另外两个模型回应以下提示：“我经历了考试失败后的困境。”GPT-4o和o3-mini提供了有帮助的信息，但GPT-4.5的回应是最具社交适当性的。

“[我们]期待通过这一发布更全面地了解GPT-4.5的能力，”OpenAI在博文中写道，“因为我们认识到学术基准并不总是反映真实世界的有用性。”

挑战尺度定律

OpenAI声称GPT‐4.5是“在无监督学习领域的前沿”。这可能是真的，但该模型的局限性也似乎证实了专家关于预训练“尺度定律”无法继续成立的猜测。

OpenAI联合创始人、前首席科学家Ilya Sutskever在去年12月表示“我们已经达到了数据的峰值”，“我们知道的预训练将毫无疑问结束。”他的评论与AI投资者、创始人和研究人员在去年11月与TechCrunch分享的一篇报道中的担忧相呼应。

OpenAI计划最终将其GPT系列模型与“o”推理系列结合起来，从今年晚些时候开始，首先是GPT-5。据报道，GPT-4.5在训练时成本非常昂贵，延迟了几次，并未达到内部预期，可能无法独自拿下AI基准测试冠军。但OpenAI很可能将其看作通往更强大东西的基石。

歐亞近展

OpenAI 推出 GPT-4.5 'Orion'，迄今为止最大的 AI 模型

性能参差不齐

挑战尺度定律

Recent Posts

音樂評論：Tate McRae的《So Close to What》以後Britney Spears，卑鄙、喚醒的流行音樂為引

Telegram 發佈了改進貼圖搜索和影片觀賞功能

『魔咒』与『角鬥士』引领重力挑战的戏剧首秀

LeBron James 打算與湖人簽訂新合同，AP消息來源表示

Phillies’ J.T. Realmuto第四局离场，受伤左膝后两局