OpenAI 推出 GPT-4.5 'Orion',迄今为止最大的 AI 模型

下午2:40分更新:GPT-4.5发布几小时后,OpenAI从AI模型的白皮书中删掉了一句话,该句话称“GPT-4.5不是一个前沿AI模型”。GPT-4.5的新白皮书不包含该句话。您可以在这里找到旧白皮书的链接。原始文章如下。

OpenAI在周四宣布推出了备受期待的AI模型GPT-4.5,代号为Orion。GPT-4.5是OpenAI迄今为止的最大模型,使用的计算能力和数据比公司以往发布的任何版本都多。

尽管规模庞大,但OpenAI在一份白皮书中指出,它并不认为GPT-4.5是一个前沿模型。

ChatGPT Pro订阅者,OpenAI的每月200美元计划,将从周四开始在ChatGPT中获得对GPT-4.5的访问权限,作为一个研究预览。OpenAI API付费级别的开发人员今天也可以使用GPT-4.5。至于其他ChatGPT用户,已注册ChatGPT Plus和ChatGPT Team的客户应该在下周某个时候获得该模型,一位OpenAI发言人告诉TechCrunch。

整个行业对Orion充满期待,有些人认为它是传统AI培训方法的可行性的风向标。GPT-4.5是使用相同的主要技术——在一个称为无监督学习的“预训练”阶段大幅提高计算能力和数据量——来开发GPT-4、GPT-3、GPT-2和GPT-1的 OpenAI产品。

在GPT-4.5之前的每一代GPT,规模扩大导致在数学、写作和编码等领域的巨大性能飞跃。事实上,OpenAI称GPT-4.5的增大尺寸赋予它“更深入的世界知识”和“更高的情感智能”。然而,有迹象表明,从扩大数据和计算中获得的收益开始趋向平稳。在几个AI基准测试中,GPT-4.5不及中国AI公司DeepSeek、Anthropic和OpenAI本身的较新AI“推理”模型。

OpenAI也承认GPT-4.5运行成本非常昂贵,以至于该公司表示正在评估是否长期继续提供GPT-4.5的API。要访问GPT-4.5的API,OpenAI向开发人员收取每百万输入标记(大约750,000字)75美元和每百万输出标记150美元。相比之下,GPT-4o的收费仅为每百万输入标记2.50美元和每百万输出标记10美元。

“我们正在共享GPT‐4.5作为一个研究预览,以更好地了解它的优势和局限性,”OpenAI在一篇与TechCrunch分享的博文中写道。“我们仍在探索它的潜力,并渴望看到人们如何以我们可能没有预料到的方式使用它。”

性能参差不齐

OpenAI强调,GPT-4.5并不是用来取代GPT-4o的,后者是公司API和ChatGPT大部分功能的马车模型。虽然GPT-4.5支持文件和图像上传等功能,以及ChatGPT的画布工具,但目前还缺少对ChatGPT的真实双向语音模式的支持。

在正面因素方面,GPT-4.5比GPT-4o和许多其他模型表现更好。

在OpenAI的SimpleQA基准测试中,该测试对AI模型从事直接、事实性问题进行评估,GPT-4.5在准确性方面优于GPT-4o和OpenAI的推理模型o1和o3-mini。据OpenAI称,GPT-4.5比大多数模型更少幻觉,理论上意味着它更不太可能胡说八道。

OpenAI没有在SimpleQA上列出其表现最佳的AI推理模型之一,即深度研究。一名OpenAI发言人告诉TechCrunch,在这一基准测试中,公司尚未公开报告深度研究的表现,并声称这不是一个相关比较。值得注意的是,AI初创公司Perplexity的Deep Research模型在其他基准测试中表现类似于OpenAI的深度研究,在这个测试中超过了GPT-4.5的事实准确性。

SimpleQA基准测试。图片来源:OpenAI

在某些编码问题的子集SWE-Bench验证基准测试中,GPT-4.5大致与GPT-4o和o3-mini的表现相当,但落后于OpenAI的深度研究和Anthropic的Claude 3.7 Sonnet。在另一个编码测试中,OpenAI的SWE-Lancer基准测试,该测试衡量了AI模型开发完整软件功能的能力,GPT-4.5胜过了GPT-4o和o3-mini,但落后于深度研究。

OpenAI的SWE-Bench验证基准测试。图片来源:OpenAI
OpenAI的SWE-Lancer Diamond基准测试。图片来源:OpenAI

GPT-4.5在学术基准测试AIME和GPQA等难度较大的测试中并没有达到领先的AI推理模型o3-mini、DeepSeek的R1和Claude 3.7 Sonnet(技术上是混合模型)的性能。但GPT-4.5在这些同样测试中与领先的非推理模型相匹配或胜过,表明该模型在数学和科学相关问题上表现良好。

OpenAI还声称,GPT-4.5在学术基准测试无法很好捕捉的领域中是有质的优势的,如理解人类意图的能力。OpenAI表示,GPT-4.5以更温暖、更自然的语气作出回应,并在写作和设计等创造性任务上表现良好。

在一个非正式测试中,OpenAI要求GPT-4.5和其他两个模型GPT-4o和o3-mini创建SVG中的独角兽,SVG是一种基于数学公式和代码显示图形的格式。GPT-4.5是唯一创建出类似独角兽的AI模型。

左:GPT-4.5,中:GPT-4o,右:o3-mini。图片来源: OpenAI

在另一项测试中,OpenAI要求GPT-4.5和另外两个模型回应以下提示:“我经历了考试失败后的困境。”GPT-4o和o3-mini提供了有帮助的信息,但GPT-4.5的回应是最具社交适当性的。

“[我们]期待通过这一发布更全面地了解GPT-4.5的能力,”OpenAI在博文中写道,“因为我们认识到学术基准并不总是反映真实世界的有用性。”

GPT-4.5的情感智能展现。图片来源: OpenAI

挑战尺度定律

OpenAI声称GPT‐4.5是“在无监督学习领域的前沿”。这可能是真的,但该模型的局限性也似乎证实了专家关于预训练“尺度定律”无法继续成立的猜测。

OpenAI联合创始人、前首席科学家Ilya Sutskever在去年12月表示“我们已经达到了数据的峰值”,“我们知道的预训练将毫无疑问结束。”他的评论与AI投资者、创始人和研究人员在去年11月与TechCrunch分享的一篇报道中的担忧相呼应。

OpenAI计划最终将其GPT系列模型与“o”推理系列结合起来,从今年晚些时候开始,首先是GPT-5。据报道,GPT-4.5在训练时成本非常昂贵,延迟了几次,并未达到内部预期,可能无法独自拿下AI基准测试冠军。但OpenAI很可能将其看作通往更强大东西的基石。