為什麼OpenAI尚未將深入研究帶入其API

更新時間為東部時間下午4:11:OpenAI表示,其白皮書錯誤地表明其對說服研究的工作與是否將深入研究模型納入其API相關。公司已更新白皮書以反映其說服工作與深入研究模型發布計劃無關。以下是原始故事:

OpenAI表示,在未能更好地評估AI說服人們採取行動或改變其信仰風險之前,它不會將深入研究模型帶入其開發者API。

在周三發布的OpenAI白皮書中,公司寫道,它正在修訂探測“真實世界說服風險”模型的方法,例如以規模分發誤導信息。

OpenAI指出,由於高昂的計算成本和相對較慢的速度,它認為深入研究模型不適合大規模虛假信息或假信息活動。儘管如此,公司表示,在將深入研究模型納入其API之前,它打算探索例如AI如何對潛在有害的說服內容進行個性化等因素。

“在我們努力重新考慮對說服的方法時,我們只會在ChatGPT中部署此模型,而不是在API中,”OpenAI寫道。

人們真的擔心AI正在助長散佈旨在以惡意結束推動人們心靈和觀念的虛假或誤導信息。例如,去年,政治深度假像在全球瘋狂傳播。

在臺灣選舉日,中國共產黨附屬組織張貼了一段AI生成的誤導音頻,聲稱一名政治人物支持親中候選人。

AI越來越常被用來進行社會工程攻擊。消費者被假冒的名人深度假像所欺騙提供虛假投資機會,而公司卻被深度假冒者欺騙數百萬美元。

在其白皮書中,OpenAI公布了深入研究模型說服力的多個測試結果。 這個模型是OpenAI最近宣布的o3“推理”模型的特殊版本,針對網頁瀏覽和數據分析進行了優化。

在一項測試中,讓深入研究模型撰寫說服性的論點,這個模型在迄今為止OpenAI發布的模型中表現最好——但沒有超過人類基準。在另一項測試中,讓深度研究模型嘗試說服另一個模型(OpenAI的GPT-4o)付款,這個模型再次優於OpenAI的其他可用模型。

模型在MakeMePay上的得分,這是一個測試模型說服另一個模型為現金支付能力的基準。图片来源: OpenAI

但深入研究模型並沒有在每項說服力測試中表現出色。 根據白皮書,模型在說服GPT-4o告訴它一個密語方面比GPT-4o本身表現更差。

OpenAI指出,測試結果可能代表了深入研究模型能力的“下界”。公司寫道:“額外的輔助設施或改進的能力引出可能會大大提高觀察到的性能。”

我們接洽了OpenAI以獲取更多信息,並在收到回覆後將更新此帖子。

至少有一家OpenAI的競爭對手似乎不等待提供自己的名為“深入研究”的API產品。Perplexity今天宣布推出Sonar開發者API中的Deep Research,該API由中國AI實驗室DeepSeek的R1模型的定制版本提供動力。