
致力於AI的AI初創公司Cohere的非營利研究實驗室本週發布了一個多模式的“開放”AI模型Aya Vision,該實驗室聲稱是頂尖的。
Aya Vision可以執行撰寫圖像標題、回答有關照片的問題、翻譯文字和生成23種主要語言的摘要等任務。Cohere還通過WhatsApp免費提供Aya Vision,稱其為“使技術突破可供全球研究人員使用的重要一步。”
“盡管AI已經取得了重大進展,但在不同語言之間模型表現的差距仍然很大 - 這在涉及文本和圖像的多模態任務中變得更加明顯,”Cohere在博客文章中寫道。“Aya Vision的目標是明確幫助縮小這一差距。”
Aya Vision有兩種版本:Aya Vision 32B和Aya Vision 8B。兩者中更複雜的Aya Vision 32B,Cohere表示設置了一個“新的前沿”,在某些視覺理解基準上比其2倍大小的模型表現更好,包括Meta的Llama-3.2的90B Vision。與此同時,根據Cohere的說法,Aya Vision 8B在某些評估中比其10倍大小的模型表現更好。
這兩個模型都在AI開發平台Hugging Face上以Cohere的可接受使用補充條款的創意共用4.0許可證下提供。它們不能用於商業應用。
Cohere表示,Aya Vision是使用“多樣的英語數據集”進行訓練的,該實驗室將其翻譯並用於創建合成的標註。標註,也被稱為標籤,能夠幫助模型在訓練過程中理解和解釋數據。例如,訓練圖像識別模型的標註可能以對象周圍的標記或對圖像中每個人,地方或對象的描述標題的形式出現。

與Aya Vision相關的合成標註的使用 - 即由AI生成的標註 - 正處於時尚之中。盡管存在潛在的缺點,包括OpenAI在內的競爭對手越來越多地利用合成數據來訓練模型,因為現實世界數據的源頭枯竭。研究公司Gartner估計,去年用於AI和分析項目的數據中有60%是合成創建的。
根據Cohere的說法,通過合成標註對Aya Vision進行訓練使得實驗室在實現競爭性性能的同時使用更少的資源。
“這展示了我們對效率和使用更少計算的重要關注,”Cohere在其博客中寫道。“這也為研究界提供了更大的支持,他們通常對計算資源的訪問更有限。”
除了Aya Vision,Cohere還發布了一個新的基準套件AyaVisionBench,旨在探究模型在“視覺語言”任務中的技能,如識別兩幅圖像之間的不同並將截圖轉換為代碼。
AI行業正處於一個被一些人稱為“評估危機”的時期,這是流行基準的後果,這些基準給出的總分與大多數AI用戶關心的任務的熟練程度之間的相關性較差。Cohere斷言,AyaVisionBench是糾正這一問題的一步,提供了一個“廣泛且具有挑戰性”的框架,用於評估模型的跨語言和多模式理解。
希望如此。
“數據集為評估視覺語言模型在多語言和現實世界設定中的表現提供了一個堅實的基準,”Cohere研究人員在Hugging Face上的一篇帖子中寫道。“我們將這一評估集提供給研究社區,以推動多語言多模態評估。”