主頁 tech 即使是一些最好的AI也无法打败这个新的基准

即使是一些最好的AI也无法打败这个新的基准

By

歐亞近展

-

Monday, April 14 2025

非营利性的人工智能安全中心（CAIS）和提供多种数据标注和人工智能开发服务的公司Scale AI发布了一个具有挑战性的新基准，供前沿人工智能系统使用。

这个基准称为“人类的最后考试”，包括数千个众包问题，涉及数学、人文学科和自然科学等主题。为了使评估更加困难，这些问题有多种格式，包括包含图表和图片的格式。

在一项初步研究中，没有任何公开可用的旗舰人工智能系统在“人类的最后考试”上的得分超过10%。

CAIS和Scale AI表示他们计划向研究界开放这一基准，让研究人员“深入研究变体”并评估新的人工智能模型。