
非营利性的人工智能安全中心(CAIS)和提供多种数据标注和人工智能开发服务的公司Scale AI发布了一个具有挑战性的新基准,供前沿人工智能系统使用。
这个基准称为“人类的最后考试”,包括数千个众包问题,涉及数学、人文学科和自然科学等主题。为了使评估更加困难,这些问题有多种格式,包括包含图表和图片的格式。
在一项初步研究中,没有任何公开可用的旗舰人工智能系统在“人类的最后考试”上的得分超过10%。
CAIS和Scale AI表示他们计划向研究界开放这一基准,让研究人员“深入研究变体”并评估新的人工智能模型。