> 文章列表 > AI基准测试达到饱和

AI基准测试达到饱和

AI基准测试达到饱和

人工智能继续超越人类的表现;是时候重新评估我们的基准测试了。

人工智能有多好?根据我们今天的大多数技术性能基准,它几乎是完美的。但这并不意味着大多数人工智能工具都能按照我们想要的方式工作,斯坦福大学以人为中心的人工智能研究所研究项目副主任、人工智能指数指导委员会成员凡妮莎·帕利(Vanessa Parli)说。

她引用了当前流行的ChatGPT示例。“有很多兴奋,它很好地满足了其中一些基准,”她说。“但是当你实际使用这个工具时,它会给出错误的答案,说出我们不想让它说的话,而且仍然很难与之互动。

在最新的人工智能指数中,一组独立研究人员分析了视觉、语言、语音等方面的 50 多个基准,发现人工智能工具在许多评估中得分非常高。

“大多数基准测试都达到了我们无法做得更好的地步,80-90%的准确率,”她说。我们真的需要考虑,作为人类和社会,我们希望如何与人工智能互动,并从那里开发新的基准。

在这次对话中,Parli解释了她从AI指数中看到的基准趋势。

基准是什么意思?

基准本质上是人工智能系统要达到的目标。这是一种定义您希望工具做什么,然后朝着该目标努力的方法。一个例子是HAI联合主任Fei-Fei Li的ImageNet,这是一个超过14万张图像的数据集。研究人员在ImageNet上运行他们的图像分类算法,作为测试其系统的一种方式。目标是正确识别尽可能多的图像。

人工智能指数研究对这些基准有什么发现?

我们研究了过去十几年创建的多个技术测试——围绕视觉、语言等。– 并评估了一年内每个基准年的最新结果。

那么,对于每个基准,研究人员是否能够超过去年的分数?他们遇到吗?还是根本没有进展?我们研究了ImageNet,一个名为SUPERGlue的语言基准测试,一个名为MLPerf的硬件基准测试等等;分析了大约50个,超过20个进入了报告。

你在研究中发现了什么?

在早些年,人们在过去一年的最新技术或最佳表现上有了显着提高。今年,在大多数基准测试中,我们看到的进展微乎其微,以至于我们决定不在报告中包括一些基准。例如,2021 年 ImageNet 上最好的图像分类系统准确率为 91%;2022 年仅提高了 0.1 个百分点。

因此,我们看到这些基准之间的饱和 - 实际上没有任何改进。

此外,虽然一些基准测试没有达到90%的准确率范围,但它们超过了人类的基线。例如,视觉问答挑战赛使用有关图像的开放式文本问题测试 AI 系统。今年,表现最好的模型达到了84.3%的准确率。人类基线约为80%。

这对研究人员意味着什么?

对我来说,结论是,也许我们需要更新、更全面的基准来评估。我另一种想法是:我们现在的人工智能工具并不完全像我们想要的那样——它们提供了错误的信息,它们创造了性别歧视的图像。

问题是,如果基准应该帮助我们实现一个目标,那么这个目标是什么?我们希望如何与AI合作,我们希望AI如何与我们合作?也许我们需要更全面的基准——基准现在主要针对单个目标进行测试。

但是,随着我们转向包含视觉、语言等的人工智能工具,我们是否需要基准来帮助我们理解准确性、偏见或毒性之间的权衡?我们可以考虑更多的社会因素吗?很多东西不能通过定量基准来衡量。我认为这是一个重新评估我们想要从这些工具中获得什么的机会。

研究人员是否已经开始建立更好的基准?

在斯坦福HAI大学,基础模型研究中心的所在地,我可以指出HELM。HELM由CRFM的学者开发,着眼于多个场景和多个任务,比我们过去看到的基准更全面。它不仅考虑准确性,还考虑公平性、毒性、效率、稳健性等。

这只是一个例子。但我们需要更多这样的方法。由于基准指导着人工智能的发展方向,因此它们必须更多地与我们作为人类和社会希望与这些工具的交互方式保持一致。

解释者:什么是基准?

从广义上讲,基准是可以衡量或比较事物的标准或参考点。它可以是定量或定性指标,用于评估特定系统、产品或流程以及人工智能系统的性能、质量或有效性。

在计算机科学和技术的背景下,基准测试通常是指旨在衡量特定硬件或软件系统性能的标准化测试或一组测试。这可能包括测量处理速度、内存使用情况或与系统性能相关的其他指标。

基准测试是评估和比较不同系统的重要工具,可用于确定需要改进的领域、优化性能并就系统升级或投资做出明智的决策。