在快速发展的人工智能(AI)推动下的技术世界中,跟踪性能和对实际应用的潜在影响变得越来越重要。Inclusion AI 和 Ant Group 的研究人员为实现这一目标迈出了重要的一步--一个渐进式的新语言模型(LLM)排行榜,其数据来源于现有的生产中应用程序。.
这一建议是对当前实验室环境中基准测试趋势的一种急需的回应。这种主流方法的缺陷在于缺乏与实际现场使用的联系。它没有解决由这些语言模型驱动的实际应用程序中发生的实际问题,忽视了理论转化为实践时可能出现的实时变化、采用和问题。.
转向实时视角
在受控实验室环境中进行研究,可以避免许多变数,让专家们在不受外界干扰的情况下将注意力集中在特定因素上。虽然这确实会使研究更加清晰,但也会使研究与最终的实际应用和突发事件相脱节,造成脱节。.
将这些大型语言模型部署到实际生产中的应用程序中,往往需要进行大规模的适应性调整、对意外刺激做出反应,以及不可预见的技术危险。这些方面在受控环境研究中并不明显,但却是塑造人工智能技术核心效能的关键因素。正因如此,Inclusion AI 和蚂蚁金服集团推出的新排行榜可能会改变游戏规则。.
全面了解这一革命性的排行榜
建议的排行榜旨在汇集直接来自生产中应用程序的真实数据。它摒弃了理论结果,展示了这些模型在实际应用中的实际表现。他们希望了解不同的 LLM 在实际用户需求的重压下表现如何,如何高效地满足消费者的需求,以及它们在不断变化的数字领域中的适应性如何。.
这种令人耳目一新的方法为科技界提供了一种他们不曾意识到的缺失--一种直接认知现实世界性能的人工智能进步问责结构。这一令人兴奋的进步模糊了研究实验室和最终用户环境之间的界限,有望简化评估 LLM 或任何人工智能技术的实施准备情况和可能影响的过程。.
总之,这项工作受到了广大科技界的欢迎,激发了人们对人工智能研究如何更加以用户为中心、技术如何对其现实影响更加负责的观点转变。随着研究重点从实验室转向现实世界,改变我们理解、欣赏和利用技术的方式,不仅是 LLM,更广泛的人工智能研究的未来看起来越来越有希望。.
资料来源:原文载于 VentureBeat.