Dépassez les benchmarks des laboratoires : Inclusion Arena révèle les performances des LLM dans le monde réel

Dans un monde de technologie toujours stimulé par l'évolution rapide de l'intelligence artificielle (IA), le suivi des performances et de l'impact potentiel sur les applications du monde réel est devenu de plus en plus crucial. Des chercheurs du groupe Inclusion AI and Ant ont proposé une étape importante vers la réalisation de cet objectif : un classement progressif du nouveau modèle de langage (LLM) dont les données proviennent d'applications existantes en production.

Cette proposition est apparue comme une réponse nécessaire à la tendance actuelle de l'évaluation comparative dans les environnements de laboratoire. Le défaut de cette méthode dominante est son manque de lien avec l'utilisation pratique sur le terrain. Elle n'aborde pas les événements tangibles qui se produisent dans les applications réelles alimentées par ces modèles linguistiques, négligeant les éventuelles modifications, adoptions et problèmes en temps réel qui pourraient survenir lorsque la théorie passe à la pratique.

Changer de vitesse pour des perspectives en temps réel

La recherche dans des environnements de laboratoire contrôlés tient à l'écart de nombreuses variables, ce qui permet aux experts de se concentrer sur des facteurs spécifiques sans interférence extérieure. Bien que cela apporte de la clarté à la recherche, cela éloigne également l'étude des éventuelles applications et contingences du monde réel, créant ainsi une déconnexion.

Le plus souvent, les réalités du déploiement de ces grands modèles linguistiques dans des applications réelles en production impliquent des adaptations à grande échelle, des réponses à des stimuli inattendus et des aléas techniques imprévus. Ces aspects ne sont pas mis en évidence dans la recherche en milieu contrôlé, mais sont des agents essentiels pour façonner l'efficacité fondamentale de la technologie de l'IA. C'est précisément la raison pour laquelle le nouveau tableau de bord proposé par Inclusion AI et Ant Group pourrait changer la donne.

Un regard holistique sur ce tableau de bord révolutionnaire

Le classement proposé est conçu pour rassembler des données réelles provenant directement d'applications en production. Il s'éloigne des résultats théoriques et montre comment ces modèles se comportent réellement lorsqu'ils sont déployés dans des applications réelles. L'objectif est de déterminer les performances des différents LLM face aux exigences réelles des utilisateurs, leur efficacité à répondre aux besoins des consommateurs et leur capacité d'adaptation dans un monde numérique en constante évolution.

Cette approche rafraîchissante offre à la communauté technologique ce dont elle ne se rendait pas compte qu'il lui manquait : une structure de responsabilité pour le progrès de l'IA en connaissance directe des performances dans le monde réel. Cette avancée passionnante estompe la frontière entre les laboratoires de recherche et les environnements des utilisateurs finaux, promettant de rationaliser le processus d'évaluation de l'aptitude à la mise en œuvre et de l'impact probable des LLM ou de toute autre technologie d'IA.

Dans l'ensemble, l'initiative a été plus que bien accueillie par la communauté technologique dans son ensemble, inspirant un changement de perspective sur la manière dont la recherche en IA pourrait devenir plus centrée sur l'utilisateur et les technologies plus responsables de leurs implications dans le monde réel. L'avenir de la recherche, non seulement sur les LLM, mais aussi sur l'IA en général, semble de plus en plus prometteur à mesure qu'elle se réoriente du laboratoire vers le monde réel, modifiant la manière dont nous comprenons, apprécions et utilisons la technologie.

Crédit : Article original à l'adresse suivante VentureBeat.

Vous aimerez peut-être aussi

Porozmawiaj z ALIA

ALIA