{"id":4353,"date":"2025-08-20T01:07:40","date_gmt":"2025-08-19T23:07:40","guid":{"rendered":"https:\/\/implementi.ai\/en\/2025\/08\/20\/move-beyond-lab-benchmarks-inclusion-arena-reveals-real-world-llm-performance\/"},"modified":"2025-08-20T01:07:40","modified_gmt":"2025-08-19T23:07:40","slug":"aller-au-dela-des-reperes-de-laboratoire-larene-dinclusion-revele-les-performances-reelles-de-lllm","status":"publish","type":"post","link":"https:\/\/implementi.ai\/fr\/2025\/08\/20\/move-beyond-lab-benchmarks-inclusion-arena-reveals-real-world-llm-performance\/","title":{"rendered":"D\u00e9passez les benchmarks des laboratoires : Inclusion Arena r\u00e9v\u00e8le les performances des LLM dans le monde r\u00e9el"},"content":{"rendered":"<p>\nDans un monde de technologie toujours stimul\u00e9 par l'\u00e9volution rapide de l'intelligence artificielle (IA), le suivi des performances et de l'impact potentiel sur les applications du monde r\u00e9el est devenu de plus en plus crucial. Des chercheurs du groupe Inclusion AI and Ant ont propos\u00e9 une \u00e9tape importante vers la r\u00e9alisation de cet objectif : un classement progressif du nouveau mod\u00e8le de langage (LLM) dont les donn\u00e9es proviennent d'applications existantes en production.\n<\/p>\n<p>\nCette proposition est apparue comme une r\u00e9ponse n\u00e9cessaire \u00e0 la tendance actuelle de l'\u00e9valuation comparative dans les environnements de laboratoire. Le d\u00e9faut de cette m\u00e9thode dominante est son manque de lien avec l'utilisation pratique sur le terrain. Elle n'aborde pas les \u00e9v\u00e9nements tangibles qui se produisent dans les applications r\u00e9elles aliment\u00e9es par ces mod\u00e8les linguistiques, n\u00e9gligeant les \u00e9ventuelles modifications, adoptions et probl\u00e8mes en temps r\u00e9el qui pourraient survenir lorsque la th\u00e9orie passe \u00e0 la pratique.\n<\/p>\n<h3>Changer de vitesse pour des perspectives en temps r\u00e9el<\/h3>\n<p>\nLa recherche dans des environnements de laboratoire contr\u00f4l\u00e9s tient \u00e0 l'\u00e9cart de nombreuses variables, ce qui permet aux experts de se concentrer sur des facteurs sp\u00e9cifiques sans interf\u00e9rence ext\u00e9rieure. Bien que cela apporte de la clart\u00e9 \u00e0 la recherche, cela \u00e9loigne \u00e9galement l'\u00e9tude des \u00e9ventuelles applications et contingences du monde r\u00e9el, cr\u00e9ant ainsi une d\u00e9connexion.\n<\/p>\n<p>\nLe plus souvent, les r\u00e9alit\u00e9s du d\u00e9ploiement de ces grands mod\u00e8les linguistiques dans des applications r\u00e9elles en production impliquent des adaptations \u00e0 grande \u00e9chelle, des r\u00e9ponses \u00e0 des stimuli inattendus et des al\u00e9as techniques impr\u00e9vus. Ces aspects ne sont pas mis en \u00e9vidence dans la recherche en milieu contr\u00f4l\u00e9, mais sont des agents essentiels pour fa\u00e7onner l'efficacit\u00e9 fondamentale de la technologie de l'IA. C'est pr\u00e9cis\u00e9ment la raison pour laquelle le nouveau tableau de bord propos\u00e9 par Inclusion AI et Ant Group pourrait changer la donne.\n<\/p>\n<h3>Un regard holistique sur ce tableau de bord r\u00e9volutionnaire<\/h3>\n<p>\nLe classement propos\u00e9 est con\u00e7u pour rassembler des donn\u00e9es r\u00e9elles provenant directement d'applications en production. Il s'\u00e9loigne des r\u00e9sultats th\u00e9oriques et montre comment ces mod\u00e8les se comportent r\u00e9ellement lorsqu'ils sont d\u00e9ploy\u00e9s dans des applications r\u00e9elles. L'objectif est de d\u00e9terminer les performances des diff\u00e9rents LLM face aux exigences r\u00e9elles des utilisateurs, leur efficacit\u00e9 \u00e0 r\u00e9pondre aux besoins des consommateurs et leur capacit\u00e9 d'adaptation dans un monde num\u00e9rique en constante \u00e9volution.\n<\/p>\n<p>\nCette approche rafra\u00eechissante offre \u00e0 la communaut\u00e9 technologique ce dont elle ne se rendait pas compte qu'il lui manquait : une structure de responsabilit\u00e9 pour le progr\u00e8s de l'IA en connaissance directe des performances dans le monde r\u00e9el. Cette avanc\u00e9e passionnante estompe la fronti\u00e8re entre les laboratoires de recherche et les environnements des utilisateurs finaux, promettant de rationaliser le processus d'\u00e9valuation de l'aptitude \u00e0 la mise en \u0153uvre et de l'impact probable des LLM ou de toute autre technologie d'IA.\n<\/p>\n<p>\nDans l'ensemble, l'initiative a \u00e9t\u00e9 plus que bien accueillie par la communaut\u00e9 technologique dans son ensemble, inspirant un changement de perspective sur la mani\u00e8re dont la recherche en IA pourrait devenir plus centr\u00e9e sur l'utilisateur et les technologies plus responsables de leurs implications dans le monde r\u00e9el. L'avenir de la recherche, non seulement sur les LLM, mais aussi sur l'IA en g\u00e9n\u00e9ral, semble de plus en plus prometteur \u00e0 mesure qu'elle se r\u00e9oriente du laboratoire vers le monde r\u00e9el, modifiant la mani\u00e8re dont nous comprenons, appr\u00e9cions et utilisons la technologie.\n<\/p>\n<p>\n<i>Cr\u00e9dit : Article original \u00e0 l'adresse suivante <\/i><a href=\"https:\/\/venturebeat.com\/ai\/stop-benchmarking-in-the-lab-inclusion-arena-shows-how-llms-perform-in-production\/\" target=\"_blank\" rel=\"noopener\">VentureBeat<\/a>.<\/p>","protected":false},"excerpt":{"rendered":"<p>In a world of technology ever driven by the rapidly evolving Artificial Intelligence (AI), keeping track of performance and potential impact on real-world applications has grown increasingly crucial. A significant step towards achieving this goal has been proposed by researchers from Inclusion AI and Ant Group\u2014a progressive new Language Model (LLM) leaderboard that sources its data from existing, in-production apps. [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":4354,"comment_status":"","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[26],"tags":[],"class_list":["post-4353","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-automation"],"featured_image_src":"https:\/\/implementi.ai\/wp-content\/uploads\/2025\/08\/4353-1024x683.png","blog_images":{"medium":"https:\/\/implementi.ai\/wp-content\/uploads\/2025\/08\/4353-300x200.png","large":"https:\/\/implementi.ai\/wp-content\/uploads\/2025\/08\/4353-1024x683.png"},"ams_acf":[],"jetpack_featured_media_url":"https:\/\/implementi.ai\/wp-content\/uploads\/2025\/08\/4353.png","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/implementi.ai\/fr\/wp-json\/wp\/v2\/posts\/4353","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/implementi.ai\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/implementi.ai\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/implementi.ai\/fr\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/implementi.ai\/fr\/wp-json\/wp\/v2\/comments?post=4353"}],"version-history":[{"count":0,"href":"https:\/\/implementi.ai\/fr\/wp-json\/wp\/v2\/posts\/4353\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/implementi.ai\/fr\/wp-json\/wp\/v2\/media\/4354"}],"wp:attachment":[{"href":"https:\/\/implementi.ai\/fr\/wp-json\/wp\/v2\/media?parent=4353"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/implementi.ai\/fr\/wp-json\/wp\/v2\/categories?post=4353"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/implementi.ai\/fr\/wp-json\/wp\/v2\/tags?post=4353"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}