{"id":4353,"date":"2025-08-20T01:07:40","date_gmt":"2025-08-19T23:07:40","guid":{"rendered":"https:\/\/implementi.ai\/en\/2025\/08\/20\/move-beyond-lab-benchmarks-inclusion-arena-reveals-real-world-llm-performance\/"},"modified":"2025-08-20T01:07:40","modified_gmt":"2025-08-19T23:07:40","slug":"mas-alla-de-las-pruebas-de-laboratorio-la-arena-de-inclusion-revela-el-rendimiento-real-del-llm","status":"publish","type":"post","link":"https:\/\/implementi.ai\/es\/2025\/08\/20\/move-beyond-lab-benchmarks-inclusion-arena-reveals-real-world-llm-performance\/","title":{"rendered":"M\u00e1s all\u00e1 de las pruebas de laboratorio: Inclusion Arena revela el rendimiento de los LLM en el mundo real"},"content":{"rendered":"<p>\nEn un mundo tecnol\u00f3gico cada vez m\u00e1s impulsado por la Inteligencia Artificial (IA) en r\u00e1pida evoluci\u00f3n, cada vez es m\u00e1s crucial hacer un seguimiento del rendimiento y el impacto potencial en las aplicaciones del mundo real. Los investigadores de Inclusion AI and Ant Group han dado un paso importante hacia la consecuci\u00f3n de este objetivo: una nueva clasificaci\u00f3n progresiva de modelos ling\u00fc\u00edsticos (LLM) que obtiene sus datos de aplicaciones existentes y en producci\u00f3n.\n<\/p>\n<p>\nEsta propuesta ha surgido como una respuesta muy necesaria a la tendencia actual de la evaluaci\u00f3n comparativa en entornos de laboratorio. El defecto de este m\u00e9todo imperante es su falta de conexi\u00f3n con la utilizaci\u00f3n pr\u00e1ctica sobre el terreno. Se queda corto a la hora de abordar los acontecimientos tangibles dentro de las aplicaciones reales que funcionan con estos modelos ling\u00fc\u00edsticos, olvidando las posibles alteraciones, adopciones y problemas en tiempo real que podr\u00edan producirse cuando la teor\u00eda se convierte en pr\u00e1ctica.\n<\/p>\n<h3>Cambiar de marcha hacia perspectivas en tiempo real<\/h3>\n<p>\nLa investigaci\u00f3n en entornos de laboratorio controlados mantiene a raya muchas variables, lo que permite a los expertos centrar su atenci\u00f3n en factores espec\u00edficos sin interferencias externas. Aunque esto aporta claridad a la investigaci\u00f3n, tambi\u00e9n aleja el estudio de las posibles aplicaciones y contingencias del mundo real, creando una desconexi\u00f3n.\n<\/p>\n<p>\nEn la mayor\u00eda de los casos, la realidad de desplegar estos grandes modelos ling\u00fc\u00edsticos en aplicaciones reales en producci\u00f3n requiere adaptaciones a gran escala, respuestas a est\u00edmulos inesperados y riesgos t\u00e9cnicos imprevistos. Estos aspectos no salen a la luz en la investigaci\u00f3n en entornos controlados, pero son agentes fundamentales a la hora de configurar la eficacia b\u00e1sica de la tecnolog\u00eda de IA. Precisamente por eso, la nueva tabla de clasificaci\u00f3n presentada por Inclusion AI y Ant Group podr\u00eda cambiar las reglas del juego.\n<\/p>\n<h3>Una mirada hol\u00edstica a esta revolucionaria tabla de clasificaci\u00f3n<\/h3>\n<p>\nLa tabla de clasificaci\u00f3n propuesta est\u00e1 dise\u00f1ada para reunir datos reales directamente de aplicaciones en producci\u00f3n. Se aleja de los resultados te\u00f3ricos y muestra c\u00f3mo se comportan realmente estos modelos cuando se despliegan en aplicaciones reales. Pretenden captar el rendimiento de los distintos LLM bajo el peso de las necesidades reales de los usuarios, la eficacia con la que pueden satisfacer las necesidades de los consumidores y su capacidad de adaptaci\u00f3n en un entorno digital en constante cambio.\n<\/p>\n<p>\nEste refrescante enfoque proporciona a la comunidad tecnol\u00f3gica algo de lo que no se hab\u00eda dado cuenta que carec\u00eda: una estructura de rendici\u00f3n de cuentas para el avance de la IA en conocimiento directo del rendimiento en el mundo real. Este emocionante avance difumina la l\u00ednea que separa los laboratorios de investigaci\u00f3n de los entornos de usuario final y promete agilizar el proceso de evaluaci\u00f3n de la preparaci\u00f3n para la implantaci\u00f3n y el impacto probable de los LLM o de cualquier tecnolog\u00eda de IA.\n<\/p>\n<p>\nEn conjunto, el esfuerzo ha sido m\u00e1s que bien recibido por la comunidad tecnol\u00f3gica en general, inspirando un cambio de perspectiva sobre c\u00f3mo la investigaci\u00f3n en IA podr\u00eda centrarse m\u00e1s en el usuario y c\u00f3mo las tecnolog\u00edas podr\u00edan ser m\u00e1s responsables de sus implicaciones en el mundo real. El futuro de la investigaci\u00f3n no s\u00f3lo de los LLM, sino de la IA en general, parece cada vez m\u00e1s prometedor a medida que reorienta su enfoque del laboratorio al mundo real, cambiando la forma en que entendemos, apreciamos y utilizamos la tecnolog\u00eda.\n<\/p>\n<p>\n<i>Cr\u00e9dito: Art\u00edculo original en <\/i><a href=\"https:\/\/venturebeat.com\/ai\/stop-benchmarking-in-the-lab-inclusion-arena-shows-how-llms-perform-in-production\/\" target=\"_blank\" rel=\"noopener\">VentureBeat<\/a>.<\/p>","protected":false},"excerpt":{"rendered":"<p>In a world of technology ever driven by the rapidly evolving Artificial Intelligence (AI), keeping track of performance and potential impact on real-world applications has grown increasingly crucial. A significant step towards achieving this goal has been proposed by researchers from Inclusion AI and Ant Group\u2014a progressive new Language Model (LLM) leaderboard that sources its data from existing, in-production apps. [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":4354,"comment_status":"","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_feature_clip_id":0,"_jetpack_memberships_contains_paid_content":false,"footnotes":"","jetpack_post_was_ever_published":false},"categories":[26],"tags":[],"class_list":["post-4353","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-automation"],"featured_image_src":"https:\/\/implementi.ai\/wp-content\/uploads\/2025\/08\/4353-1024x683.png","blog_images":{"medium":"https:\/\/implementi.ai\/wp-content\/uploads\/2025\/08\/4353-300x200.png","large":"https:\/\/implementi.ai\/wp-content\/uploads\/2025\/08\/4353-1024x683.png"},"ams_acf":[],"jetpack_featured_media_url":"https:\/\/implementi.ai\/wp-content\/uploads\/2025\/08\/4353.png","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/implementi.ai\/es\/wp-json\/wp\/v2\/posts\/4353","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/implementi.ai\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/implementi.ai\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/implementi.ai\/es\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/implementi.ai\/es\/wp-json\/wp\/v2\/comments?post=4353"}],"version-history":[{"count":0,"href":"https:\/\/implementi.ai\/es\/wp-json\/wp\/v2\/posts\/4353\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/implementi.ai\/es\/wp-json\/wp\/v2\/media\/4354"}],"wp:attachment":[{"href":"https:\/\/implementi.ai\/es\/wp-json\/wp\/v2\/media?parent=4353"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/implementi.ai\/es\/wp-json\/wp\/v2\/categories?post=4353"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/implementi.ai\/es\/wp-json\/wp\/v2\/tags?post=4353"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}