{"id":4353,"date":"2025-08-20T01:07:40","date_gmt":"2025-08-19T23:07:40","guid":{"rendered":"https:\/\/implementi.ai\/en\/2025\/08\/20\/move-beyond-lab-benchmarks-inclusion-arena-reveals-real-world-llm-performance\/"},"modified":"2025-08-20T01:07:40","modified_gmt":"2025-08-19T23:07:40","slug":"mehr-als-nur-labor-benchmarks-inclusion-arena-zeigt-die-reale-llm-leistung","status":"publish","type":"post","link":"https:\/\/implementi.ai\/de\/2025\/08\/20\/move-beyond-lab-benchmarks-inclusion-arena-reveals-real-world-llm-performance\/","title":{"rendered":"Jenseits von Labor-Benchmarks: Inclusion Arena zeigt die LLM-Leistung in der realen Welt"},"content":{"rendered":"<p>\nIn einer Welt der Technologie, die von der sich schnell entwickelnden K\u00fcnstlichen Intelligenz (KI) angetrieben wird, wird es immer wichtiger, die Leistung und die potenziellen Auswirkungen auf reale Anwendungen zu verfolgen. Ein bedeutender Schritt zur Erreichung dieses Ziels wurde von Forschern der Inclusion AI and Ant Group vorgeschlagen - ein fortschrittliches neues Language Model (LLM) Leaderboard, das seine Daten aus bestehenden, in Produktion befindlichen Anwendungen bezieht.\n<\/p>\n<p>\nDieser Vorschlag ist eine dringend ben\u00f6tigte Antwort auf den derzeitigen Trend zum Benchmarking in Laborumgebungen. Die Schwachstelle dieser vorherrschenden Methode ist der fehlende Bezug zur praktischen Nutzung in der Praxis. Sie geht nicht auf die konkreten Vorg\u00e4nge in tats\u00e4chlichen Anwendungen ein, die mit diesen Sprachmodellen betrieben werden, und vernachl\u00e4ssigt m\u00f6gliche Echtzeit\u00e4nderungen, Anpassungen und Probleme, die auftreten k\u00f6nnen, wenn die Theorie in die Praxis umgesetzt wird.\n<\/p>\n<h3>Wechsel der Gangart zu Echtzeit-Perspektiven<\/h3>\n<p>\nDie Forschung in kontrollierten Laborumgebungen h\u00e4lt viele Variablen in Schach und erm\u00f6glicht es Experten, sich ohne \u00e4u\u00dfere Einfl\u00fcsse auf bestimmte Faktoren zu konzentrieren. Das verschafft der Forschung zwar mehr Klarheit, entfremdet die Studie aber auch von m\u00f6glichen realen Anwendungen und Eventualit\u00e4ten, was zu einer Entkopplung f\u00fchrt.\n<\/p>\n<p>\nIn den meisten F\u00e4llen erfordert der Einsatz dieser gro\u00dfen Sprachmodelle in realen, produktiven Anwendungen umfangreiche Anpassungen, Reaktionen auf unerwartete Stimuli und unvorhergesehene technische Risiken. Diese Aspekte kommen in kontrollierten Forschungsumgebungen nicht zum Vorschein, sind aber entscheidend f\u00fcr die Effektivit\u00e4t der KI-Technologie. Genau aus diesem Grund k\u00f6nnte das neue Leaderboard, das von Inclusion AI und der Ant Group entwickelt wurde, einen Wendepunkt darstellen.\n<\/p>\n<h3>Ein ganzheitlicher Blick auf dieses revolution\u00e4re Leaderboard<\/h3>\n<p>\nDie vorgeschlagene Rangliste ist so konzipiert, dass sie reale Daten direkt aus in Produktion befindlichen Anwendungen zusammenf\u00fchrt. Es entfernt sich von den theoretischen Ergebnissen und zeigt, wie diese Modelle bei der Anwendung in Live-Apps tats\u00e4chlich abschneiden. Es soll erfasst werden, wie die verschiedenen LLMs unter der Last der tats\u00e4chlichen Nutzeranforderungen abschneiden, wie effizient sie die Bed\u00fcrfnisse der Verbraucher erf\u00fcllen k\u00f6nnen und wie anpassungsf\u00e4hig sie sich in einer sich st\u00e4ndig ver\u00e4ndernden digitalen Welt erweisen.\n<\/p>\n<p>\nDieser erfrischende Ansatz bietet der Tech-Gemeinschaft etwas, von dem sie gar nicht wusste, dass sie es vermisst - eine Verantwortungsstruktur f\u00fcr den KI-Fortschritt in direkter Kenntnis der Leistung in der realen Welt. Dieser aufregende Schritt verwischt die Grenze zwischen Forschungslabors und Endnutzerumgebungen und verspricht, den Prozess der Bewertung der Implementierungsbereitschaft und der wahrscheinlichen Auswirkungen von LLMs oder anderen KI-Technologien zu rationalisieren.\n<\/p>\n<p>\nAlles in allem wurde das Projekt von der Tech-Community mehr als positiv aufgenommen und hat zu einem Perspektivwechsel in der Frage gef\u00fchrt, wie die KI-Forschung nutzerorientierter und die Technologien st\u00e4rker auf ihre Auswirkungen in der realen Welt ausgerichtet werden k\u00f6nnen. Die Zukunft der Forschung nicht nur im Bereich der LLMs, sondern auch im Bereich der KI im Allgemeinen sieht zunehmend vielversprechend aus, da sie ihren Schwerpunkt vom Labor auf die reale Welt verlagert und damit die Art und Weise ver\u00e4ndert, wie wir Technologie verstehen, sch\u00e4tzen und nutzen.\n<\/p>\n<p>\n<i>Kredit: Originalartikel unter <\/i><a href=\"https:\/\/venturebeat.com\/ai\/stop-benchmarking-in-the-lab-inclusion-arena-shows-how-llms-perform-in-production\/\" target=\"_blank\" rel=\"noopener\">VentureBeat<\/a>.<\/p>","protected":false},"excerpt":{"rendered":"<p>In a world of technology ever driven by the rapidly evolving Artificial Intelligence (AI), keeping track of performance and potential impact on real-world applications has grown increasingly crucial. A significant step towards achieving this goal has been proposed by researchers from Inclusion AI and Ant Group\u2014a progressive new Language Model (LLM) leaderboard that sources its data from existing, in-production apps. [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":4354,"comment_status":"","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[26],"tags":[],"class_list":["post-4353","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-automation"],"featured_image_src":"https:\/\/implementi.ai\/wp-content\/uploads\/2025\/08\/4353-1024x683.png","blog_images":{"medium":"https:\/\/implementi.ai\/wp-content\/uploads\/2025\/08\/4353-300x200.png","large":"https:\/\/implementi.ai\/wp-content\/uploads\/2025\/08\/4353-1024x683.png"},"ams_acf":[],"jetpack_featured_media_url":"https:\/\/implementi.ai\/wp-content\/uploads\/2025\/08\/4353.png","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/implementi.ai\/de\/wp-json\/wp\/v2\/posts\/4353","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/implementi.ai\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/implementi.ai\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/implementi.ai\/de\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/implementi.ai\/de\/wp-json\/wp\/v2\/comments?post=4353"}],"version-history":[{"count":0,"href":"https:\/\/implementi.ai\/de\/wp-json\/wp\/v2\/posts\/4353\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/implementi.ai\/de\/wp-json\/wp\/v2\/media\/4354"}],"wp:attachment":[{"href":"https:\/\/implementi.ai\/de\/wp-json\/wp\/v2\/media?parent=4353"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/implementi.ai\/de\/wp-json\/wp\/v2\/categories?post=4353"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/implementi.ai\/de\/wp-json\/wp\/v2\/tags?post=4353"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}