Wyjdź poza benchmarki laboratoryjne: Inclusion Arena ujawnia rzeczywiste wyniki LLM

W świecie technologii, który nieustannie napędzany jest przez szybko rozwijającą się sztuczną inteligencję (AI), śledzenie wydajności i potencjalnego wpływu na rzeczywiste zastosowania staje się coraz ważniejsze. Znaczący krok w kierunku osiągnięcia tego celu zaproponowali naukowcy z Inclusion AI i Ant Group — nowatorski ranking modeli językowych (LLM), który czerpie dane z istniejących, produkcyjnych aplikacji.

Propozycja ta pojawiła się jako bardzo potrzebna odpowiedź na obecny trend benchmarkingu w środowiskach laboratoryjnych. Wadą tej dominującej metody jest brak powiązania z praktycznym wykorzystaniem w terenie. Nie uwzględnia ona konkretnych zdarzeń w rzeczywistych aplikacjach opartych na tych modelach językowych, pomijając możliwe zmiany w czasie rzeczywistym, adaptacje i problemy, które mogą wystąpić, gdy teoria przechodzi do praktyki.

Przejście do perspektywy czasu rzeczywistego

Badania w kontrolowanych warunkach laboratoryjnych pozwalają wyeliminować wiele zmiennych, dzięki czemu eksperci mogą skupić się na konkretnych czynnikach bez zewnętrznych zakłóceń. Chociaż zapewnia to większą przejrzystość badań, powoduje również oddalenie się od ewentualnych zastosowań w świecie rzeczywistym i nieprzewidzianych okoliczności, co prowadzi do rozbieżności.

W większości przypadków rzeczywiste warunki wdrażania tych dużych modeli językowych w rzeczywistych, produkcyjnych aplikacjach wymagają adaptacji na dużą skalę, reagowania na nieoczekiwane bodźce i nieprzewidziane zagrożenia techniczne. Aspekty te nie wychodzą na jaw w badaniach prowadzonych w kontrolowanych warunkach, ale mają kluczowe znaczenie dla kształtowania podstawowej skuteczności technologii AI. Właśnie dlatego nowa tabela wyników przedstawiona przez Inclusion AI i Ant Group może zmienić zasady gry.

Holistyczne spojrzenie na tę rewolucyjną tabelę wyników

Proponowana tabela wyników ma na celu zebranie rzeczywistych danych bezpośrednio z aplikacji produkcyjnych. Odchodzi ona od teoretycznych wyników i pokazuje, jak te modele faktycznie sprawdzają się po wdrożeniu w rzeczywistych aplikacjach. Ma ona na celu uchwycenie, jak różne modele LLM radzą sobie pod presją rzeczywistych wymagań użytkowników, jak skutecznie zaspokajają potrzeby konsumentów i jak bardzo są elastyczne w nieustannie zmieniającym się świecie cyfrowym.

To odświeżające podejście zapewnia społeczności technologicznej coś, czego nie zdawała sobie sprawy, że jej brakuje — strukturę odpowiedzialności za rozwój sztucznej inteligencji w bezpośrednim odniesieniu do rzeczywistych wyników. Ten ekscytujący krok zaciera granicę między laboratoriami badawczymi a środowiskami użytkowników końcowych, obiecując usprawnienie procesu oceny gotowości do wdrożenia i prawdopodobnego wpływu modeli LLM lub dowolnej technologii sztucznej inteligencji.

Podsumowując, przedsięwzięcie to spotkało się z bardzo pozytywnym odbiorem całej społeczności technologicznej, inspirując zmianę perspektywy na temat tego, jak badania nad sztuczną inteligencją mogą stać się bardziej zorientowane na użytkownika, a technologie bardziej odpowiedzialne za swoje rzeczywiste implikacje. Przyszłość badań nie tylko nad modelami LLM, ale także nad sztuczną inteligencją w szerszym ujęciu wygląda coraz bardziej obiecująco, ponieważ przenosi ona swój punkt ciężkości z laboratorium do świata rzeczywistego, zmieniając sposób, w jaki rozumiemy, doceniamy i wykorzystujemy technologię.

Źródło: Oryginalny artykuł pod adresem VentureBeat.

Mogą Ci się również spodobać

Porozmawiaj z ALIA

ALIA