W ostatnich dniach po polskich mediach społecznościowych krąży fala entuzjazmu, którą możemy podsumować sensacyjnym wnioskiem: „amerykańscy naukowcy potwierdzili, że polski to najlepszy język dla sztucznej inteligencji”. To brzmi jak powód do dumy narodowej – i rzeczywiście, trudno się nie uśmiechnąć, gdy słyszymy, że nasz język „pokonał” angielski. Jednak to tylko część prawdy – i to mocno uproszczona. Faktycznie, polski zajął pierwsze miejsce… ale tylko w jednym, bardzo określonym eksperymencie, dotyczącym jednego rodzaju zadania AI.
Język polski najlepszym językiem dla AI?
Bazą medialnego entuzjazmu jest naukowy raport One Ruler to Measure Them All: Benchmarking Multilingual Long-Context Language Models (Kim, Russell, Karpińska, Iyyer, 2025), stworzony przez Uniwersytet Maryland z udziałem Microsoftu. To solidna praca, ale jej wynik dotyczy ściśle określonego aspektu działania modeli LLM – nie „ogólnej jakości” języka polskiego ani przydatności do wszystkiego, co AI potrafi.
Czym jest benchmark?
Benchmark to test porównawczy: zestaw zadań, w których różne modele (np. GPT-4, Gemini, LLaMA czy Qwen) mierzą się w identycznych warunkach. W tym wypadku nie było to badanie codziennego promptowania ani praktycznego użycia AI, lecz seria eksperymentów na długich kontekstach tekstowych – nawet do 128 tysięcy tokenów. Modele dostawały bardzo długie instrukcje i teksty (odpowiedniki setek stron książki), a ich zadaniem było np. odnalezienie w tym ciągu informacji.
Chodziło więc o sprawdzenie tzw. pamięci kontekstowej i precyzyjnej ekstrakcji informacji przy ekstremalnie długim tekście. Modele AI były oceniane punktowo (poprawna lub niepoprawna odpowiedź) – zsumowane wyniki dały ranking skuteczności w różnych językach, przy czterech długościach promptu.
W ogólnym zestawieniu dla zadań typu needle in a haystack (wyszukiwanie informacji w bardzo długich tekstach) język polski osiągnął najwyższą skuteczność spośród 26 badanych języków.
Przy kontekstach długości 64 000–128 000 tokenów średnia dokładność modeli w języku polskim wyniosła 88%, podczas gdy język angielski uzyskał 83,9%, zajmując szóste miejsce.
Na dalszych pozycjach znalazły się m.in. języki chiński (62,1%) oraz inne wysoko-zasobowe języki azjatyckie. Autorzy podkreślają, że choć w wynikach widać pewną korelację między wielkością zasobów a skutecznością modeli, nie jest jasne, dlaczego niektóre języki wysokozasobowe, takie jak chiński, wypadły gorzej, a języki słowiańskie, romańskie i germańskie uplasowały się w czołówce.
Jednak należy pamiętać, że ten sukces dotyczy tylko tego konkretnego naukowego testu, w którym priorytetem była precyzyjna pamięć do liczbowych/konkretnych informacji w bardzo długim tekście.
Co dokładnie zbadano?
Badanie ONERULER obejmowało łącznie 26 języków i siedem typów zadań, zaprojektowanych tak, by precyzyjnie zmierzyć różne aspekty pracy modeli przy bardzo długich kontekstach – od wyszukiwania konkretnej informacji po łączenie i zliczanie danych.
Najważniejszą grupę stanowiły tzw. zadania typu „needle in a haystack” (igła w stogu siana) – czyli testy wyszukiwania pojedynczej informacji wśród tysięcy nieistotnych zdań. W niektórych wariantach model miał znaleźć jedną wartość (np. „Jaki numer przypisano do słowa X?”), w innych kilka powiązanych danych lub odpowiedzieć na wiele pytań jednocześnie.
Najtrudniejsze wersje zawierały też opcję odpowiedzi „brak”, co pozwalało ocenić, jak model radzi sobie z niepewnością – i tu większość z nich zaczynała popełniać błędy, wybierając „brak” nawet wtedy, gdy poprawna odpowiedź istniała.
Drugą grupą były tzw. zadania agregacyjne – w których model musiał policzyć, które słowa pojawiają się najczęściej w długiej liście. To test zdolności do uogólniania i sumowania informacji. W tych próbach wszystkie modele radziły sobie znacznie gorzej niż w zadaniach wyszukiwawczych – w trudniejszych wariantach wyniki spadały niemal do zera.
W ogólnym zestawieniu język polski uzyskał najwyższy wynik w najdłuższych kontekstach (64–128 tys. tokenów), osiągając średnio ok. 88% poprawnych odpowiedzi. Kolejne miejsca zajęły m.in. niemiecki, włoski i czeski, a angielski znalazł się na szóstej pozycji z wynikiem ok. 84%. Różnice w krótszych kontekstach (do 8 tys. tokenów) były niewielkie, ale rosły wraz z długością tekstu – to właśnie tam polski utrzymał stabilność, podczas gdy inne języki traciły dokładność.
Badacze zauważyli też, że język instrukcji (czyli to, w jakim sformułowano pytanie) ma duży wpływ na wyniki – zmiana języka polecenia mogła obniżyć skuteczność nawet o 20 punktów procentowych. To pokazuje, że modele nie przetwarzają wszystkich języków symetrycznie, a skuteczność zależy od sposobu, w jaki dane języki zostały reprezentowane w treningu i tokenizacji.
Podsumowując: sukces polszczyzny w benchmarku nie oznacza, że jest „najlepszym językiem dla AI”, ale że w jednym bardzo specyficznym teście – precyzyjnego wyszukiwania informacji w długim tekście – modele zachowywały największą dokładność właśnie w języku polskim. W innych typach zadań, takich jak zliczanie czy rozumowanie, różnice między językami były niewielkie lub odwrotne.
Język polski najlepszym językiem dla AI i pisania promptów na co dzień?
Codzienne korzystanie z AI wygląda zupełnie inaczej niż zadania benchmarkowe. Asystenci AI odpowiadają na pytania, generują teksty kreatywne czy kod, komentują, tłumaczą, streszczają albo prowadzą rozmowy. Tego typu zadania nie były oceniane w ONERULER. W badaniach naukowych nie ma obecnie jednego języka, który „zawsze wygrywa z innymi” we wszystkich testach – wyniki zależą od zadania, języka, środowiska modelu, a także optymalizacji na zbiorach treningowych.
Co więcej, wyniki innych badań wielojęzycznych pokazują, że przewagi językowe są znacznie bardziej zróżnicowane i silnie zależą od typu zadania oraz metodologii (więcej do znalezienia w źródłach na dole). Modele, które w jednym teście wypadają świetnie, w innych, opartych na rozumowaniu, kreatywnym generowaniu czy analizie instrukcji, mogą wciąż radzić sobie gorzej. Końcowy wynik zależy więc nie tylko od samego języka, lecz przede wszystkim od jakości i ilości danych, rodzaju zadania i sposobu konstrukcji promptu.
W skrócie: nie istnieje jeden „najlepszy język dla AI”. To, który język wypada lepiej, zależy od kontekstu — od typu zadania, sposobu tokenizacji, jakości danych i konstrukcji promptu.
Co z tego wynika?
Na tym etapie badań nie da się jednoznacznie odpowiedzieć, dlaczego polski osiągnął tak wysoki wynik w tym zadaniu. Być może kluczowa jest jego morfologia, być może sposób tokenizacji, a może przypadkowe zbieżności w danych treningowych. Potrzeba więcej eksperymentów, zanim będzie można mówić o prawidłowościach, a nie o ciekawostkach.
To może być potencjalnie ważny sygnał, że języki fleksyjne – takie jak polski, czeski czy ukraiński – mogą dawać modelom przewagę w pewnych typach przetwarzania tekstu. Ale na ten moment wciąż musimy to sprawdzić.
Nauka wymaga precyzji i powtarzalności. Wysoki wynik w jednym zadania nie oznacza od razu, że polski jest obiektywnie „najlepszym językiem dla AI” albo „najlepszym językiem do pisania promptów”. Warto mieć to z tyłu głowy za każdym razem, gdy będziemy czytać lub udostępniać naukowe doniesienia w uproszczonej formie. Zwłaszcza w czasach, gdy jedno chwytliwe zdanie potrafi żyć własnym życiem – oderwane od kontekstu, pozbawione metodologicznego tła i przetworzone w sensacyjną „prawdę dnia”.
Wynik, w którym polski wypadał najlepiej, nie jest jednoznacznym więc dowodem na wyjątkowość i wyższość naszego języka, lecz tak naprawdę zaproszeniem do dalszych badań. Pokazuje, że warto przyglądać się różnym językom i ich strukturze, bo właśnie w tej różnorodności kryje się klucz do lepszego zrozumienia działania modeli sztucznej inteligencji.
AKTUALIZACJA: Współautorka badania, Marzena Karpińska z Microsoft, w rozmowie z PAP podkreśliła, że nie należy nadinterpretować tych wyników. Jak wyjaśniła, eksperyment OneRuler nie mierzył „jakości promptów” ani „łatwości używania języka w AI”, lecz zdolność modeli do wyszukiwania informacji w długich tekstach. Dodała też, że różnice między językami mogą wynikać z samej metodologii – dla każdego języka analizowano inną książkę (np. Noce i dnie dla polskiego, Małe kobietki dla angielskiego, Don Kichot dla hiszpańskiego, Czarodziejska Góra dla niemieckiego). Możliwe więc, że polszczyzna wypadła najlepiej nie dlatego, że jest „łatwiejsza” dla modeli, lecz dlatego, że użyty tekst był dla nich prostszy do przetworzenia.
Autorka: Maria Bolek
Źródła
Badanie główne
https://arxiv.org/abs/2503.01996
Publikacje o promptowaniu i wielojęzyczności
https://aclanthology.org/2023.findings-emnlp.826/
