W ostatnich dniach po polskich mediach społecznościowych krąży fala entuzjazmu, którą możemy podsumować sensacyjnym wnioskiem: „amerykańscy naukowcy potwierdzili, że polski to najlepszy język dla sztucznej inteligencji”. To brzmi jak powód do dumy narodowej – i rzeczywiście, trudno się nie uśmiechnąć, gdy słyszymy, że nasz język „pokonał” angielski. Jednak to tylko część prawdy – i to mocno uproszczona. Faktycznie, polski zajął pierwsze miejsce… ale tylko w jednym, bardzo określonym eksperymencie, dotyczącym jednego rodzaju zadania AI.
Język polski najlepszym językiem dla AI?
Bazą medialnego entuzjazmu jest naukowy raport One Ruler to Measure Them All: Benchmarking Multilingual Long-Context Language Models (Kim, Russell, Karpińska, Iyyer, 2025), stworzony przez Uniwersytet Maryland z udziałem Microsoftu. To solidna praca, ale jej wynik dotyczy ściśle określonego aspektu działania modeli LLM – nie „ogólnej jakości” języka polskiego ani przydatności do wszystkiego, co AI potrafi.
Czym jest benchmark?
Benchmark to test porównawczy: zestaw zadań, w których różne modele (np. GPT-4, Gemini, LLaMA czy Qwen) mierzą się w identycznych warunkach. W tym wypadku nie było to badanie codziennego promptowania ani praktycznego użycia AI, lecz seria eksperymentów na długich kontekstach tekstowych – nawet do 128 tysięcy tokenów. Modele dostawały bardzo długie instrukcje i teksty (odpowiedniki setek stron książki), a ich zadaniem było np. odnalezienie w tym ciągu informacji.
Chodziło więc o sprawdzenie tzw. pamięci kontekstowej i precyzyjnej ekstrakcji informacji przy ekstremalnie długim tekście. Modele AI były oceniane punktowo (poprawna lub niepoprawna odpowiedź) – zsumowane wyniki dały ranking skuteczności w różnych językach, przy czterech długościach promptu.
Polski był tu najlepszy – przy wyjątkowo długich tekstach modele AI po polsku myliły się najrzadziej i trafiały z odpowiedziami najczęściej. Różnice pojawiały się dopiero w bardzo dużych kontekstach (setki tysięcy tokenów), a różnica między polskim a angielskim sięgała kilku punktów procentowych (88% do 84% dla najdłuższych promptów).
Jednak należy pamiętać, że ten sukces dotyczy tylko tego konkretnego naukowego testu, w którym priorytetem była precyzyjna pamięć do liczbowych/konkretnych informacji w bardzo długim tekście.
Co dokładnie zbadano?
Badanie ONERULER obejmowało łącznie 26 języków i siedem typów zadań, zaprojektowanych tak, by precyzyjnie zmierzyć różne aspekty pracy modeli przy bardzo długich kontekstach – od wyszukiwania konkretnej informacji po łączenie i zliczanie danych.
Najważniejszą grupę stanowiły tzw. zadania typu „needle in a haystack” (igła w stogu siana) – czyli testy wyszukiwania pojedynczej informacji wśród tysięcy nieistotnych zdań. W niektórych wariantach model miał znaleźć jedną wartość (np. „Jaki numer przypisano do słowa X?”), w innych kilka powiązanych danych lub odpowiedzieć na wiele pytań jednocześnie.
Najtrudniejsze wersje zawierały też opcję odpowiedzi „brak”, co pozwalało ocenić, jak model radzi sobie z niepewnością – i tu większość z nich zaczynała popełniać błędy, wybierając „brak” nawet wtedy, gdy poprawna odpowiedź istniała.
Drugą grupą były tzw. zadania agregacyjne – w których model musiał policzyć, które słowa pojawiają się najczęściej w długiej liście. To test zdolności do uogólniania i sumowania informacji. W tych próbach wszystkie modele radziły sobie znacznie gorzej niż w zadaniach wyszukiwawczych – w trudniejszych wariantach wyniki spadały niemal do zera.
W ogólnym zestawieniu język polski uzyskał najwyższy wynik w najdłuższych kontekstach (64–128 tys. tokenów), osiągając średnio ok. 88% poprawnych odpowiedzi. Kolejne miejsca zajęły m.in. niemiecki, włoski i czeski, a angielski znalazł się na szóstej pozycji z wynikiem ok. 84%. Różnice w krótszych kontekstach (do 8 tys. tokenów) były niewielkie, ale rosły wraz z długością tekstu – to właśnie tam polski utrzymał stabilność, podczas gdy inne języki traciły dokładność.
Badacze zauważyli też, że język instrukcji (czyli to, w jakim sformułowano pytanie) ma duży wpływ na wyniki – zmiana języka polecenia mogła obniżyć skuteczność nawet o 20 punktów procentowych. To pokazuje, że modele nie przetwarzają wszystkich języków symetrycznie, a skuteczność zależy od sposobu, w jaki dane języki zostały reprezentowane w treningu i tokenizacji.
Podsumowując: sukces polszczyzny w benchmarku nie oznacza, że jest „najlepszym językiem dla AI”, ale że w jednym bardzo specyficznym teście – precyzyjnego wyszukiwania informacji w długim tekście – modele zachowywały największą dokładność właśnie w języku polskim. W innych typach zadań, takich jak zliczanie czy rozumowanie, różnice między językami były niewielkie lub odwrotne.
Język polski najlepszym językiem dla AI i pisania promptów na co dzień?
Codzienne korzystanie z AI wygląda zupełnie inaczej niż zadania benchmarkowe. Asystenci AI odpowiadają na pytania, generują teksty kreatywne czy kod, komentują, tłumaczą, streszczają albo prowadzą rozmowy. Tego typu zadania nie były oceniane w ONERULER. W badaniach naukowych nie ma obecnie jednego języka, który „zawsze wygrywa z innymi” we wszystkich testach – wyniki zależą od zadania, języka, środowiska modelu, a także optymalizacji na zbiorach treningowych.
Co więcej, wyniki innych badań wielojęzycznych pokazują, że przewagi językowe są znacznie bardziej zróżnicowane i silnie zależą od typu zadania oraz metodologii (więcej do znalezienia w źródłach na dole). Modele, które w jednym teście wypadają świetnie, w innych, opartych na rozumowaniu, kreatywnym generowaniu czy analizie instrukcji, mogą wciąż radzić sobie gorzej. Końcowy wynik zależy więc nie tylko od samego języka, lecz przede wszystkim od jakości i ilości danych, rodzaju zadania i sposobu konstrukcji promptu.
W skrócie: nie istnieje jeden „najlepszy język dla AI”. To, który język wypada lepiej, zależy od kontekstu — od typu zadania, sposobu tokenizacji, jakości danych i konstrukcji promptu.
Co z tego wynika?
Na tym etapie badań nie da się jednoznacznie odpowiedzieć, dlaczego polski osiągnął tak wysoki wynik w tym zadaniu. Być może kluczowa jest jego morfologia, być może sposób tokenizacji, a może przypadkowe zbieżności w danych treningowych. Potrzeba więcej eksperymentów, zanim będzie można mówić o prawidłowościach, a nie o ciekawostkach.
To może być potencjalnie ważny sygnał, że języki fleksyjne – takie jak polski, czeski czy ukraiński – mogą dawać modelom przewagę w pewnych typach przetwarzania tekstu. Ale na ten moment wciąż musimy to sprawdzić.
Nauka wymaga precyzji i powtarzalności. Wysoki wynik w jednym zadania nie oznacza od razu, że polski jest obiektywnie „najlepszym językiem dla AI” albo „najlepszym językiem do pisania promptów”. Warto mieć to z tyłu głowy za każdym razem, gdy będziemy czytać lub udostępniać naukowe doniesienia w uproszczonej formie. Zwłaszcza w czasach, gdy jedno chwytliwe zdanie potrafi żyć własnym życiem – oderwane od kontekstu, pozbawione metodologicznego tła i przetworzone w sensacyjną „prawdę dnia”.
Wynik, w którym polski wypadał najlepiej, nie jest jednoznacznym więc dowodem na wyjątkowość i wyższość naszego języka, lecz tak naprawdę zaproszeniem do dalszych badań. Pokazuje, że warto przyglądać się różnym językom i ich strukturze, bo właśnie w tej różnorodności kryje się klucz do lepszego zrozumienia działania modeli sztucznej inteligencji.
Autorka: Maria Bolek
Źródła
Badanie główne
https://arxiv.org/abs/2503.01996
Publikacje o promptowaniu i wielojęzyczności
https://aclanthology.org/2023.findings-emnlp.826/
