Czy AI ma „lepsze sumienie” niż ludzie?

W mediach społecznościowych przewijają się setki krótkich wpisów: jeden kpi z czyjegoś wyglądu, inny wzywa do „zrobienia porządku” z przeciwnikami politycznymi, kolejny opisuje „niewinny trik” na oszukanie fiskusa. Zanim zdążymy się zastanowić, czy to tylko mocny styl, czy już przekroczona granica, obok takiej treści pojawia się ocena: ten tekst dotyka krzywdy, niesprawiedliwości, nadużycia władzy. Tę ocenę wystawił nie człowiek, lecz model językowy. I – co pokazują najnowsze badania – w wielu takich sytuacjach jest od nas bardziej czuły na moralne „czerwone lampki”.

To nie jest scenariusz z serialu, tylko efekt pracy dwojga badaczy: dr Aliny Landowskiej z Akademii Leona Koźmińskiego oraz dr Macieja Skórskiego z Uniwersytetu Luksemburskiego współpracującego z Uniwersytetem Warszawskim. Ich artykuł „Beyond Human Judgment: Bayesian Evaluation of LLMs’ Moral Values Understanding” został przyjęty na warsztat Uncertainty-Aware NLP  konferencji EMNLP 2025, jednej z najważniejszych na świecie w dziedzinie przetwarzania języka naturalnego. W centrum tego projektu jest jedno niewygodne pytanie: jeśli poprosimy sztuczną inteligencję i ludzi o rozpoznawanie moralnych wątków w tekstach, kto poradzi sobie lepiej?

Jak zmierzyć coś tak miękkiego jak „sumienie”?

Żeby w ogóle zadać takie pytanie, trzeba ustalić, co to znaczy, że tekst ma „moralny wymiar”. Badacze sięgają po Moral Foundations Theory Jonathana Haidta – koncepcję opisującą kilka podstawowych osi naszej wrażliwości moralnej: krzywdę i troskę, sprawiedliwość i oszustwo, lojalność i zdradę, szacunek do autorytetu i bunt, świętość i profanację.

Na tej siatce pojęć budują bardzo konkretny eksperyment. Zbierają trzy duże zbiory tekstów – m.in. tweety, komentarze z Reddita i fragmenty artykułów prasowych – a następnie proszą setki osób, by zaznaczały, czy w danym fragmencie pojawiają się określone wątki moralne. W efekcie powstaje ogromna baza: ponad sto tysięcy krótkich tekstów i ponad 250 tysięcy „moralnych” anotacji. Każda z nich to czyjś osąd: „tu jest krzywda”, „tu jest niesprawiedliwość”, „tu nie ma nic moralnego, to tylko opis faktu”.

Szybko okazuje się, że ludzie nie widzą świata moralnego tak samo. W jednych fragmentach część osób widzi krzywdę, inni – tylko ostrą ironię. Ktoś uznaje opowieść o zdradzonym zaufaniu za poważne nadużycie, ktoś inny traktuje to jako „życiowy przypadek”. Dla jednych wulgarny żart o religii to złamanie tabu, dla innych – dopuszczalna prowokacja.

Zamiast udawać, że istnieje jedna „prawdziwa” odpowiedź, dr Landowska i dr Skórski przyjmują inną podejście: budują bayesowski model niepewności, zamiast po prostu zliczać głosy i zakładać, że większość ma rację. Każdy ludzki osąd traktują jak fragment danych i szacują, jak wiarygodny jest dany anotator oraz jak rozkładają się odpowiedzi w całej grupie. Z tego tworzą „miękką” etykietę – probabilistyczny opis mówiący nie tylko, czy w tekście jest moralny wątek, ale też, jak bardzo jesteśmy co do tego pewni. Dopiero względem tak skonstruowanego „ludzkiego wzorca” porównują zachowanie modeli językowych.

Claude, DeepSeek, LLaMA i… przeciętny użytkownik

Do badania wybrane zostają trzy współczesne wielkie modele językowe: Claude, DeepSeek oraz LLaMA. Każdy z nich dostaje dokładnie te same teksty, co ludzie – bez podpowiedzi, co „powinno” z nich wynikać. Zadanie jest proste w formie, trudne w treści: czy w danym fragmencie pojawia się któryś z moralnych fundamentów? Czy jest w nim jakiś rodzaj krzywdy, niesprawiedliwości, zdrady, buntu wobec autorytetu, naruszenia tabu?

Kiedy wyniki modeli zestawia się z probabilistycznym „wzorem ludzkim”, okazuje się, że sztuczna inteligencja wypada bardzo korzystnie na tle ludzkich ocen. W uśrednionym ujęciu odpowiedzi modeli lokują się w górnych 25 procentach jakości ludzkich odpowiedzi – czyli gdyby AI była jednym z anotatorów, znalazłaby się w górnym kwartylu uczestników eksperymentu.

Jeszcze ciekawsza jest analiza błędów. Badacze pytają: kiedy mylimy się w sposób szczególnie niebezpieczny? Nie wtedy, gdy widzimy moralny problem tam, gdzie inni go nie dostrzegają – to najwyżej nadwrażliwość. Najgroźniejsze są sytuacje, kiedy moralny wątek jest, a my go nie zauważamy.

Te „ślepe plamki” – fałszywe negatywy – okazują się bardzo częste u ludzi. W ponad połowie przypadków, w których tekst faktycznie niesie moralny ciężar, statystyczny anotator go nie zaznacza. Modele językowe są w tym sensie bardziej czujne: takie przeoczenia zdarzają im się dużo rzadziej – około dwa do czterech razy rzadziej niż ludziom, w zależności od wymiaru moralnego. Jeśli więc w czymś przesadzają, to raczej w nadwrażliwości: czasem widzą moralny cień tam, gdzie część osób powiedziałaby „bez przesady”.

Można to porównać do ochroniarza przy wejściu na koncert. Ten, który przepuszcza wszystkich, bo „przecież nic się nie stanie”, wydaje się sympatyczny – aż do momentu, gdy jednak coś się stanie. Czujny ochroniarz częściej poprosi o dodatkowe sprawdzenie; bywa irytujący, ale statystycznie ma mniejsze szanse, że przeoczy kogoś, kto naprawdę nie powinien wejść. Modele z „moralną nadwrażliwością” pełnią właśnie rolę takiego czujnego ochroniarza.

Chociaż analiza oparta na Moral Foundations Theory pozwala nam uchwycić, jak modele językowe rozpoznają moralne wątki w tekście i jak wypadają na tle ludzi, to wciąż mówimy o świadomości moralnych sygnałów – nie o ich rozstrzyganiu. Prawdziwe wyzwanie pojawia się wtedy, gdy trzeba podjąć decyzję w sytuacji konfliktu wartości. W kolejnych etapach badań autorzy przesuwają punkt ciężkości: od pasywnego rozpoznawania wątków moralnych ku analizie dylematów moralnych, czyli scenariuszy, w których żadna decyzja nie jest jednoznacznie dobra. To właśnie one pozwalają najpełniej zrozumieć, czy i jak modele AI mogą wspierać ludzi w podejmowaniu trudnych etycznych decyzji – oraz gdzie przebiega granica ich „moralnej kompetencji”.

Moralna nadwrażliwość jako funkcja, nie wada

W świecie, w którym coraz więcej decyzji jest podejmowanych z udziałem AI – od moderacji treści, przez rekomendacje finansowe, po wspieranie rekrutacji – rozróżnienie między „ślepą plamką” a „dmuchaniem na zimne” nabiera ogromnego znaczenia. Od tego, czy system częściej coś przeoczy, czy raczej zareaguje „na wyrost”, zależy realne ryzyko dla użytkowników.

Jeśli system moderacji nie zauważa mowy nienawiści, przemocy czy wezwań do łamania prawa, konsekwencje odczuwamy wszyscy. Jeśli przeciwnie – jest trochę za ostrożny i czasem oznaczy tekst jako problematyczny „na wyrost”, budzi to frustrację, ale może chronić tych najbardziej wrażliwych. W wielu zastosowaniach bezpieczniej jest mieć czujnik ustawiony nieco „za wysoko” niż ryzykować kompletne przeoczenie problemu.

Praca dr Landowskiej i dr Skórskiego pokazuje, że współczesne modele językowe mogą być projektowane właśnie jako takie „czujniki moralne”. Nie zastępują ludzkich wartości ani sumienia, ale są wyspecjalizowane w wykrywaniu sygnałów, które my – zmęczeni, roztargnieni, przyzwyczajeni – zbyt łatwo ignorujemy. Jednocześnie badacze nie idealizują AI. To, że model jest bardziej czuły na moralne wątki w tekście, nie oznacza, że „ma wartości” w ludzkim sensie. Jego decyzje opierają się na statystycznych wzorcach, na tym, jak wcześniej podobne treści były oceniane. Dlatego tak ważne jest, by te wzorce były jawne, mierzalne i możliwe do zakwestionowania.

Od artykułu do narzędzia: Moralytics

Z tego samego projektu, który zaowocował przyjęciem artykułu na EMNLP 2025, rozwija się coś więcej niż tylko kolejna publikacja. Dr Landowska i dr Skórski rozwijają platformę Moralytics – zestaw narzędzi zaprojektowanych po to, by mierzyć, wyjaśniać i dostrajać „moralną inteligencję” systemów AI w praktyce, a nie tylko w warunkach badawczych.

W praktyce ma to umożliwić każdej instytucji korzystającej z modeli językowych – bankowi, platformie społecznościowej, urzędowi publicznemu czy uczelni – zadanie swoim systemom kilku prostych, ale fundamentalnych pytań i uzyskanie na nie twardych odpowiedzi. Jak często model przeoczy treści, w których pojawia się krzywda czy niesprawiedliwość? Czy jest równie wrażliwy na naruszenia godności w odniesieniu do różnych grup społecznych? Jak reaguje na komunikaty oscylujące na granicy lojalności i zdrady, buntu i posłuszeństwa? Czy jego „wrażliwość moralna” zmienia się w zależności od języka, kontekstu, tematu?

Moralytics ma działać jak precyzyjny zestaw narzędzi do audytu i kalibracji: od pomiaru i wizualizacji moralnego „profilu” modelu, po mechanizmy dostrajania go do konkretnych wartości organizacji i wymogów regulacyjnych. To propozycja infrastruktury dla tzw. godnej zaufania sztucznej inteligencji, (ang. Trustworthy AI), projektowanej z myślą o ramach takich jak EU AI Act czy standardy ISO – tak, by moralna wrażliwość systemu była czymś, co można policzyć, udokumentować i korygować.

To podejście zostało zauważone również poza środowiskiem akademickim. Badacze zostali wybrani do programu Top 1000 Innovators of Poland in Silicon Valley, który wspiera projekty o potencjale globalnej zmiany. Media w Luksemburgu pisały o ich wynikach pod tytułem „L’IA meilleure que l’humain sur les questions morales” – „AI lepsza od ludzi w kwestiach moralnych”. To tytuł, który obiecuje prostą puentę, lecz w istocie prowokuje do zadania znacznie głębszych pytań.

Czy AI ma „lepsze sumienie” niż ludzie?

Nie. Sztuczna inteligencja nie ma sumienia w ogóle – nie odczuwa wstydu, winy, empatii. Nie budzi się w nocy z myślą, że kogoś skrzywdziła. To algorytm uczący się statystycznych wzorców z naszych danych. Ale w dobrze zdefiniowanym zadaniu – takim jak rozpoznawanie moralnych wątków w tekście – może okazać się bardziej rzetelna, konsekwentna i czujna niż przeciętny użytkownik internetu. Może być mniej podatna na zmęczenie, rutynie, cynizmowi. Może częściej powiedzieć „tu jest problem”, gdy my machnęlibyśmy ręką.

Paradoks polega na tym, że takie wyniki mówią tyle samo o AI, co o nas samych. Modele językowe przejmują nasze najlepsze intuicje – wyciągnięte z ogromnej liczby przykładów, częściowo oczyszczone z błędów i opakowane w solidną metodologię – i przypominają nam jednocześnie, że my sami mamy ograniczone zasoby: uwagi, czasu, cierpliwości.

Praca dr Landowskiej i dr. Skórskiego nie jest manifestem „moralnej wyższości maszyn”, lecz propozycją, jak uczynić z AI lustro dla naszych wartości. Lustro niedoskonałe, ale przydatne – takie, które nie zastępuje sumienia, lecz pozwala zobaczyć, gdzie nasze własne sumienie ma ślepe plamki i gdzie zbyt łatwo przechodzimy nad czymś do porządku dziennego. A może to właśnie jest najciekawsze: nie to, że AI bywa od nas skuteczniejsza w rozpoznawaniu moralnych sygnałów, lecz to, że zmusza nas do zadania sobie pytania, kiedy i dlaczego sami przestaliśmy je widzieć.

Czytaj także