Dr Karol Chlasta, Adiunkt w Katedrze Zarządzania w Społeczeństwie Sieciowym pokazuje jak zwykła rozmowa z lekarzem może ujawnić pierwsze oznaki demencji na lata przed pojawieniem się widocznych objawów.
To już nie science fiction. Z moim zespołem badawczym z Akademii Leona Koźmińskiego opracowaliśmy nową metodę, która analizuje sposób mówienia pacjentów za pomocą sztucznej inteligencji. Nasze badanie pokazuje, że komputer może znacząco pomóc w wykrywaniu subtelnych zmian w mowie człowieka, które sygnalizują nadchodzące problemy z jego pamięcią i pojawiającą się demencją.
Demencja to nie tylko problem medyczny, ale ogromne wyzwanie społeczne. Według szacunków opublikowanych w Lancet Public Health liczba osób żyjących z demencją gwałtownie wzrośnie: z 57,4 miliona w 2019 roku do aż 152,8 miliona w 2050 roku. To oznacza, że w ciągu trzech dekad liczba chorych niemal się potroi. Jak podaje raport Alzheimer Europe, w Polsce, gdzie społeczeństwo starzeje się w szybkim tempie, problemy związane z postępującymi schorzeniami neurodegeneracyjnymi naszego mózgu, będą w przyszłości szczególnie dotkliwe.
Największym wyzwaniem w walce z demencją jest jej zbyt późne rozpoznanie. Kiedy pacjent lub jego rodzina zauważają pierwsze objawy – problemy z pamięcią, trudności w wykonywaniu codziennych czynności, zmiany w osobowości – choroba jest już w stadium znacznego zaawansowania. Mózg ma jednak zdumiewającą zdolność kompensacji: potrafi przez lata ukrywać postępujące uszkodzenia, wykorzystując zdrowe obszary do wykonywania funkcji, które normalnie obsługiwałyby już uszkodzone rejony.
Mowa jako okno do mózgu
W naszym badaniu dokonaliśmy fascynującego odkrycia: sposób, w jaki mówimy, zmienia się znacznie wcześniej niż inne funkcje poznawcze. Mowa to złożony proces, który angażuje różne obszary mózgu, od planowania wypowiedzi, przez dobór słów, aż po kontrolę mięśni odpowiedzialnych za jej artykulację. Kiedy demencja zaczyna uszkadzać mózg, te subtelne zmiany w mowie pojawiają się właśnie jako pierwsze sygnały ostrzegawcze.
Co konkretnie się zmienia? Pacjenci zaczynają robić dłuższe pauzy między słowami, jakby szukali właściwego wyrażenia. Ich wypowiedzi stają się mniej płynne, pojawiają się powtórzenia i błędy.
Składnia, czyli sposób budowania zdań, ulega uproszczeniu. Pojawiają się też błędy semantyczne, czyli problemy z doborem właściwych słów do wyrażenia myśli. Te zmiany są na początku tak subtelne, że ani pacjent, ani jego bliscy ich nie zauważają. Ale komputer – już tak.
Badanie przeprowadziliśmy w ramach międzynarodowego konkursu IEEE PROCESS Signal Processing Grand Challenge, organizowanego podczas konferencji ICASSP 2025. Zespoły z całego świata rywalizowały w analizie nagrań mowy, aby przewidywać poziom funkcji poznawczych i wspierać diagnozę demencji. W moim zespole, w którego skład weszli również Piotr Struzik i Grzegorz Marcin Wójcik, wykorzystaliśmy trzy standardowe zadania neuropsychologiczne, które od lat stosuje się w diagnostyce zaburzeń poznawczych.
- Pierwsze to analiza obrazka Cookie Theft, czyli kradzież ciastka – pacjent opisuje scenę przedstawioną na rysunku, co pozwala ocenić jego zdolność do tworzenia spójnej narracji.
- Drugie zadanie to płynność semantyczna – polega na podaniu jak największej liczby nazw zwierząt w określonym czasie.
- Trzecie, wreszcie, to płynność fonemiczna – wymyślanie słów zaczynających się na literę P.
Te pozornie proste zadania są dla mózgu bardzo skomplikowane. Wymagają nie tylko dostępu do słownictwa, ale też planowania wypowiedzi, kontroli uwagi i elastyczności myślenia. Dlatego te ćwiczenia są tak czułe na wczesne zmiany poznawcze.
Trzy rodzaje sztucznej inteligencji w jednym systemie
Kluczem do sukcesu mojego zespołu było połączenie trzech różnych technologii sztucznej inteligencji, z których każda analizuje mowę pod innym kątem:
Pierwsza technologia to Hidden-Unit BERT (HuBERT), model samouczenia reprezentacji mowy. Można go porównać do czułego ucha, które słucha nie tylko tego, co mówimy, ale jak to mówimy. HuBERT analizuje tempo artykulacji, zmienność wysokości dźwięku, strukturę widmową głosu, czyli rozkład energii akustycznej głosu na jego poszczególne częstotliwości i tworzy z tego 1024-wymiarowy wektor cech, czyli matematyczny opis sposobu mówienia. To jak odcisk palca naszej mowy.
Druga zastosowana technologia to tzw. extended Geneva Minimalistic Acoustic Parameter Set (eGeMAPS), standardowy, zbiór cech akustycznych głosu, wykorzystywany głównie w uczeniu maszynowym, sztucznej inteligencji i analizie emocjonalnej mowy. Wykorzystując narzędzie open-source Speech and Music Interpretation by Large-space Extraction (openSMILE), wyodrębniliśmy 88 standardowych parametrów paralingwistycznych, czyli istotne cechy głosu z punktu widzenia inżynierii dźwięku: jitter (nieregularność częstotliwości), shimmer (nieregularność amplitudy), HNR (czyli Harmonics-to-Noise Ratio, stosunek drgania fałdów głosowych tzw. harmonicznych do szumu) czy współczynniki cepstralne w skali melowej (ang. mel-frequency cepstral coefficients, w skrócie MFCC). To to standardowa technika wyodrębniania cech z dźwięku, szeroko stosowana w systemach rozpoznawania mowy i analizie muzyki. Wszystkie te parametry wspólnie opisały nam jakość i stabilność głosu.
Trzeci zestaw technologii, który wykorzystaliśmy, pochodzi od firmy OpenAI, to modele Whisper i GPT-4o. W pierwszej kolejności model Whisper przekształca nagranie w tekst, następnie GPT-4o ocenia różne aspekty języka: poprawność treści, płynność językową, gramatykę i składnię, błędy powtórzeń i intruzji oraz wieloznaczność treściową. Każdy wymiar jest oceniany w skali od 0 do 10, dzięki czemu powstaje zestaw cech, które można łatwo interpretować w praktyce klinicznej.
Niespodzianka w wynikach
Nasze wyniki okazały się dużym zaskoczeniem. Szczególnie interesująca była analiza tego, które cechy były najważniejsze dla przewidywań.
Okazało się, że HuBERT, model analizujący akustykę mowy odpowiadał za aż 75,7% mocy predykcyjnej. Cechy językowe analizowane przez GPT-4o stanowiły 13,5%, a pozostałe cechy akustyczne z eGeMAPS resztę. To pokazuje, że sposób mówienia jest równie ważny jak to, co mówimy.
Rezultaty działań naszego zespołu okazały się dużym sukcesem. W zadaniu przewidywania wyniku narzędzia Mini-Mental State Examination (MMSE), czyli standardowego testu funkcji poznawczych, nasz uczelniany zespół zajął 10. miejsce na 80 zespołów z całego świata, wyprzedzając zespoły z tak renomowanych uczelni, takich jak Singapore University of Technology, Donghua University z Szanghaju, Cooper Union z Nowego Jorku, University of Edinburgh i KU-Leuven z Belgii.
Praktyczne zastosowania tej technologii są potencjalnie rewolucyjne:
- Po pierwsze, mowę można analizować zdalnie, często i tanio. To idealne narzędzie w telemedycynie i opiece nad seniorami. Wyobraźmy sobie przyszłość, w której seniorzy regularnie rozmawiają z asystentem głosowym, który monitoruje ich funkcje poznawcze i ostrzega przed niepokojącymi zmianami.
- Po drugie, technologia ta oferuje interpretowalne wyniki. W przeciwieństwie do wielu rozwiązań sztucznej inteligencji, które działają jak czarna skrzynka, cechy oceniane przez model językowy są łatwe do zinterpretowania przez lekarzy, gdyż dla każdej osoby badanej widzimy różne aspekty poprawności wypowiadanej mowy. Dzięki temu lekarze mogą samodzielnie przeanalizować, dlaczego w tym konkretnym przypadku system wskazuje wyższe ryzyko demencji – czy to przez spadek spójności semantycznej mowy, problemy z płynnością, czy też przez bardziej liczne błędy gramatyczne u danego pacjenta.
- Po trzecie, technologia ta pozwala na wczesne wykrywanie drobnych zmian, które są niewidoczne w tradycyjnych testach. Połączenie analizy akustycznej z językową daje pełniejszy obraz funkcjonowania poznawczego człowieka niż każda z tych metod stosowana osobno.
- Wreszcie, technologia ta ma ogromny potencjał wdrożeniowy. Opiera się wyłącznie na nagraniach audio, a te można łatwo zbierać za pomocą smartfonów czy tabletów. Dzięki tej prostocie może wspierać lekarzy pierwszego kontaktu, terapeutów mowy i systemy opieki długoterminowej.
Wyzwania i kierunki rozwoju
Niemniej, uczciwie wskazujemy ograniczenia naszego odkrycia: błędy w automatycznym rozpoznawaniu mowy mogą wpływać na ocenę językową. W danych wykorzystanych do treningu modeli AI brakowało też części danych demograficznych np. dokładnego wieku osoby. Jednocześnie zadania związane z płynnością mowy były stosunkowo proste, a zbiór danych relatywnie niewielki. Dalsze badania powinny skupić się na bardziej naturalnych nagraniach, dialogach, dłuższych narracjach, czy też na analizie tzw. danych podłużnych, czyli opartych na danych pacjentów zbieranych przez lata. To pozwoli w pełni wykorzystać potencjał dużych modeli językowych w analizie zmian poznawczych.
Podsumowując, nasze badanie pokazuje, że jesteśmy na progu nowego otwarcia w neuropsychologii, a także w zarządzaniu opieką medyczną. Nowoczesne modele językowe mogą uzupełniać tradycyjne narzędzia diagnostyczne, dostarczając obiektywne, ilościowe wskaźniki zmian poznawczych. To nie oznacza zastąpienia lekarza przez komputer, ale wyposażenie go w potężne narzędzia wspomagające diagnozę.
Zaproponowane przez nas podejście oferuje skalowalną, opartą na danych metodę wczesnych poznawczych badań przesiewowych. W obliczu starzenia się populacji takie rozwiązania mogą stać się istotnym elementem systemów opieki zdrowotnej. Wczesne wykrywanie demencji oznacza możliwość wcześniejszego rozpoczęcia terapii, lepszego planowania opieki i większej szansy na zachowanie jakości życia pacjentów i ich rodzin.
___
Artykuł badawczy dostępny jest w Frontiers in Neuroinformatics: https://doi.org/10.3389/fninf.2025.1679664