Najnowsze badanie zespołu z Harvard Medical School i Beth Israel Deaconess Medical Center, opublikowane w czasopiśmie Science, porównuje wyniki diagnozowania dużych modeli językowych OpenAI z ocenami lekarzy prowadzących w rzeczywistych przypadkach zgłoszeń na izbę przyjęć. Autorzy przeanalizowali kilka eksperymentów zaprojektowanych, by zmierzyć przydatność modeli AI w różnych kontekstach medycznych, ze szczególnym uwzględnieniem sytuacji pilnych, gdzie dostępna jest ograniczona informacja i decyzje muszą być podejmowane szybko.
Badanie i metodologia
W jednym z kluczowych eksperymentów badacze skupili się na 76 pacjentach przyjętych na izbę przyjęć Beth Israel. Dla każdego przypadku porównano rozpoznania postawione przez dwóch obecnych tam lekarzy prowadzących z diagnozami wygenerowanymi przez modele OpenAI oznaczone jako o1 i 4o. Ocenę poprawności przeprowadziły dwie inne osoby z tytułem lekarza prowadzącego, które nie wiedziały, które diagnozy pochodziły od człowieka, a które od modelu — co umożliwiło ślepą ocenę jakości rozpoznań. Naukowcy podkreślili, że nie przetwarzali ani nie upraszczali danych: modele otrzymywały ten sam tekstowy zapis z elektronicznej dokumentacji medycznej, jaki był dostępny w momencie rozpoznania.
Wyniki eksperymentu
Wyniki pokazały, że model o1 w większości punktów diagnozy wypadł nominalnie lepiej lub porównywalnie z dwoma lekarzami prowadzącymi oraz z modelem 4o. Różnice były najbardziej wyraźne w pierwszym punkcie diagnostycznym — wstępnej triage na izbie przyjęć — gdzie informacji o pacjencie jest najmniej, a presja czasowa największa. W tym konkretnym zadaniu model o1 zaproponował diagnozę „dokładną lub bardzo zbliżoną” w 67% przypadków triage, podczas gdy jeden z lekarzy osiągnął taki wynik w 55% przypadków, a drugi w 50%.
Autorzy badania wskazują, że model przewyższył wcześniejsze wersje i przyjęte wzorce porównawcze stosowane w eksperymencie. Jednocześnie badacze jasno zaznaczają, że wyniki te nie oznaczają gotowości AI do samodzielnego podejmowania decyzji ratujących życie — stanowią raczej dowód konieczności dalszych, prospektywnych badań w warunkach klinicznych.
Ograniczenia i zastrzeżenia
Badanie obejmowało wyłącznie analizę tekstowych danych z dokumentacji medycznej. Autorzy zwracają uwagę na to, że obecne modele bazowe mają ograniczenia w rozumowaniu nad danymi niefrazowymi, takimi jak obrazy, sygnały monitoringu czy wyniki badań obrazowych w postaci surowej. Ponadto autorzy podkreślili potrzebę prospektywnych badań w rzeczywistych warunkach opieki nad pacjentem, by ocenić, jak modele zachowają się w szerszym, bardziej zróżnicowanym środowisku klinicznym i z interakcją z personelem medycznym oraz pacjentami. W pracy zwrócono też uwagę na brak istniejących formalnych ram odpowiedzialności za diagnozy proponowane przez AI.
W wywiadach dołączonych w relacjach prasowych autorzy badania podkreślali, że pacjenci nadal chcą, by ludzie prowadzili ich przez decyzje dotyczące leczenia i sytuacje zagrożenia życia, a także że konieczne są mechanizmy odpowiedzialności i weryfikacji, zanim technologia zostanie wdrożona szerzej.
Kontekst i potencjalne zastosowania
Wyniki tego rodzaju badań wpisują się w szerszą dyskusję o roli AI jako narzędzia wspomagającego pracę kliniczną, a nie jej zastępującego. W praktyce modele mogą znaleźć zastosowanie jako systemy wsparcia decyzji — pomoc przy szybkiej selekcji priorytetów pacjentów w triage, uzupełnienie informacji diagnostycznej dla młodszych lekarzy lub jako drugi konsultant przy formułowaniu hipotez diagnostycznych. Jednak by wprowadzić takie rozwiązania do klinik, potrzebne są rygorystyczne prospektywne badania, walidacja w różnych populacjach pacjentów, integracja z multimodalnymi danymi oraz jasne procedury nadzoru klinicznego.
- Badanie: zespół Harvard Medical School i Beth Israel; publikacja w Science.
- Próba: 76 pacjentów z izby przyjęć; porównanie dwóch lekarzy i modeli o1 oraz 4o.
- Wynik: model o1 miał 67% trafień „dokładnych lub bardzo bliskich” w triage; lekarze: 55% i 50%.
- Ograniczenia: analizowano tylko dane tekstowe; potrzebne prospektywne testy i ramy odpowiedzialności.
Podsumowując, badanie dostarcza dowodów na to, że duże modele językowe mogą wspomagać proces diagnostyczny w warunkach pilnych, szczególnie na etapie wstępnej triage, ale nie zastępują klinicznej oceny lekarzy. Kolejne kroki to rozszerzenie badań na próbki prospektywne, integracja z multimodalnymi danymi oraz prace nad regulacjami i mechanizmami odpowiedzialności — dopiero wtedy można rozważać bezpieczne i etyczne wdrożenia w opiece zdrowotnej.