Badanie Harvardu: model AI w diagnozie z gabinetu ratunkowego w niektórych przypadkach przewyższył lekarzy

Kluczowe informacje

Model o1 osiągnął lepsze lub porównywalne wyniki z lekarzami w zadaniach diagnostycznych z ER.
Wstępna triage to obszar, gdzie przewaga AI była najbardziej widoczna.
Badanie używało nieprzetworzonych danych z dokumentacji elektronicznej — modele pracowały na tym samym tekście co lekarze.
Autorzy wzywają do prospektywnych badań i zwracają uwagę na ograniczenia oraz brak ram odpowiedzialności.

Badanie i metodologia

W jednym z kluczowych eksperymentów badacze skupili się na 76 pacjentach przyjętych na izbę przyjęć Beth Israel. Dla każdego przypadku porównano rozpoznania postawione przez dwóch obecnych tam lekarzy prowadzących z diagnozami wygenerowanymi przez modele OpenAI oznaczone jako o1 i 4o. Ocenę poprawności przeprowadziły dwie inne osoby z tytułem lekarza prowadzącego, które nie wiedziały, które diagnozy pochodziły od człowieka, a które od modelu — co umożliwiło ślepą ocenę jakości rozpoznań. Naukowcy podkreślili, że nie przetwarzali ani nie upraszczali danych: modele otrzymywały ten sam tekstowy zapis z elektronicznej dokumentacji medycznej, jaki był dostępny w momencie rozpoznania.

Wyniki eksperymentu

Wyniki pokazały, że model o1 w większości punktów diagnozy wypadł nominalnie lepiej lub porównywalnie z dwoma lekarzami prowadzącymi oraz z modelem 4o. Różnice były najbardziej wyraźne w pierwszym punkcie diagnostycznym — wstępnej triage na izbie przyjęć — gdzie informacji o pacjencie jest najmniej, a presja czasowa największa. W tym konkretnym zadaniu model o1 zaproponował diagnozę „dokładną lub bardzo zbliżoną” w 67% przypadków triage, podczas gdy jeden z lekarzy osiągnął taki wynik w 55% przypadków, a drugi w 50%.

Autorzy badania wskazują, że model przewyższył wcześniejsze wersje i przyjęte wzorce porównawcze stosowane w eksperymencie. Jednocześnie badacze jasno zaznaczają, że wyniki te nie oznaczają gotowości AI do samodzielnego podejmowania decyzji ratujących życie — stanowią raczej dowód konieczności dalszych, prospektywnych badań w warunkach klinicznych.

Ograniczenia i zastrzeżenia

Badanie obejmowało wyłącznie analizę tekstowych danych z dokumentacji medycznej. Autorzy zwracają uwagę na to, że obecne modele bazowe mają ograniczenia w rozumowaniu nad danymi niefrazowymi, takimi jak obrazy, sygnały monitoringu czy wyniki badań obrazowych w postaci surowej. Ponadto autorzy podkreślili potrzebę prospektywnych badań w rzeczywistych warunkach opieki nad pacjentem, by ocenić, jak modele zachowają się w szerszym, bardziej zróżnicowanym środowisku klinicznym i z interakcją z personelem medycznym oraz pacjentami. W pracy zwrócono też uwagę na brak istniejących formalnych ram odpowiedzialności za diagnozy proponowane przez AI.

W wywiadach dołączonych w relacjach prasowych autorzy badania podkreślali, że pacjenci nadal chcą, by ludzie prowadzili ich przez decyzje dotyczące leczenia i sytuacje zagrożenia życia, a także że konieczne są mechanizmy odpowiedzialności i weryfikacji, zanim technologia zostanie wdrożona szerzej.

Kontekst i potencjalne zastosowania

Wyniki tego rodzaju badań wpisują się w szerszą dyskusję o roli AI jako narzędzia wspomagającego pracę kliniczną, a nie jej zastępującego. W praktyce modele mogą znaleźć zastosowanie jako systemy wsparcia decyzji — pomoc przy szybkiej selekcji priorytetów pacjentów w triage, uzupełnienie informacji diagnostycznej dla młodszych lekarzy lub jako drugi konsultant przy formułowaniu hipotez diagnostycznych. Jednak by wprowadzić takie rozwiązania do klinik, potrzebne są rygorystyczne prospektywne badania, walidacja w różnych populacjach pacjentów, integracja z multimodalnymi danymi oraz jasne procedury nadzoru klinicznego.

Badanie: zespół Harvard Medical School i Beth Israel; publikacja w Science.

Próba: 76 pacjentów z izby przyjęć; porównanie dwóch lekarzy i modeli o1 oraz 4o.

Wynik: model o1 miał 67% trafień „dokładnych lub bardzo bliskich” w triage; lekarze: 55% i 50%.

Ograniczenia: analizowano tylko dane tekstowe; potrzebne prospektywne testy i ramy odpowiedzialności.

Podsumowując, badanie dostarcza dowodów na to, że duże modele językowe mogą wspomagać proces diagnostyczny w warunkach pilnych, szczególnie na etapie wstępnej triage, ale nie zastępują klinicznej oceny lekarzy. Kolejne kroki to rozszerzenie badań na próbki prospektywne, integracja z multimodalnymi danymi oraz prace nad regulacjami i mechanizmami odpowiedzialności — dopiero wtedy można rozważać bezpieczne i etyczne wdrożenia w opiece zdrowotnej.

Popularne

Badanie Harvardu: model AI w diagnozie z gabinetu ratunkowego w niektórych przypadkach przewyższył lekarzy

Kluczowe informacje

Odkryj rewolucyjną metodę nauki języków

Badanie i metodologia

Wyniki eksperymentu

Ograniczenia i zastrzeżenia

Kontekst i potencjalne zastosowania

Zobacz także

Skye: aplikacja AI przeprojektowująca ekran iPhone’a przyciąga inwestorów przed premierą

David Silver (ex‑DeepMind) zebrał 1,1 mld USD na budowę „superuczącego się” AI bez danych od ludzi

Haker oskarżony o ataki na zlecenie Chin przekazany do USA

Australia zmusza Big Tech do płacenia za wiadomości lub nałożenia 2,25% podatku

Komentarze (0)

Dodaj komentarz

Popularne

Jak przetrwać kolejne 1000 dni z Trumpem? Strateg: odmówmy mu uwagi

Skye: aplikacja AI przeprojektowująca ekran iPhone’a przyciąga inwestorów przed premierą

David Silver (ex‑DeepMind) zebrał 1,1 mld USD na budowę „superuczącego się” AI bez danych od ludzi

Haker oskarżony o ataki na zlecenie Chin przekazany do USA

Rewolucja w egzaminach na prawo jazdy: likwidacja placu manewrowego dla kategorii B i B1