Sztuczna inteligencja przewyższa lekarzy w diagnozowaniu na ostrym dyżurze - wyniki badań z Harvardu

04.05.2026, 03:02

W nowym badaniu opublikowanym w czasopiśmie Science, duże modele językowe wykazały wyższą lub porównywalną dokładność diagnozy na oddziale pomocy doraźnej w porównaniu z lekarzami.

Co wiadomo

Badanie przeprowadził zespół badaczy z Harvard Medical School oraz centrum medycznego Beth Israel Deaconess. Sprawdzali, jak modele OpenAI, w szczególności o1 i 4o, radzą sobie z przypadkami medycznymi, wykorzystując rzeczywiste dane pacjentów.

W jednym z eksperymentów przeanalizowano 76 przypadków zgłoszeń pacjentów na oddział pomocy doraźnej. Dwóch lekarzy internistów opracowywało diagnozy równolegle z modelami AI. Następnie dwóch innych lekarzy, którzy nie wiedzieli, które odpowiedzi pochodzą od ludzi, a które od AI, oceniało dokładność diagnoz.

Wyniki pokazały, że model o1 na każdym etapie diagnozy lub przewyższał, lub był na równi z lekarzami oraz modelem 4o. Największa różnica zaobserwowana była na etapie wstępnego sortowania pacjentów na oddziale pomocy doraźnej, gdy informacji o stanie jest najmniej, a decyzje trzeba podejmować szybko.

W przypadkach triage o1 dawał dokładną lub bliską poprawnej diagnozę w 67% przypadków. Dla porównania, jeden lekarz osiągał 55% dokładności, drugi 50%.

Badacze podkreślili, że dane nie przeszły wstępnej obróbki, a modele pracowały z tymi samymi informacjami z elektronicznych kart medycznych, które były dostępne lekarzom w czasie rzeczywistym.

Pomimo wyników, autorzy podkreślają, że to nie oznacza gotowości AI do samodzielnych decyzji klinicznych. Chodzi raczej o potrzebę dalszych badań prospektywnych w rzeczywistych warunkach medycyny.

Lekarze również ostrzegają, że na razie brak jest jasnego systemu odpowiedzialności za decyzje medyczne wygenerowane przez AI, a pacjenci wciąż potrzebują udziału człowieka w krytycznych decyzjach.

Źródło: Science