OpenAI chwali się dokładnością AI w testach, a „Nature” pyta: gdzie są dowody?

Najpierw badanie kliniczne, potem publikacja naukowa, a na koniec walidacja w praktyce i analiza wpływu na wyniki leczenia – to obowiązujący standard oceny urządzeń medycznych.

Ponieważ ta miara nie sprawdza się w przypadku modeli AI, firmy AI forsują nowe podejście do oceny wydajności w czasie rzeczywistym oparte na tzw. testach porównawczych (ang. benchmark). Konflikt narasta, a oliwy do ognia dolewają niedopasowane do AI regulacje.

AI jak egzotyczne rozwiązania

Od kilku miesięcy pogłębia się spór dotyczący zastosowania AI w medycynie, który można podzielić na trzy akty. 21 kwietnia br. redakcja „Nature Medicine” opublikowała artykuł wzywający firmy AI do przedstawiania realnych dowodów na wartość kliniczną modeli sztucznej inteligencji stosowanych w medycynie. Dwa dni później OpenAI zaprezentowało ChatGPT for Clinicians (dla Lekarzy) oraz tzw. Health- Bench – system oceny modeli AI oparty na pomiarze ich skuteczności z wykorzystaniem testów na realistycznych przypadkach klinicznych.

Kilka dni później OpenEvidence – platforma AI pozwalająca lekarzom uzyskiwać oparte na najnowszej literaturze naukowej odpowiedzi na pytania medyczne – wycofał się z rynku UE i Wielkiej Brytanii. Można by ten fakt zignorować, gdyby nie liczby. W USA z bezpłatnego OpenEvidence korzysta już 860 tys. licencjonowanych lekarzy (40 proc.), co czyni je najpopularniejszym narzędziem wspomagania decyzji klinicznych. Nie bez powodu: model trenowany jest wyłącznie na recenzowanej literaturze naukowej, a firma współpracuje m.in. z „New England Journal of Medicine” oraz American Medical Association.

Problem nie jest nowy. Obecne prawo, w tym m.in. europejska regulacja ds. urządzeń medycznych (Medical Devices Regulation, MDR), zupełnie nie nadaje się do oceny systemów generatywnej AI. Przykładowo, ChatGPT dla Lekarzy (niedostępny w Polsce), podobnie jak OpenEvidence, jest systemem dynamicznym. Model uczy się i zmienia praktycznie z każdym nowym zapytaniem. Tymczasem dostępne przepisy były projektowane do statystycznych urządzeń medycznych, czyli takich, które raz zaprojektowane miały tę samą funkcjonalność przez lata. Na tej zasadzie bazuje też evidence-based medicine – lekarz może korzystać z urządzeń, które przeszły przez badania kliniczne, i podejmować decyzje dotyczące leczenia pacjenta wyłącznie na podstawie aktualnych, wiarygodnych i rzetelnych badań naukowych.

Ale co, jeśli teraz skuteczność modeli AI można mierzyć w czasie rzeczywistym? Czy wysokie wskaźniki wydajności, dokładności i bezpieczeństwa wystarczą, aby zaufać modelowi AI i nie czekać na jego oficjalną certyfikację według starych zasad (której może się nie doczekać, bo prawo nie nadąża za AI)?

„Nature” na straży starych zasad

Artykuł „Show us the evidence for the value of medical AI” (Pokażcie nam dowody na to, że sztuczna inteligencja w medycynie ma wartość) opublikowany przez „Nature Medicine” został odebrany przez część środowiska jako próba ochrony starych zasad. Redakcja podkreśla jednak, że nie jest przeciwko AI, a narzędzia oparte na sztucznej inteligencji są już obecne na wszystkich poziomach systemu ochrony zdrowia, od modeli predykcyjnych i systemów wsparcia decyzji klinicznych po generatywne chatboty używane przez lekarzy i pacjentów.

Problemem jest jednak brak dowodów na realny wpływ tych systemów na wyniki pacjentów. A to powoduje, że technologie wdrażane są często z zachwytu, a nie na podstawie obiektywnej i rzetelnej oceny ich skuteczności i korzyści.

Autorzy zwracają uwagę, że wiele publikacji dotyczących AI skupia się na dokładności modelu, np. w egzaminach lekarskich, benchmarkach (testach porównawczych) albo symulowanych zadaniach, zamiast na tym, czy pacjent rzeczywiście odniesie korzyść z zastosowania modelu AI. „Nature Medicine” podkreśla, że skuteczność AI powinna być oceniana proporcjonalnie do ryzyka i wpływu klinicznego danego rozwiązania, co oznacza konieczność walidacji zewnętrznej, badań implementacyjnych i prospektywnych oraz analizy wpływu na procesy, bezpieczeństwo i wyniki leczenia.

To nie przypadek, że tekst został opublikowany właśnie teraz. Szybko rośnie wykorzystanie generatywnej AI w medycynie. Według danych OpenAI z ChatGPT Zdrowie każdego dnia korzysta 40 mln pacjentów. Wersja dla lekarzy – czyli ChatGPT for Clinicians – także szybko zyskuje na popularności, i to nawet jeśli nie posiada statusu wyrobu medycznego ani pełnej walidacji klinicznej w rozumieniu klasycznych standardów evidence-based medicine.

To nie wszystkim się podoba. „Nature Medicine” przypomina, że medycyna od dekad opiera się na jasno zdefiniowanych standardach dowodowych. Niezależnie od tego, czy chodzi o nowy lek, urządzenie medyczne, czy algorytm AI, wymagane są dowody bezpieczeństwa, skuteczności i wpływu klinicznego. AI nie powinno być wyjątkiem od tej zasady tylko dlatego, że rozwija się szybciej niż tradycyjne technologie medyczne.

HealthBench: konkurencyjny model oceny AI?

OpenAI nie ma zamiaru biernie czekać na rozwój prawa, tylko chce je współtworzyć. Stąd też HealthBench, czyli test porównawczy dla modeli AI – system oceny wydajności i dokładności modeli AI. Zawiera on 5 tys. wieloetapowych scenariuszy rozmów lekarza z pacjentem opartych na prawdziwych przypadkach klinicznych. Test obejmuje konsultacje z pacjentem, tworzenie do kumentacji oraz wyszukiwanie i interpretację dowodów klinicznych. Prawidłowa procedura dla każdego przypadku została opracowana przez lekarzy.

Jest to o wiele bardziej wymagający test niż sprawdzanie dokładności modelu, np. na pytaniach egzaminacyjnych na studiach medycznych, co było nadużywane, ale w zasadzie niewiele mówiło o dokładności AI. Nawet ChatGPT uzyskuje już ponad 90-proc. dokładność odpowiedzi, a kiedy halucynuje, potrafi wprowadzić pacjenta w błąd.

HealthBench oprócz poprawności odpowiedzi mierzy też bezpieczeństwo decyzji z punktu widzenia leczenia pacjenta oraz sposób komunikacji z chorym i zgodność z rekomendacjami oraz ścieżkami diagnostycznymi. OpenAI podkreśla, że benchmark dokładnie odzwierciedla sposób podejmowania decyzji przez lekarzy. Zaletą jest też możliwość testowania modelu AI na bieżąco, w czasie rzeczywistym. W efekcie wydajność modelu można zmierzyć tu i teraz. W przypadku klasycznych badań klinicznych wynik jest wynikiem w chwili przeprowadzenia badania, czyli czasami sprzed miesiąca albo nawet lat. W tym czasie model AI może być już zupełnie inny niż w momencie przeprowadzenia badania.

ChatGPT dla Lekarzy i OpenEvidence chwalą się dobrymi wynikami w testach porównawczych. Przykładowo, GPT-5.4 w wersji ChatGPT dla Lekarzy uzyskał wynik 59,0 pkt w teście HealthBench Professional. Lekarze osiągnęli średnio 43,7 pkt – i to mimo że mieli nieograniczony czas i dostęp do internetu.

Benchmark to jednak komercyjna skala, a Europa ma swoje twarde przepisy, które blokują drogę wielu nowym rozwiązaniom AI. To właśnie dlatego pod koniec kwietnia OpenEvidence wycofał swoją platformę z Unii Europejskiej i Wielkiej Brytanii, tłumacząc decyzję rosnącą niepewnością regulacyjną dotyczącą systemów AI. Chodzi o niejasności wokół EU AI Act oraz klasyfikacji systemów wspierających decyzje kliniczne – a takim według prawa unijnego jest OpenEvidence – jako systemów wysokiego ryzyka. Oznacza to konieczność spełnienia dodatkowych wymogów dotyczących przejrzystości działania modelu, walidacji klinicznej, monitorowania po wdrożeniu, zarządzania ryzykiem i odpowiedzialności prawnej.

Tych wymagań OpenEvidence nie spełnia i raczej szybko ich nie spełni, bo firma po prostu nie postrzega swojego rozwiązania jako urządzenia medycznego. Zresztą nie musi, bo w USA może swobodnie działać, podobnie jak w wielu innych państwach na świecie. Nawet bez rynku europejskiego firma radzi sobie dobrze. Jej wartość wyceniana jest na 12 mld dol.

Co to oznacza dla placówek zdrowia i lekarzy?

Spór pozostaje nierozwiązany, a placówki zdrowia mają dylemat: kiedy model AI to już urządzenie medyczne? Kiedy wystarczą świetne wyniki testów porównawczych, a kiedy jednak konieczne są badania naukowe? Czy wolno stosować rozwiązania takie jak OpenEvidence w procesie podejmowania decyzji klinicznych?

No i jeszcze jedno pytanie: skoro narzędzia wspierające decyzje kliniczne (także uzupełnione o AI), już stosowane przez szpitale, są klasyfikowane jako „rozwiązania do przeglądania literatury medycznej” albo „informacyjne”, a nie jako urządzenia medyczne, to dlaczego nie można stosować AI? Powód jest prosty: regulacje nie nadążają za AI.

Trzeba też wziąć pod uwagę, że wysoka skuteczność modelu w testach porównawczych nie zawsze przekłada się na bezpieczeństwo leczenia. Duża część środowiska medycznego podkreśla różnicę między „wydajnością” a „dowodami klinicznymi”. Benchmark może sugerować, że model dobrze radzi sobie w określonych scenariuszach testowych. Nie zmienia to faktu, że benchmark nie daje żadnej odpowiedzi na pytanie, czy model poprawia wyniki pacjentów, zmniejsza liczbę błędów albo zwiększa bezpieczeństwo terapii.

Pojawiają się pierwsze badania, które podważają wiarygodność optymistycznych wyników z testów porównawczych. Przykładowo „ChatGPT Health performance in a structured test of triage recommendations” (Wyniki ChatGPT Health w ustrukturyzowanym teście dotyczącym zaleceń w triażu). Wynika z niego, że w przypadkach wymagających pilnej pomocy ChatGPT Zdrowie takiej nie zalecał w 51,6 proc. przypadków. Model kierował pacjentów z potencjalnie zagrażającymi stanami zdrowia, takimi jak kwasica ketonowa czy rozwijająca się niewydolność oddechowa, do konsultacji w ciągu 24–48 godz. zamiast na SOR.

Rozwiązania AI utknęły w szarej strefie. Testy porównawcze nie pokazują całej prawdy, a obecny system weryfikacji opóźnia oficjalne dopuszczanie nowych technologii do użytku. Tymczasem wiele rozwiązań AI, takich jak OpenEvidence, znacznie ułatwia pracę lekarzom. Nic dziwnego, że ci coraz częściej sięgają po nie nieoficjalnie, na własnych smartfonach – zjawisko doczekało się już nawet osobnego określenia: shadow AI (AI w cieniu).

Wiele narzędzi AI obiecuje korzyści, które rozbijają się o praktykę kliniczną, ale i tak mogą bardzo pomóc w opiece nad pacjentami. Komisja Europejska już dostrzegła ten problem i pracuje nad uproszczeniem zasad EU AI Act.

W planach jest m.in. przesunięcie terminu wejścia przepisów dla AI wysokiego ryzyka z 2 sierpnia 2026 r. na 2 grudnia 2027 r. Niezależnie od tego benchmark nie jest miarą, którą powinni się kierować lekarze, bo to komercyjny system oceny. I nie zmienia tego fakt, że klasyczna medycyna oparta na faktach też nie oferuje adekwatnych narzędzi.

Autor: Artur Olesch

Treści autora ⟶

Publicystyka

Prawo i system

Po dyżurze

OpenAI chwali się dokładnością AI w testach, a „Nature” pyta: gdzie są dowody?

AI jak egzotyczne rozwiązania

„Nature” na straży starych zasad

HealthBench: konkurencyjny model oceny AI?

Co to oznacza dla placówek zdrowia i lekarzy?

Logowanie do profilu lekarza

Publicystyka

Prawo i system

Po dyżurze

OpenAI chwali się dokładnością AI w testach, a „Nature” pyta: gdzie są dowody?

AI jak egzotyczne rozwiązania

„Nature” na straży starych zasad

HealthBench: konkurencyjny model oceny AI?

Co to oznacza dla placówek zdrowia i lekarzy?