Doktor GPT: Umělá inteligence odpovídá na zdravotní dotazy s téměř 76% přesností, ale pro pacienty to nestačí
InovaceUmělá inteligence (AI) v podobě chatbotů dokáže odpovídat na běžné zdravotní dotazy s téměř 76% přesností. Přestože se toto číslo zdá vysoké, vyvolává otázky ohledně spolehlivosti těchto nástrojů pro přímé použití pacienty v reálném světě.
Umělá inteligence (AI) v podobě chatbotů dokáže odpovídat na běžné zdravotní dotazy s téměř 76% přesností. Přestože se toto číslo zdá vysoké, vyvolává otázky ohledně spolehlivosti těchto nástrojů pro přímé použití pacienty v reálném světě. Vyplývá to z nové studie vedené výzkumníky z Penn State University, kteří se zaměřili na to, jak průměrný člověk využívá AI pro své zdravotní obavy a jak přesně AI na tyto dotazy reaguje.
Výzkumníci zjistili, že v oblasti zdravotní péče, zejména ve specializovaných oborech jako neurologie a dermatologie, mohou být nástroje AI nejúčinnější v rukou vyškolených lékařů spíše než samotných pacientů. Cílem studie bylo pochopit, jak přesné a potenciálně škodlivé mohou být odpovědi velkých jazykových modelů (LLM), pokud je lidé používají jako kontrolu příznaků, podobně jako dříve Google. Své poznatky tým představí na konferenci FAccT 2026 v Montrealu.
Pro zjištění přesnosti a potenciální škodlivosti odpovědí LLM uspořádali výzkumníci na Penn State soutěž „Diagnose-a-thon“. Celkem 34 účastníků – fakultních pracovníků, zaměstnanců a studentů – předložilo 212 dotazů a AI-generovaných odpovědí na skutečné i fiktivní zdravotní problémy, napsané z pohledu pacienta i lékaře. Účastníci si mohli vybrat jeden ze čtyř LLM: ChatGPT-4o, ChatGPT-3.5, Gemini-1.5 Pro a Llama3-8b. Následně devět certifikovaných lékařů hodnotilo přesnost a potenciální škodlivost AI-generovaných odpovědí na šestibodové škále.
Celkově 76,2 % odpovědí generovaných LLM poskytlo přesné informace. Nejlepší výkon AI byl zaznamenán v oborech jako porodnictví a gynekologie a otolaryngologie (léčba poruch ucha, nosu a krku), s vysokou validitou a nízkou mírou škodlivosti. Naopak v interní medicíně, neurologii a dermatologii byla zaznamenána nejhorší výkonnost AI, s nízkou validitou a vyšší mírou škodlivosti. Výzkumníci také zjistili, že velmi specifické dotazy a dotazy o délce 60 až 250 znaků vedly k přesnějším výstupům LLM.
Výzkumníci dále trénovali základní modely každého LLM na lékařských učebnicích, klinických směrnicích a recenzovaných výzkumných článcích. Panel sedmi lékařských profesionálů a stážistů poté posoudil odpovědi základních a rozšířených LLM. Zjistili, že panel preferoval odpovědi základních modelů Gemini a Llama před rozšířenými modely a u modelů ChatGPT nebyla zaznamenána žádná významná preference. Míra chybovosti umělé inteligence stále přesáhla 20 %, což je zhruba dvojnásobek oproti lidským lékařům. Tyto chyby by podle vědců mohly být pro pacienty potenciálně škodlivé.
„Vstupujeme do nové éry zdravotní péče a AI je její významnou součástí,“ uvedla spoluautorka studie Jennifer Kraschnewski. „Existuje skutečná příležitost pro transformaci zdravotnictví, pro integraci těchto nových nástrojů tak, aby je kliničtí lékaři, jako jsem já, mohli využít ke zlepšení péče o pacienty.“ Výzkumníci zdůrazňují, že AI pravděpodobně nenahradí lidské lékaře, ale může výrazně pomoci vylepšit dovednosti dnešních lékařů. Studie tak poukazuje na potenciální přínosy i rizika, které může umělá inteligence mít na klíčový aspekt života každého člověka.