ChatGPT-4 a depășit medicii într-un studiu, dar nu le va lua locul prea curând în spitale
ChatGPT-4, un program de Inteligență Artificială conceput să înțeleagă și să genereze texte asemănătoare celor umane, a depășit rezidenții de medicină internă și medicii curanți din două centre medicale academice în ceea ce privește procesarea datelor medicale și demonstrarea raționamentului clinic.
Într-o scrisoare de cercetare publicată în JAMA Internal Medicine, medicii-cercetători de la Beth Israel Deaconess Medical Center (BIDMC) au comparat abilitățile de raționament ale unui model de limbaj (LLM) direct cu performanțele umane, folosind standarde dezvoltate pentru a evalua medicii.
,,A devenit clar foarte devreme că LLM-urile pot pune diagnostice, dar oricine care practică medicina știe că medicina înseamnă mai mult de atât”, a declarat Adam Rodman MD, medic de medicină internă și cercetător în cadrul departamentului de medicină de la BIDMC.
,,Există mai mulți pași în spatele unui diagnostic, așa că am vrut să evaluăm dacă LLMs sunt la fel de buni ca și medicii în a face acest tip de raționament clinic. Este o descoperire surprinzătoare faptul că aceste lucruri sunt capabile să arate un raționament echivalent sau mai bun decât oamenii pe toată durata evoluției cazului clinic.”
Mai multe cazuri de raționament incorect
Rodman și colegii săi au folosit un instrument validat anterior, dezvoltat pentru a evalua raționamentul clinic al medicilor, numit scorul revised-IDEA (r-IDEA).
Cercetătorii au recrutat 21 de medici curanți și 18 rezidenți care au lucrat fiecare la unul dintre cele 20 de cazuri clinice selectate, care cuprindeau patru etape secvențiale de raționament diagnostic. Chatbotul GPT-4 a primit un set cu instrucțiuni identice și a rulat toate cele 20 de cazuri clinice.
Răspunsurile lor au fost apoi punctate pentru raționamentul clinic (scorul r-IDEA) și alte câteva măsuri de raționament.
,,Prima etapă este cea a datelor de triaj, când pacientul vă spune ce îl deranjează și obțineți semnele vitale”, a declarat autorul principal Stephanie Cabral, MD, rezidentă în anul al treilea la medicină internă la BIDMC.
Chatbotul a obținut cele mai mari scoruri
,,A doua etapă este revizuirea sistemului, atunci când obții informații suplimentare de la pacient. A treia etapă este examenul fizic, iar a patra este cea a testelor de diagnosticare și imagistică”.
Rodman, Cabral și colegii lor au constatat că chatbotul a obținut cele mai mari scoruri r-IDEA, cu un scor median de 10 din 10 pentru LLM, 9 pentru medicii curanți și 8 pentru rezidenți.
A fost mai mult o egalitate între oameni și robot atunci când a fost vorba de acuratețea diagnosticului și de raționamentul clinic corect.
Dar roboții au avut, de asemenea, mai multe cazuri de raționament incorect în răspunsurile lor – semnificativ mai des decât rezidenții, au constatat cercetătorii. Studiul subliniază ideea că Inteligența Artificială va fi probabil mai utilă pentru a ajuta, nu pentru a înlocui, procesul de raționament uman, scrie EurekAlert.
Vă recomandăm să mai citiți și:
Un chatbot de la Microsoft i-a spus unui utilizator „nu-mi pasă dacă trăiești sau mori”
Oamenii de știință susțin că chatboții încep să înțeleagă lumea
Google lansează chatbotul Bard bazat pe Inteligența Artificială şi în România