Textele generate cu Inteligență Artificială au ajuns până și în revistele științifice

22 03. 2024, 13:00

În februarie, un penis de șobolan generat de Inteligența Artificială (AI) a reușit să se strecoare într-un articol din revista Frontiers in Cell and Developmental Biology, care ulterior a fost retras. Acum, această stranie catastrofă pare să fie doar unul dintre exemplele unei probleme mai persistente care se pregătește să erupă în literatura științifică: textele generate de AI.

Revistele se află în prezent într-o situație delicată în ceea ce privește modul cel mai bun de a răspunde la cercetătorii care folosesc instrumente AI generative populare, dar factologic discutabile, pentru a ajuta la redactarea manuscriselor sau la producerea de imagini. Detectarea utilizării AI-ului nu este întotdeauna ușoară, dar un nou raport de la 404 Media arată ceea ce par a fi zeci de articole publicate în care au fost folosite textele generate de AI, ascunse la vedere. Ce anume le-a dat de gol? Expresiile generate de calculator care sunt des folosite.

404 Media a căutat fraza generată de AI „După ultima mea actualizare de cunoștințe” în baza de date publică a Google Scholar și a găsit 115 articole diferite care păreau să se fi bazat pe copierea și lipirea rezultatelor modelelor AI. Acea serie de cuvinte este una dintre multele formule de exprimare adesea produse de modelele de limbaj mari, precum ChatGPT al OpenAI.

Textele generate de AI s-au infiltrat în revistele științifice! Cât de mare e problema?

În acest caz, „actualizarea de cunoștințe” se referă la perioada în care au fost actualizate datele de referință ale modelului. Alte fraze comune generate de AI includ „Ca model de limbaj AI” și „generați din nou răspunsul”. În afara literaturii academice, aceste artefacte AI au apărut răspândite în recenziile de produse de pe site-ul Amazon și pe diverse platforme de socializare, notează PopSci.

Mai multe dintre articolele citate de 404 Media păreau să copieze textul AI direct în lucrări evaluate inter pares, pretinzând că explică subiecte complexe de cercetare precum inseparabilitatea cuantică și performanța bateriilor de metal de litiu. Alte exemple de articole din reviste care par să includă fraza comună generată de AI „Nu am acces la date în timp real” au fost, de asemenea, distribuite pe X, anterior Twitter. Cel puțin unele dintre exemplele analizate de PopSci păreau să fie în legătură cu cercetarea modelelor AI. Textele generate de AI, cu alte cuvinte, făceau parte din materialul subiectului în acele cazuri.

Deși mai multe dintre aceste fraze au apărut în reviste de renume și bine-cunoscute, 404 Media susține că majoritatea exemplelor găsite provin din așa-numitele „fabrici de lucrări” mici, specializate în publicarea rapidă a lucrărilor, adesea contra cost și fără o examinare științifică sau o evaluare atentă. Cercetătorii au afirmat că proliferarea acestor fabrici de lucrări a contribuit la o creștere a constatărilor academice false sau plagiatoare în ultimii ani.

Tot mai multe articole științifice, retrase

Exemplele recente de texte aparent generate de AI care apar în articole din reviste vin în contextul unei creșteri a retragerilor în general. O analiză a Nature asupra articolelor de cercetare publicate anul trecut a descoperit peste 10.000 de retrageri, mai multe decât în orice alt an măsurat anterior.

Deși majoritatea acestor cazuri nu au fost legate de conținutul generat de AI, cercetătorii preocupați de ani de zile s-au temut că utilizarea crescută a acestor instrumente ar putea duce la mai mult conținut fals sau înșelător care să treacă de procesul de evaluare inter pares. În cazul penisului de șobolan, imaginile bizare și etichetele fără sens produse de AI au reușit să treacă neobservate sau neprelucrate de mai mulți recenzori.

Există motive întemeiate să credem că articolele depuse cu text generat de AI ar putea deveni mai comune. În 2014, jurnalele IEEE și Springer au eliminat în comun mai mult de 120 de articole care includeau limbaj fără sens generat de AI. Prevalența textului generat de AI în reviste cu siguranță a crescut în deceniul care a trecut de atunci, odată cu adoptarea mai largă a uneltelor mai sofisticate și mai ușor de utilizat, cum ar fi ChatGPT al OpenAI.

Un sondaj din 2023 efectuat de Nature printre cercetători a descoperit că 1.600 de respondenți, adică aproximativ 30% dintre cei chestionați, au recunoscut că folosesc instrumente AI pentru a-i ajuta să redacteze manuscrisele. Și chiar dacă expresii precum „Ca algoritm AI” sunt semne clare care expun originea într-un model de limbaj larg (LLM) a unei propoziții, multe alte utilizări mai subtile ale tehnologiei sunt mai greu de depistat. Modelele de detectare folosite pentru găsirea textelor generate de AI s-au dovedit a fi frustrant de neadecvate.

Ar trebui ca textele generate de AI să fie permise sau nu în jurnalele științifice?

Cei care susțin permiterea textului generat de AI în anumite cazuri spun că acesta îi poate ajuta pe vorbitorii non-nativi să se exprime mai clar și să scadă barierele lingvistice. Alții susțin că uneltele, dacă sunt folosite responsabil, ar putea accelera timpul de publicare și crește eficiența generală.

Dar publicarea datelor inexacte sau a rezultatelor fabricate generate de aceste modele pune în pericol reputația unei reviste pe termen lung. Un articol publicat în Current Osteoporosis Reports, care a comparat rapoartele articolelor de evaluare scrise de oameni cu cele generate de ChatGPT, a constatat că exemplele generate de AI erau adesea mai ușor de citit. În același timp, rapoartele generate de AI erau, de asemenea, pline de referințe inexacte.

„ChatGPT a fost destul de convingător cu unele dintre declarațiile false pe care le-a făcut, să fiu sinceră. A folosit sintaxa corectă și le-a integrat cu afirmații corecte într-un paragraf, așa că uneori nu existau semnale de alarmă”, a declarat Melissa Kacena, profesoară la Școala de Medicină a Universității din Indiana (SUA) și autoare a articolului.

Revistele ar trebui să se înțeleagă asupra standardelor comune în jurul AI-ului generativ. Editorii majori încă nu sunt aliniați cu privire la permiterea sau nu a textului generat de AI. Începând cu 2022, revistele publicate de Science au interzis strict folosirea de text sau imagini generate de Inteligența Artificială care nu sunt mai întâi acceptate de un editor.

Nature, pe de altă parte, a emis o declarație anul trecut afirmând că nu vor permite imagini sau videoclipuri generate de AI în revistele lor, dar vor permite text generat de AI în anumite situații. JAMA permite în prezent textele generate de AI, dar le cere cercetătorilor să divulge când apare și ce modele au fost utilizate.

Nevoia unui standard comun

Aceste divergențe de politică pot crea o confuzie inutilă atât pentru cercetătorii care trimit lucrările, cât și pentru recenzorii însărcinați cu evaluarea lor. Cercetătorii au deja un stimulent să folosească instrumentele aflate la dispoziția lor pentru a ajuta la publicarea rapidă a articolelor și pentru a-și crește numărul general de lucrări publicate.

Un standard convenit în jurul conținutului generat de AI de către revistele mari ar stabili limite clare pentru cercetători. Revistele mari și consacrate pot de asemenea să se separe mai mult de fabricile de lucrări mai puțin scrupuloase, stabilind linii ferme în jurul unor utilizări ale tehnologiei sau interzicând-o complet în cazurile în care încearcă să facă afirmații incorecte.

Vă recomandăm să citiți și:

Inteligența Artificială a depășit oamenii la creativitate!

Cât de periculoasă este Inteligența Artificială într-o lume condusă de prostia omenească?

Inteligența Artificială nu poate fi controlată, conform unui studiu extins

Inteligența Artificială Generativă explică memoria și imaginația umană

Articole recomandate