Generatoarele de text plagiază într-un mod ce depășește simplul „Copy & Paste”

21 02. 2023, 08:30

Studenții ar trebui să se gândească de două ori înainte de a folosi ChatGPT pentru a-și realiza proiectele. Generatoarele de text plagiază conținutul în mai multe moduri, potrivit unei echipe de cercetare conduse de Penn State University, din SUA, care a efectuat un studiu pentru a examina direct fenomenul.

„Plagiatul este de mai multe tipuri. Am vrut să vedem dacă modelele de limbaj fac doar copy & paste sau recurg la forme mai sofisticate de plagiat fără să își dea seama”, a spus Dongwon Lee, profesor de științe și tehnologie a informației la Penn State.

Cercetătorii s-au concentrat pe identificarea a trei forme de plagiat: verbatim, sau copierea textului cuvânt cu cuvânt; parafrazarea, adică reformularea și restructurarea conținutului fără a cita sursa originală; și plagiatul ideii, sau folosirea ideii principale dintr-un text fără o citare corespunzătoare.

Oare generatoarele de text plagiază?

Cercetătorii au construit un algoritm pentru detectarea automată a plagiatului și l-au testat pe GPT-2 al OpenAI, deoarece datele de antrenament ale modelului de limbă sunt disponibile online, permițându-le cercetătorilor să compare textele generate de chatbot cu cele 8 milioane de documente utilizate pentru pre-antrenare.

Oamenii de știință au folosit 210.000 de texte generate pentru a vedea dacă generatoarele de text plagiază, testând modele lingvistice pre-instruite, dar și modele lingvistice ajustate (modele instruite în detaliu pentru a se concentra pe anumite domenii tematice).

În acest caz, echipa a ajustat trei modele lingvistice pentru a se concentra pe documente științifice, pe articole academice legate de COVID-19 și pe înregistrările de brevete. Oamenii de știință au folosit un motor de căutare open-source pentru a selecta primele 10 documente de instruire cele mai asemănătoare cu fiecare text generat și au modificat un algoritm de aliniere a textului existent pentru a detecta mai bine cazurile de plagiat verbatim, de parafrazare și de plagiat de idei.

Descoperirile pot avea implicații grave

Echipa a descoperit că generatoarele de text plagiază folosind toate cele trei tipuri de plagiat și că, cu cât setul de date și parametrii utilizați pentru a antrena modelul sunt mai mari, cu atât plagiatul a apărut mai des.

Cercetătorii au mai remarcat și că modelele de limbaj ajustate au redus plagiatul verbatim, dar au crescut cazurile de parafrazare și de plagiat de idei. În plus, oamenii de știință au identificat cazuri în care modelul lingvistic a expus informații private ale indivizilor prin toate cele trei forme de plagiat, notează TechXplore.

Cercetătorii își vor prezenta concluziile la ACM Web Conference din 2023, care are loc în perioada 30 aprilie-4 mai în Austin, Texas.

„Oamenii urmăresc modele lingvistice mari, deoarece cu cât modelul devine mai mare, abilitățile de generare cresc”, spune Jooyoung Lee, doctorandă la Colegiul de Științe și Tehnologie a Informației din cadrul Penn State și autoare principală a studiului.

„În același timp, ei pun în pericol originalitatea și creativitatea conținutului din corpusul de instruire. Aceasta este o constatare importantă”, a subliniat ea.

Chatboții ar trebui folosiți cu o mai mare atenție

Studiul evidențiază nevoia de mai multe cercetări privind generatoarele de text și întrebările etice și filosofice pe care acestea le ridică, spun cercetătorii.

„Chiar dacă rezultatele pot fi atrăgătoare, iar modelele lingvistice pot fi distractiv de utilizat și par productive pentru anumite sarcini, nu înseamnă că sunt practice”, a spus Thai Le, profesor asistent de informatică și știința informației la Universitatea din Mississippi care a început să lucreze la proiect ca doctorand la Penn State.

„În practică, trebuie să avem grijă de problemele etice aduse de generatoarele de text și de abordarea drepturilor de autor”, a continuat el.

Faptul că generatoarele de text plagiază nu este surprinzător

Deși rezultatele studiului se aplică doar pentru GPT-2, procesul automat de detectare a plagiatului pe care l-au creat cercetătorii poate fi aplicat și pe modelele de limbaj mai noi, cum ar fi ChatGPT, pentru a determina dacă și cât de des plagiază aceste modele conținutul de instruire. Testarea pentru plagiat, totuși, depinde de dezvoltatorii care fac datele de instruire accesibile pentru public, au spus cercetătorii.

Studiul actual îi poate ajuta pe cercetătorii AI să construiască modele de limbaj mai robuste, fiabile și responsabile în viitor, spun cercetătorii. Deocamdată, aceștia îndeamnă persoanele să fie precaute atunci când folosesc generatoare de text.

Faptul că aceste modele de limbaj plagiază nu este neobișnuit, spune Dongwon Lee. „Dezvoltatorii au învățat generatoarele de text să imite scrierile umane fără să le învețe în mod corespunzător să nu plagieze. E timpul să le învățăm să citeze sursele, dar mai este mult de lucru”, a cocluzionat profesorul.

Vă recomandăm să citiți și:

Google a anunțat că lucrează la competitorul lui ChatGPT, un chatbot numit „Bard”

Prima „mină” de Bitcoin alimentată nuclear va începe operațiunile în acest an

Mănușa VR aduce un simț mai realist al atingerii în metavers

Microsoft a creat dispozitivul care îți poate clona vocea după doar trei secunde de audio