În ultimii ani, tehnicile de învățare profundă au obținut rezultate remarcabile în numeroase sarcini de procesare a limbajului și a imaginilor. Printre acestea se numără și recunoașterea vizuală a vorbirii (VSR), adică, pe înțelesul tuturor, Inteligența Artificială (AI) care poate citi pe buze.
În timp ce unii algoritmi de învățare profundă au obținut rezultate foarte promițătoare în sarcinile VSR, aceștia au fost instruiți în primul rând pentru a detecta vorbirea în limba engleză, deoarece majoritatea seturilor de date de antrenament existente includ doar vorbire în limba engleză.
Acest lucru limitează baza lor potențială de utilizatori la persoanele care trăiesc sau lucrează în contexte vorbitoare de limba engleză.
Cercetătorii de la Imperial College London, din Anglia, au dezvoltat recent AI-ul care poate citi pe buze în mai multe limbi.
Acest model, descris într-o lucrare publicată în Nature Machine Intelligence, s-a descoperit că depășește unele modele propuse anterior antrenate pe seturi de date mult mai mari.
„Recunoașterea vizuală a vorbirii (VSR) a fost unul dintre subiectele principale ale tezei mele de doctorat”, a declarat Dr, Pingchuan Ma, absolvent al Imperial College, care a efectuat studiul.
„În timpul studiilor, am lucrat pe mai multe subiecte, de exemplu, explorând cum să combin informațiile vizuale cu audio pentru recunoașterea audio-vizuală a vorbirii și cum să recunosc vorbirea vizuală independent de poziția capului participanților. Mi-am dat seama că marea majoritate a literaturii existente s-a ocupat doar de limba engleză”, a explicat el.
Obiectivul cheie al studiului realizat de Ma și colegii săi a fost să antreneze un model de învățare profundă pentru a recunoaște vorbirea în alte limbi decât engleza din mișcările buzelor vorbitorilor și apoi să compare performanța acestuia cu cea a altor modele antrenate să recunoască vorbirea în limba engleză.
Modelul creat de cercetători este similar cu cel introdus de alte echipe în trecut, dar unii dintre hiper-parametrii săi au fost optimizați, setul de date a fost mărit (adică, mărit prin adăugarea unor versiuni sintetice, ușor modificate de date) și au fost utilizate funcții suplimentare, notează Tech Xplore.
„Am arătat că putem folosi aceleași modele pentru a antrena modele VSR în alte limbi”, a explicat Ma.
„Modelul nostru preia imagini brute ca intrare, fără a extrage nicio caracteristică, apoi învață automat ce caracteristici utile să extragă din aceste imagini pentru a finaliza sarcinile VSR. Principala noutate a acestei lucrări este că antrenăm un model pentru a efectua VSR și, de asemenea, adăugăm câteva metode suplimentare de creștere a datelor și funcții de pierdere”, continuă cercetătorul.
În evaluările inițiale, modelul creat de Ma și colegii săi a funcționat remarcabil de bine, depășind alte modele VSR antrenate pe seturi de date mult mai mari, chiar dacă a necesitat mai puține date originale de antrenament. Așa cum era de așteptat, totuși, AI-ul care poate citi pe buze nu a funcționat la fel de bine ca modelele de recunoaștere a vorbirii în limba engleză, în principal din cauza seturilor de date mai mici disponibile pentru instruire.
„Am obținut rezultate de ultimă generație în mai multe limbi prin proiectarea cu atenție a modelului, mai degrabă decât prin simpla utilizare a seturi de date mai mari sau modele mai mari, care este tendința actuală în literatură”, a spus Ma.
„Cu alte cuvinte, am arătat că modul în care este proiectat un model este la fel de important pentru performanța sa ca creșterea dimensiunii acestuia sau utilizarea mai multor date de antrenament. Acest lucru poate duce la o schimbare în modul în care cercetătorii încearcă să îmbunătățească modelele VSR”, a adăugat Ma.
Ma și colegii săi au arătat că se pot obține performanțe de ultimă generație în sarcinile VSR prin proiectarea cu atenție a modelelor de învățare profundă, în loc să utilizeze versiuni mai mari ale aceluiași model sau să colecteze date suplimentare de antrenament, ceea ce este atât costisitor, cât și consumator de timp. În viitor, munca lor ar putea inspira alte echipe de cercetare să dezvolte modele VSR alternative care pot recunoaște citi pe buze în mod eficient și în alte limbi în afară de engleză.
„Unul dintre principalele domenii de cercetare care mă interesează este modul în care putem combina modelele VSR cu recunoașterea vocală existentă (numai audio),” a adăugat Ma.
„Sunt interesat în special de modul în care aceste modele pot fi ponderate dinamic, adică de modul în care modelul poate afla pe ce model ar trebui să se bazeze în funcție de zgomot. Cu alte cuvinte, într-un mediu zgomotos, un model audio-vizual ar trebui să se bazeze mai mult pe flux vizual, dar atunci când regiunea gurii este acoperită, ar trebui să se bazeze mai mult pe fluxul audio. Modelele existente sunt în esență blocate odată ce sunt antrenate și nu se pot adapta la schimbările din mediu”, a conchis el.
Traficul de la orele de vârf ar putea fi descongestionat cu Inteligență Artificială
Amazon intensifică utilizarea roboților, dar susține că are în continuare nevoie de oameni
Ochelarii VR care te omoară pe loc dacă mori în joc au fost inventați