Identificarea rapida a cuvintelor-cheie dintr-un text necunoscut reprezinta visul oricarui cercetator din domeniul lingvisticii si de-acum inainte, acest vis este realizabil gratie metodei matematice puse la punct de cercetatorii de la Universitatea din Manchester, care atribuie oricarui cuvant o “valoare informativa”, identificand astfel termenii cei mai relevanti dintr-un text citit pentru prima oara. Pentru a obtine aceasta valoare, oamenii de stiinta au masurat cat de uniform este distribuit fiecare cuvant (calculandu-i entropia conform teoriei informatiei, disciplina care studiaza elaborarea si distributia informatiei), atat intr-un text cu cuvintele aflate intr-o ordine fireasca, cat si cu ele toate amestecate. Inmultind diferenta intre cele doua valori ale entropiei fiecarui cuvant cu cu frecventa cuvantului respectiv, cercetatorii au obtinut unitatea de masura dorita: asa-numita “valoare informativa”.
Potrivit cercetatorilor englezi, ceea ce decreteaza valoarea unui termen este tocmai felul in care este distribuit intr-un text, si nu numarul absolut de repetari ale acestuia. Conjunctiile (si, asadar, deci, etc) sunt de exemplu utilizate frecvent, dar nu sunt semnificative (sunt in mod uniform distribuite atat intr-un text ordonat, cat si intr-unul dezordonat, prin urmare prezinta o valoare informativa scazuta). In schimb, tendinta de a grupa propozitiile in capitole si paragrafe confera cuvintelor semnificative o valoare foarte inalta, facandu-le recognoscibile.
Validitatea noii unitati de masura a fost confirmata de un text facut pe “Originea speciilor” a lui Charles Darwin, in care cuvintele cele mai valoroase au reiesit a fi: specie, varietate, hibrizi, forme, insule, selectie si gen. Desi sistemul pus la punct de cercetatori s-ar putea dovedi foarte util in decodificarea textelor cifrate sau scrise in limbi necunoscute, aplicatia principala a acestuia ar putea sa nu fie literatura, ci biologia, mai exact identificarea acelor gene care transporta informatii utile, considera Marcelor Montemuro, seful echipei de cercetare. “De altfel, atunci cand privim genomul ne pare cu adevarat ca ne aflam in fata unei limbi straine”, a precizat el.
CITESTE SI:
|
||