Totul se află…
Felul în care funcţionează fiecare fiinţă umană – biologic, psihic, social – poate fi tradus în date. La fel – modul în care funcţionează un aparat, sau un ansamblu de aparate sau o întreagă companie. Datele vor fi păstrate şi prelucrate în cantităţi imense, datorită unor medii de stocare mai ieftine, unor metode de procesare mai rapide şi unor algoritmi mai performanţi. Aşa rezumă fenomenul Big Data doi specialişti, autori ai unei cărţi recent apărute şi care aruncă lumină asupra acestei tendinţe contemporane, în plină dezvoltare dar încă prea puţin înţeleasă în toată amploarea consecinţelor ei.
Cartea se numeşte Big Data: A revolution that will transform how we live, iar autorii ei sunt Viktor Mayer-Schönberger, profesor la Universitatea Oxford, şi Kenneth Cukier, un scriitor specializat în domeniul afacerilor, din echipa publicaţiei The Economist.
Cei doi ne pun în faţă imaginea unei lumi aproape integral cuantificate şi înregistrate în baze de date colosale, în care se vor găsi date despre aproape orice, cu care se va putea face aproape orice. Promiţător? Palpitant? Înspăimântător? Toate la un loc: fenomenul are multe feţe şi, ca mai toate creaţiile umane, e un amestec de bune şi rele.
Să- lăsăm pe autori să ne fie ghizi pe acest drum nou şi prea puţin explorat al fenomenului Big Data şi să desprindem câteva dintre avantajele şi dezavantajele acestei (r)evoluţii: în ce mod ne-ar putea îmbunătăţi viaţa şi în ce fel ne-ar putea-o înrăutăţi?
După opinia autorilor Viktor Mayer-Schönberger şi Kenneth Cukier, unul din domeniile care vor avea cel mai mult de câştigat prin ascensiunea Big Data va fi ştiinţa.
Una dintre marile dificultăţi în materie de cercetări ştiinţifice este adunarea datelor; de multe ori, posibilitatea de a o face este în mod fatal limitată drastic de insuficienţa resurselor. Un studiu ştiinţific – în domeniul sănătăţii, să zicem – trebuie să se bazeze pe eşantioane de participanţi cât mai mari, pentru ca rezultatele să fie concludente, valabile, semnficative din punct de vedere statistic. în practică, însă, resursele limitate duc adesea şi la limitarea eşantionului; de obicei, cercetătorii se străduiesc, fireşte, să alcătuiască un eşantion reprezentativ pentru grupul de populaţie pe care-l studiază, ca să obţină date cât mai relevante. Dar, chiar având un eşention de 1000 de persoane, considerat reprezentativ, s-ar putea ca rezultatele astfel obţinute să difere de cele la care s-ar fi ajuns dacă s-ar fi studiat 10.000 de persoane. Diferenţa de mărime face să iasă la iveală nuanţe pe care studiul a doar 1000 de oameni nu a avut cum să le surprindă şi care ar putea fi importante pentru a contura o tendinţă, a stabili clar o corelaţie, a confirma sau infirma o ipoteză.
Foartea adesea, cercetătorii, după adunarea datelor, meşteresc eşantionul astfel încât să fie reprezentativ, înlăturând anumiţi participanţi şi păstrând alţii, astfel încât eşantionul să fie o imagine în mic a grpuului mare de populaţie pe care trebuie să-l reprezinre. Apoi, rezultatele statistice iniţiale sunt şi ele prelucrate, aplicându-se tot felul de corecţii, pentru a izola acţiunea unui factor de celelalte. De exemplu, pentru a stabili dacă fumatul are un rol în dezvoltarea cancerului de colon, trebuie făcute corecţii care să elimine din ecuaţie contribuţia altor factori precum alimentaţia, predispoziţia geentică ş.a; altfel, cum am putea şti dacă un fumător care a făcut cancer de colon l-a făcut din cauza fumatului sau din cauză că obişnuia să mănânce multe mezeluri? (Am simplificat puţin, în speranţa că va fi mai uşor de înţeles.)
Toate aceste operaţiuni aplicate datelor supuse unui studiu bazat pe statistică fac ca relevanţa rezultatelor să fie relativă; cu cât eşantionul a fost mai mare, cu atât rezultatele sunt mai relevante, desigur, dar realitatea este că toate constrângerile de timp, bani şi alte resurse fac ca, în multe cazuri, să se lucreze pe eşantioane restrânse la minimum – atât cît să mai poată fi considerate, la limită, reprezentative din punct de vedere statistic. Şi tot din cauza acestor jonglerii cu datele, multe experimente sunt greu de reprodus, deci dificil de confirmat.
Aici va interveni, în mod binefăcător, Big Data, susţin autorii cărţii. Dacă stochezi tot ce poţi în materie de date, vei avea un volum uriaş de informaţie pe care poţi apoi face cercetări într-un mod cu totul nou şi mult mai eficient. În loc să formuleze o ipoteză şi apoi să o testeze prin experimente sau sondaje pe grupuri restrînse (de nevoie), un procedeu clasic, dar care predispune la erori, oamenii de ştiinţă vor recurge la avantajele miraculoase oferite de Big Data: algortimi performanţi, de mare precizie şi putere, vor „cerne” cantităţi enorme de date gata adunate şi vor desluşi rapid tendinţe, corelaţii etc.
Iar computerele şi algoritmii vor fi atât de performanţi, încât vor putea stabili corelaţii chiar în grămezi de date nesortate – precum este mai toată informaţia disponibilă pe internet; nu va mai fi nevoie ca informaţiile să fie codificate şi introduse în categorii prestabilite şi ierahizate, aşa cum e nevoie pentru a permite algoritmilor de azi să-şi facă treaba. Dacă informaţia nu va mai trebui organizată în prealabil, asta va însemna o mare economie de timp şi energie, precum şi distorsionări mai mici ale informaţiei.
Poate nu pare ceva prea spectaculos, descris aşa, dar de fapt implică o adevărată răsturnare de mentalitate, iar asta nu-i puţin lucur. Această metodă – formularea unei ipoteze şi testarea ei pe eşantioane reprezentative restrânse, alcătuite după anumite reguli – este practic fundamentul metodei ştiinţifice de cercetare în lumea modernă.
Totuşi, Cukier şi Mayer-Schönberger par convinşi că recursul la Big Data e un progres şi că va elibera ştiinţa de subiectivismul (uneori inconştient) al cercetătorilor şi va spori precizia rezultatelor obţinute. Cine ştie? Poate că „metoda clasică” şi-a trăit traiul şi e timpul pentru o schimbare. Nu putem decât să aşteptăm să vedem ce o să ne arate viitorul.
Un alt avantaj al Big Data va fi acela că va permite ca din acelaşi set de date să fie scoase o mulţime de concluzii ştiinţifice; cu alte cuvinte, aceleaşi date vor putea fi utilizate pentru studii diverse. Se practică şi acum aşa ceva, dar la scară foarte mică; rareori se întâmplă ca datele colectate într-un anumit scop să poată fi utilizate ulterior şi în alt scop. Atunci când adună date pentru un anumit studiu, oamenii de ştiinţă au în minte o ipoteză şi adună informaţii care să le permită să testeze acea ipoteză, deci, cumva, filtrează, aleg, selectează de la bun început un anumit tip de date; de aceea, prea rar se întâmplă ca în setul de date colectate să fie şi unele care să poată fi „reciclate”, privite din alt unghi, pentru a testa, cu ele, o altă ipoteză.
În schimb, Big Data ar permite acest lucru din plin: volume uriaşe de date brute, nefiltrate, ar sta la dispoziţia oamenilor de ştiinţă şi le-ar permite să scoată de acolo tot ce vor, sau aproape. Ar fi nevoie doar să fie proiectat un algoritm corespunzător scopului. Vor să afle, de exemplu, dacă există o legătură între astm şi utilizarea unui anumit produs de curăţare, folosit în gospodărie? În lumea de mâine, dominată de Big Data, ar exista, printre multe alte baze de date, una cu ce boli are fiecare, o alta ce conţine date despre tot ce-au cumpărat oamenii de la magazine în ultimii 5 ani, plus una din care să rezulte cine din ce gospodărie face parte. Se iau toate aceste baze de date, se proiectează un algoritm care să scotocească prin ele căutând datele relevante, să coreleze aceste date şi să scoată rezultatul; da, printre cei care trăiesc în gospodării în care se spală pe jos cu produsul X se întâlnesc mai frecvent bolnavi de astm, sau nu, nu există legătură semnficativă între produsul X şi frecvenţa cazurilor de astm. Şi la fel s-ar putea testa mii şi mii de ipoteze, fără să fie nevoie de adunarea datelor special în acest scop. Datele ar exista deja şi ar fi la îndemâna oricui, ceea ce deschide ştiinţei nişte posibilităţi extraordinare.
Reversul monedei
Ajunşi aici, fiecare întrezăreşte deja celălalt aspect al problemei, „partea întunecată a Forţei”: oare acest acces prea puţin îngrădit nu va echivala cu o intruziune insuportabilă în treburile personale ale omului? Poate că nu ne deranjează să se ştie cu ce spălăm pe jos prin casă, sau chiar de ce boli suferim, dar Big Data nu se va mulţimi doar cu atât. Big Data ar putea însemna, la scară mare, ceea ce vedem deja la scară mică, incipientă, azi: că se vor putea şti foarte multe, neplăcut de multe lucruri despre un om doar din datele adunate prin monitorizarea banală, cotidiană, a unor activităţi absolut banale şi cotidiene, de la cele mai biologice – precum mersul – până la contactele sociale. Camere CCTV ne vor analiza, de pildă, mersul şi diverse persoane ar putea trage de aici concluzii privind nu doar starea de sănătate, dar până şi felul în care ne merge viaţa intimă. Nu se ştie ce-ar putea face cei interesaţi cu asemenea informaţii, dar oricum nu e genul de informaţie pe care vrem s-o ştie oricine. Sau se vor putea trage concluzii despre orientarea sexuală a unei persoane, despre caracterul şi inteligenţa ei doar prin analiza activităţii ei pe reţelele sociale. Recent, un studiu efectuat pe mai mult de 58.000 de utilizatori americani ai reţelei de socializare Facebook şi publicat în Proceedings of the National Academy of Sciences prezenta o descoperire surprinzătoare: „like”-urile de pe Facebook dezvăluie neliniştitor de multe lucruri despre o persoană, mult dincolo de obiceiurile de consum ale acesteia.
După ce au analizat datele oferite de „like”-uri, cercetătorii au ajuns la concluzia că acestea oferă indicii despre orientarea sexuală, sexul, vârsta, etnia, IQ-ul, religia, orientarea politică şi despre consumul de alcool, ţigări şi droguri ale utilizatorilor. De asemenea, „like”-urile permiteau oamenilor de ştiinţă să estimeze dacă utilizatorii au un partener, câţi prieteni au pe Facebook şi ce trăsături de personalitate îi caracterizează.
La ce folosesc aceste date? Păi, banii companiei Facebook de aici vin – din vânzarea datelor, adunate de pe paginile utilizatorilor, către orice persoană interesată şi dispusă să plătească.
Şi companiile de telefonie mobilă ar putea face acelaşi lucru, dar şi firmele care deţin camere CCTV instalate într-un anumit perimetru, ca să nu mai vorbim de supermarketuri, companiile emiţătoare de carduri bancare sau cine mai ştie cine.
Până la urmă, ne va fi mai bine sau mai rău cu Big Data?
Ca să depăşim îngrijorarea paranoică gata să pună stăpânire pe noi la închipuirea unei astfel de lumi a viitorului, să mai privim odată latura luminoasă a Big Data, cu câteva exemple luate din realitate.
Preţul plătit pentru dezvoltarea big data şi pentru toate foloasele aduse este această îngrijorătoare ameninţare la adresa intimităţii, accesul prea uşor la date personale, acces atât de larg şi simplu încât se pretează cu uşurinţă la abuzuri.
Asistăm deja la o schimbare profundă în modul nostru de trai, la naşterea unei lumi în care mult mai puţine lucruri decât azi vor rămâne ascunse altora, în măsura în care ei vor fi interesaţi să le afle. Înţelesul noţiunilor de discreţie, intimitate, confidenţialitate, treburi personale, s-ar putea schimba. Vom asista, cu mare probabilitate, la o luptă pentru apărarea intimităţii, ce va necesita o mentalitate nouă, obiceiuri sociale noi, atitudini noi, legi noi.