Declinul digital: aproape 40% dintre paginile de Internet au dispărut

03 06. 2024, 09:30

Ai căutat vreodată un articol pe care l-ai citit cu ani în urmă, dar nu l-ai mai putut găsi? Dacă a fost scris în 2013, există șanse mari să fi dispărut pur și simplu de pe internet. Conform unei noi cercetări de la Centrul de Cercetare Pew (SUA), aproape 40% dintre paginile web create în 2013 nu mai sunt accesibile; motivul este „degradarea digitală”.

Departe de a fi compus din creații indestructibile, noua analiză demonstrează cât de efemer este de fapt conținutul online. Degradarea digitală reprezintă degradarea treptată, coruperea sau învechirea informațiilor digitale în timp.

Conform rezultatelor studiului, 38% din conținutul care exista în 2013 nu mai este disponibil astăzi. Atunci când oamenii de știință au extins domeniul de analiză, au descoperit că un sfert dintre paginile web care au existat la un moment dat între 2013 și 2023 erau acum inaccesibile. În majoritatea cazurilor, acest lucru s-a întâmplat deoarece paginile relevante au fost șterse sau eliminate de pe site-uri altfel funcționale.

Ce este degradarea digitală?

În acest context, echipa a definit drept „inaccesibilă” o pagină care nu mai este pe serverul gazdă, tipul de problemă care de obicei duce la un mesaj de eroare 404 sau alt cod de eroare, notează IFL Science.

Pentru a colecta datele pentru analiză, cercetătorii au folosit eșantioane aleatorii de aproape 1 milion de pagini web (aproximativ 90.000 de pagini pe an) din arhivele Common Crawl, un depozit de internet care preia periodic instantanee ale web-ului așa cum există acesta în diferite momente. Oamenii de știință au adunat aceste informații pentru anii cuprinși între 2013 și 2023 și apoi au verificat dacă aceste pagini mai existau.

Aproximativ 25% dintre paginile create în această perioadă nu mai erau accesibile în octombrie 2023. Acest număr este compus din două tipuri de conținut defect: 16% dintre pagini erau „individual inaccesibile”, dar se aflau pe domenii altfel accesibile. Celelalte 9% erau inaccesibile deoarece nu mai exista întregul domeniu.

„Nu este surprinzător că instantaneele mai vechi din colecția noastră aveau cea mai mare parte a linkurilor inaccesibile”, au explicat autorii raportului.

Ce lipsește de pe internet?

Până la sfârșitul anului 2023, 38% dintre paginile colectate în instantaneul din 2013 dispăruseră. Dar chiar și conținutul din instantaneul din 2021 a fost afectat de degradarea digitală, aproximativ una din cinci pagini fiind pierdute.

Au existat, de asemenea, rezultate comparative interesante pentru diferite tipuri de pagini web. De exemplu, analiza a examinat linkurile de referință către 50.000 de pagini Wikipedia în limba engleză. S-a constatat că 82% dintre paginile eșantionate aveau cel puțin un link de referință care ducea utilizatorii la pagini non-Wikipedia; totuși, 11% dintre „toate referințele legate pe Wikipedia” nu mai sunt accesibile.

Pe aproximativ 2% dintre paginile sursă eșantionate, fiecare link era inaccesibil, în timp ce aproximativ 53% conțineau cel puțin un link defect.

Site-urile guvernamentale au oferit, de asemenea, câteva curiozități. Echipa a descoperit că aproximativ trei sferturi dintre cele 500.000 de pagini guvernamentale eșantionate aveau tendința de a avea cel puțin un link. Media mediană a paginilor conținea 50 de linkuri, dar multe conțineau un număr mai mare. Majoritatea covârșitoare a acestor pagini duceau la pagini HTTP securizate și 16% redirecționau către alte pagini.

Dar aproximativ 21% dintre paginile guvernamentale examinate conțineau cel puțin un link defect. Se pare că paginile guvernamentale municipale erau cele mai rele în acest context.

Degradarea digitală afectează și site-urile de știri…

Nici măcar site-urile de știri nu erau lipsite de probleme. Pe site-urile de știri eșantionate, cercetătorii au descoperit că aproximativ 94% conțineau cel puțin un link care ducea cititorii departe de site. Media mediană a paginilor conținea aproximativ 20 de linkuri, iar paginile din top 10% aveau aproximativ 56 de linkuri.

Analiza arată că, la fel ca site-urile guvernamentale, majoritatea covârșitoare a acestor linkuri duceau la pagini HTTP securizate. Aproximativ 32% dintre linkurile de pe aceste site-uri de știri redirecționau utilizatorii către URL-uri diferite față de cele utilizate inițial. Aproximativ 5% dintre linkurile site-urilor de știri nu mai sunt accesibile și aproximativ 23% dintre pagini aveau cel puțin un link defect.

… dar și rețelele sociale

În final, pe Twitter (acum X), cercetătorii au descoperit că, din 5 milioane de tweeturi postate între martie 2013 și 2023, 18% nu mai erau disponibile.

„În majoritatea cazurilor, acest lucru s-a întâmplat deoarece contul care a postat inițial tweetul a fost făcut privat, suspendat sau șters complet. Pentru tweeturile rămase, contul care a postat tweetul era încă vizibil pe site, dar tweetul individual fusese șters”, explică cercetătorii.

De asemenea, oamenii de știință au constatat că tweeturile erau deosebit de predispuse să dispară sau să fie șterse dacă erau scrise în anumite limbi. De exemplu, jumătate dintre tweeturile în limba turcă și o proporție mai mică dintre cele în arabă nu mai erau disponibile.

Per total, majoritatea „tweeturilor care sunt eliminate de pe site tind să dispară la scurt timp după ce au fost postate”.

Raportul este publicat pe site-ul Centrului de Cercetare Pew.

Vă recomandăm să citiți și:

Microsoft propune o funcție „Big Brother” care înregistrează tot ce facem pe computer

Dublarea vitezei de procesare a computerelor, posibilă printr-o metodă inovatoare

Computerele obișnuite încă le pot întrece pe cele cuantice. Iată cum!

Pot algoritmii să detecteze sarcasmul?