Memex esplora gli abissi del Web

Il web che quotidianamente utilizzi è solo una piccola parte delle informazioni disponibili in internet. Si stima che tra lo 80% ed il 95% dei dati online sia nascosto agli occhi dei motori di ricerca. Questo accade perchè i motori di ricerca come Google e Bing riescono a catalogare solo le informazioni ben strutturate. Ogni motore di ricerca utilizza dei robot che scansionano in continuazione il web alla ricerca di link verso siti nuovi e, dopo averli trovati, leggono il contenuto del sito per determinare la categoria di appartenenza. Sebbene questi robot siano molto avanzati ed in continua evoluzione, bastano errori nella creazione del sito, file corrotti o contenuti dinamici (come javascript e flash) per confonderli ed impedire l’indicizzazione.

La parte di Web che non può essere catalogata dai motori di ricerca convenzionali viene chiamata Deep Web. E’ importante sottolineare che i dati del Deep Web sono pubblici e quindi liberamente accessibili per un essere umano (ad esempio, non sono contenuti prottetti da login). Queste informazioni rimangono fuori dai cataloghi solo perchè sono scritte in un modo illeggibile per i robot di Google.

Poichè il Deep Web non compare sulle mappe ufficiali del web è diventato il luogo ideale per intrattenere illeciti. All’interno del Deep Web si è quindi creato un quartiere malfamato chiamato Dark Web.

Per contrastare il Dark Web, gli USA hanno incaricato il DARPA di creare Memex. Questo nuovo motore di ricerca vuole rivoluzionare il modo in cui vengono catalogate le informazioni del web per ridurre la zona non mappata e gettare luce sulle attività svolte nel Dark Web. Memex sostituirà l’attuale approccio one-fit-all con tecniche specifiche per il tracciamento dei dati.

Il progetto probabilmente non riuscirà a contrastare il crimine, ma sicuramente innescherà un significativo aumento del numero di informazioni accessibili per tutti. Le innovazioni introdotte da Memex potrebbe rendere reperibili le informazioni che ora sono nascoste da contenuti dinamici e siti creati con errori.