Nuix

 

Panama Papers è stato salutato come il più grande trafugamento di dati nella storia giornalistica e tuttavia le rivelazioni che emergono da una memoria di 11,6 milioni di documenti analizzati dal Sueddeutsche Zeitung e dal Consorzio Internazionale dei Giornalisti Investigativi (ICIJ) sarebbero state impossibili senza il potente sistema di analisi dei dati realizzato dall’azienda australiana Nuix.

In passato l’interpretazione di documenti interni trafugati rappresentava il lavoro di qualche giornalista coraggioso, seduto ad una scrivania con una pila di carte ed una brocca di caffè forte, e la volontà di prendere nota in maniera sistematica. Da quando i documenti vengono offerti in forma digitalizzata, i file rappresentano la norma, e quest’ approccio manuale è stato abbandonato. Improvvisamente sono comparsi migliaia o milioni di file da controllare, in una vasta gamma di formati. La verifica incrociata di milioni di file per cercare di capire il rapporto tra gli individui, le aziende e gli eventi, nel corso del tempo,  rappresenta, semplicemente, un nuovo inizio.

La tecnologia corsa in aiuto si chiama eDiscovery, anche se spesso si presenta col nome più attuale di “analisi dei big data”. La complessa inchiesta giornalistica dei Panama Papers offre una panoramica su ciò che tali sistemi sono oggi in grado di fare, sebbene essi vengano abitualmente utilizzati da organizzazioni che necessitano di ordinare grandi quantità di dati, strutturati e non, attribuendo loro un elevato livello di certezza: si va dagli studi legali alle authority di mercato, fino ad arrivare ai governi ed alle forze di polizia.

Nel caso dei Panama Papers Sueddeutsche Zeitung ha alimentato la piattaforma Nuix con diversi blocchi di dati,  2,6 terabyte di file Word e PowerPoint, fogli di calcolo, e-mail e PDF, riversati in un’unica soluzione. Un processo che ha richiesto circa due settimane per trasformare questo immenso insieme confuso, in un database, al quale è stato poi possibile rivolgere richieste (query) come ad un normale motore di ricerca, e che ha permesso di individuare le più profonde connessioni, i modelli e le relazioni tra le persone, gli eventi e i diversi luoghi attraversati nel tempo.

Detta in questi termini sembrerebbe si sia trattato di un’ enorme appezzamento di dati da “arare”, ma secondo il Senior Consultant di Nuix, Carl Barron, membro della squadra che ha collaborato col giornale tedesco nella gestione dei dati, 2.6 Terabyte è in realtà una quantità piuttosto normale per l’analisi di eDiscovery.

Secondo Barron non sarebbe immaginabile svolgere un’indagine manuale su una tale quantità di informazioni. Parte di quelle più rilevanti andrebbero perse.

Nuix non ha esaminato i dati, ma ha aiutato l’azienda a configurare il server con il quale è stata effettuata l’analisi, server opportunamente isolato dalla connessione Internet.

Il sistema, una volta configurato, sforna file con estrema velocità, consentendo l’estrapolazione sia testi che di metadati, i quali indicano chi ha creato ciascun file, quando, e tenendo nota di tutte le successive modifiche. A volte è disponibile anche la posizione del file. La lingua non è importante per Nuix, essendo il sistema in grado di elaborare caratteri e parole in qualsiasi linguaggio. I documenti chiusi, come i PDF, vengono identificati e inseriti in un sistema di riconoscimento ottico dei caratteri che permette l’estrazione del testo.

In maniera selettiva Nuix elimina le duplicazioni di dati – lo stesso file presente in un luogo diverso – cosa che, nel caso dei Panama Papers, ha ridotto rapidamente i documenti di circa un terzo.

Nuix indicizza i dati, offrendo una visione rapida e molto trasparente.

L’effetto di questa gestione analitica è che ogni giornalista o ricercatore è in grado di impostare una ricerca, utilizzando qualsiasi criterio desideri, ottenendo rapidamente un indice di documenti che menzionano la parola ricercata, all’interno di un intervallo di date.

Il sistema consente anche l’accesso a grandi gruppi di persone, ciascuno seguendo la propria strada o i propri interessi.

Il ICIJ aveva già in precedenza utilizzato Nuix per analizzare una memoria di 2,5 milioni di file, i cui risultati sono stati pubblicati nel 2013.

Nel lungo termine la capacità della tecnologia di evidenziare modelli nascosti e connessioni contenute all’interno di documenti sparsi, è in grado di creare problemi ad un mondo nel quale, che riguardi la politica o la finanzia, i segreti affidati devono essere mantenuti tali, anche se la diffusione della crittografia permette sicuramente di ridurre tale capacità di analisi. Tuttavia la crittografia non rappresenta una difesa assoluta contro l’analisi dei dati, anche perché la tecnologia ha introdotto la gestione complessa delle chiavi. Più probabilmente, alcune forme di dati non strutturati, come le email, saranno destinati ad autodistruggersi dopo un periodo di tempo predefinito, anche se le autorità di regolamentazione potrebbero dichiarare tale comportamento fuori legge, al fine di preservare la trasparenza.

http://www.techworld.com/security/panama-papers-how-big-data-blew-lid-on-global-elites-financial-secrets-3637673/?utm_content=buffer3ff16&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer

trad cm

Annunci