GUARDA QUIhttps://www.accademiaitalianaprivacy.it/assets/images/immagineFB.jpg

Dettaglio news
I dati di 1.2 miliardi di persone ritrovati online in un database senza password


martedì 26 novembre 2019





Stiamo parlando di un database disponibile a chiunque senza alcuna password: è probabilmente uno dei più grossi database contenente dati sensibili mai rinvenuti nel dark web, individuato da due ricercatori di sicurezza qualche giorno fa. Bob Diachenko e Vinny Troia, esperti di ricerche nel dark web, hanno divulgato la notizia il 16 Ottobre: i  due ricercatori sono specializzati appunto in ricerche di server e database esposti tramite BinaryEdge e Shodan e si sono imbattuti in server il cui indirizzo IP poteva essere rintracciato nei Google Cloud Service. Le dimensioni sono impressionanti: 4 terabyte di dati in bella vista, accessibili al pubblico.

La buona notizia è che questi database, contenenti nei fatti i dati sensibili di oltre 1.2 miliardi di persone, non contengono credenziali di accesso, numeri di previdenza sociale o dettagli relativi alle carte di credito / debito. Tutti i dati contenuti sono stati estratti da piattaforme social tra i quali Twitter, Facebook, Linkedin e GitHub. Sono però esposti i numeri di telefono di 50 milioni di persone e 622 milioni di indirizzi email, tutti unici senza alcune duplicazione.

Di chi sono questi dati?
Venendo alla strutturazione dei dati trovati, appare verosimile che questo database sia il risultato della combinazione di 4 diversi dataset: tre "etichettati" come originati dall'azienda di San Francisco People DataLabs e uno appartenente a OxyData, tutte aziende specializzate nella raccolta e strutturazione di dataset.

Tuttavia PeopleDataLabs dichiara di non essere proprietaria del database "incriminato", affermanzo anzi che il proprietario del server semplicemente potrebbe possedere uno dei loro prodotti o avere licenza per alcuni servizi di arricchimento dati. Anche OxyData, che vanta di possedere 4 TB di dati appartenenti a 380 milioni di profili, ha negato la proprietà del server. Tra questi dati, molti quelli riguardanti la vita professionale dei profili, dato che risultano raccolti tramite Linkedin.

Il punto è che, al di là delle dichiarazioni delle due società, una comparazione tra i dati esposti e i loro database mostra come questi database combacino perfettamente, confermando quantomeno l'origine di tali dati. Il database comunque è stato messo offline poche ore dopo che i due ricercatori ne hanno segnalato l'esistenza all'FBI: impossibile però sapere se l'operazione di messa offline sia stata compiuta dall'FBI stessa o da qualcun altro, in quanto l'FBI non ha rilasciato dichiarazioni sulla vicenda.

Certi incidenti sono evitabili?
Inutile dire come incidenti di questo tipo danneggino la credibilità delle aziende che si occupano di arricchimento e strutturazione dati, oltre, ovviamente, le persone che ritrovano i propri dati in bella vista esposti nella parte più pericolosa del web, il dark web. Eppure sarebbe piuttosto semplice evitare questi problemi: oltre ad evitare l'uso di database rintracciabili via Internet e non protetti da password, basterebbe che le società che si occupano di dati convertissero le proprie raccolte dati in "dati sintetici". I Dati sintetici, per dirla in breve, sono dati che eliminano rischi reputazionali, per la privacy, garantiscono la conformità e azzerano i rischi in caso di violazione: infatti sono dati che imitano i dati reali ma, semplicemente, rimuovono quelle caratteristiche tramite le quali potrebbero risultare identificabili gli utenti ai quali quei dati fanno riferimento. Un dato in questo forma non può subire meccanismi di ingegneria inversa, ad esempio, ma conserva tutto il valore statistico del data set: rimane quindi un dato analizzabile a fini di marketink, di segmentazione dei clienti, di addestratmento di algoritmi AI, ma non espone a rischi gli interessati.

Nel caso specifico, la quasi totalità dei dati era già disponibile pubblicamente, in quanto presenti nei profili social dei rispettivi proprietari, ma esporre giganteschi database già strutturati e non protetti , non fa altro che facilitare e velocizzare il lavoro dei cyber criminali che trovano il lavoro già pronto. Non sarà comunque possibile trovare un responsabile per questa gravissima esposizione, dato che, al di là delle varie smentite sulla proprietà del server esposto, anche il fatto che l'indirizzo IP del server proviene da Google Cloud non è un dato utile: Google non ha nessun obbligo (e infatti non lo ha fatto) di rivelare il proprietario delle informazioni alle forze dell'ordine, paradossalmente invocando la protezione della privacy dei propri clienti.

I precedenti
Il caso non è a se stante ed è per questo che ne trattiamo: l'individuazione di server Elasticsearch esposti è all'ordine del giorno. All'inizio dell'anno finirono esposti i dati di oltre 20 milioni di cittadini russi. Nel Maggio di quest'anno, dati personali e dettagli delle carte di credito (compreso il codice CVV) di milioni di cittadini canadesi sono finiti esposti quando il database Elastichsearch appartenente alla telco Freedom Mobile è trapelato online. A Dicembre del 2018 un altro database contenente informazioni sensibili di 82 milioni di americani è anch'esso finito esposto online.

Come consumatori, come utenti, non ci resta quindi che prestare infinita attenzione ai dati che mettiamo, volontariamente, a disposizione di una piattaforma, così da non esporci a possibili attacchi o truffe.




CONDIVIDI QUESTA PAGINA!