Leggere i log anonimi delle chiamate effettuate tramite alcuni smartphone e ricostruire nomi, indirizzi, relazioni e persino condizioni di salute dei rispettivi proprietari: è quanto hanno recentemente ottenuto due ricercatori di Stanford, correlando i metadati telefonici (come la posizione geografica dell’utente, la durata e la frequenza delle chiamate ed i numeri contattati) con altre informazioni pubblicamente accessibili tramite social network, motori di ricerca o portali web. Questo risultato dimostra chiaramente le potenzialità dei Big Data: grandi moli di dati, apparentemente indipendenti gli uni dagli altri, possono rivelare informazioni di enorme valore quando sono analizzati e correlati fra loro.
Conservazione e analisi dei dati: opportunità e rischi
L’analisi dei dati è di grande interesse per imprese ed organizzazioni, che se ne possono avvalere per identificare nuove opportunità di business, per indirizzare al meglio le proprie iniziative, per ottimizzare azioni e processi e ridurre così i costi operativi. Negli ultimi anni il costo delle soluzioni per la memorizzazione delle informazioni si sta rapidamente riducendo, e la progressiva diffusione di dispositivi e sensori di ogni genere concorre a produrre grandi quantità di dati da registrare. Questi fattori contribuiscono a definire una nuova tendenza nel settore IT: registrare quanti più dati possibile e conservarli a lungo, nell’ottica di analizzarli per ricavarne valore in tempi futuri.
La prospettiva è cambiata radicalmente rispetto a pochi anni fa, quando l’archiviazione dei dati serviva principalmente per il backup. Se un tempo gli archivi erano tipicamente conservati offline e periodicamente sovrascritti, oggi i dati sono progressivamente accumulati e spesso non sono adeguatamente protetti. D’altra parte, in questo nuovo scenario garantire la riservatezza, l’integrità e l’autenticità dei dati è una sfida particolarmente complessa.
Il dimensionamento delle misure di sicurezza è da sempre stato definito in funzione di un compromesso tra il valore attribuito all’informazione da proteggere e le risorse necessarie al potenziale attaccante per portare a termine l’attacco. Lo scenario dei big data mina alla base questi criteri: è infatti estremamente difficile determinare il valore dei dati da proteggere, poiché anche dati non sensibili e apparentemente irrilevanti possono svelare informazioni preziose una volta correlati tra loro o con altre fonti liberamente disponibili via web. Di conseguenza, è altrettanto complicato valutare il costo (in termini di risorse computazionali e di tempo) che un potenziale attaccante è disposto ad investire per compromettere un sistema.
Linee guida e prospettive future
Per limitare i rischi connessi alla conservazione di dati è possibile attenersi ad alcune best practice:
- selezionare i dati da mantenere: anche se può essere un’attività estremamente complessa, è opportuno identificare quali dati conservare e quali invece ignorare, individuando il punto di equilibrio ottimale tra il beneficio connesso alla disponibilità dell’informazione ed il rischio che la sua presenza comporta
- controllare l’accesso ai dati conservati: quando lo scenario applicativo lo permette, è consigliabile archiviare le informazioni offline o su reti protette da un attento controllo degli accessi
- verificare il dimensionamento delle misure di sicurezza: in caso si applichino tecniche crittografiche per garantire la riservatezza, l’integrità o l’autenticità dei dati, è necessario verificare che i parametri utilizzati (ad esempio, le dimensioni delle chiavi di cifratura) siano adeguati per scongiurare attacchi nell’arco di tempo in cui si intende estendere la conservazione
- gestire l’intero ciclo di vita dei dati, dedicando particolare attenzione alla fase di eliminazione. E’ inoltre opportuno regolamentare il tema, definendo cosa le organizzazioni possono e devono fare in ogni fase del ciclo di vita dei dati.
Infine, è sicuramente interessante seguire le evoluzioni dei filoni di ricerca che da anni studiano nuove soluzioni crittografiche volte a consentire l’analisi e l’elaborazione dei dati, preservandone allo stesso tempo la riservatezza. Tra le strade che oggi appaiono più promettenti figurano:
- la crittografia omomorfica: un modello crittografico (di cui esistono già alcune applicazioni) che consente l’esecuzione di algoritmi su dati cifrati, senza che ne sia richiesta la decifrazione
- la computazione sicura distribuita: uno schema crittografico che permette a più parti di elaborare dei dati condividendo il risultato finale ma mantenendo riservati i dati utilizzati come input.
Facebook Comments