I Big Data stanno trasformando il mondo diventando parte integrante dell’ecosistema IT aziendale all’interno dei principali settori economici compresa l’agricoltura, l’istruzione, l’energia, l’intrattenimento, la sanità, le assicurazioni, la produzione e la finanza. Questo il tema centrale della conferenza internazionale Strata + Hadoop, tenutasi a Londra nei giorni scorsi, organizzata da O’Reilly e Cloudera. Dopo l’apertura da parte di Roger Magoulas (O’Reilly Media), Doug Cutting (Cloudera) e Alistair Croll (Solve For Interesting), il ricercatore Manuel Martin Marquez ha presentato la strategia e i progetti in relazione ai big data che si stanno sviluppando presso il CERN (Centro europeo per la ricerca nucleare).
Secondo IDC il mercato legato ai Big Data e IoT è destinato a crescere con un tasso annuale pari al 27% raggiungendo il valore di 34 miliardi di dollari entro il 2017 ( circa sei volte il tasso di crescita del mercato globale dell’ICT). E proprio sull’importanza e preminenza dello sviluppo dell’analisi dei dati dei dispositivi IoT connessi e sulla necessità di comprendere il reale potenziale attraverso una lettura adeguata dei dati ha incentrato il suo discorso Martin Willcox della Teradata International. Una best practice sull’utilizzo dei big data nel settore della salute è stata presentata da Gilad Olswang di Intel in merito al progetto di realizzazione di un cloud collaborativo di alcuni ospedali statunitensi in relazione alle patologie oncologiche.
LA QUESTIONE DELLA GESTIONE DEI BIG DATI
L’elaborazione di grandi quantità di file di grandi dimensioni è oggi un problema per le tradizionali architetture, centralizzate o di rete. Non ci sono sistemi di memorizzazione sufficientemente capaci, né sistemi di elaborazione sufficientemente potenti per i data center gestiti in modalità classica. Ciascun file di grandi dimensioni va smembrato in blocchi più piccoli, suddiviso tra nodi di processo che vengono elaborati singolarmente, sommando infine i risultati.
Questa operazione tradizionalmente richiederebbe il trasferimento dei blocchi di dati verso il sistema di processo e la gran mole di dati odierni richiederebbe un tempo di elaborazione estremamente lungo. Una semplice intuizione ha però ribaltato il paradigma: se i dati occupano tanta memoria e il software di elaborazione è di dimensioni minime, anziché portare i dati da un processore che esegue il software centralmente è preferibile suddividere i dati su tanti nodi di elaborazione e portare il software su ciascuno dei nodi, riportando indietro solo i risultati. Trasferire software e risultati è molto conveniente in termini di velocità di elaborazione: lo è tanto più, quanto meno strutturati sono i dati da elaborare.
LA SOLUZIONE OPEN SOURCE HADOOP
Hadoop è un’infrastruttura distribuita open source sviluppata sotto l’egida della Apache Software Foundation per l’elaborazione di big data. Il suo file system elabora a lotti molti file di dimensioni tali da non essere gestibili tradizionalmente: si parla di migliaia di nodi e di petabyte di dati. È stato creato nel 2005 da Doug Cutting e Mike Cafarella; Cutting lavorava in Yahoo, che risulta essere tra i maggiori contributors del progetto. È ispirato da alcune componenti di Google, in particolare il Google file system e l’approccio MapReduce.
La storia del progetto Hadoop è legata proprio ad un momento della vita privata di Doug Cutting, oggi Chief Architect di Cloudera, avvocato e creatore della tecnologia di ricerca open source da cui ha avuto origine Lucene, una libreria software di information retrieval gratuito e open source ma sopratutto inventore di Apache Hadoop; quando Doug stava lavorando al progetto sua figlia aveva inventato un nome per il suo elefante di peluche, per l’appunto Hadoop. “Ho pensato subito – racconta Cutting – che potesse essere un ottimo nome anche per il mio progetto poiché era semplice e facile da ricordare. A quei tempi stavo lavorando sul progetto Nutch un motore di ricerca ma non era semplice lo sviluppo né tanto meno immaginare come potessi farlo dialogare con altri computer, fino a quando non ho letto il paper di Google che descriveva come avevano creato un sistema un framework collegato su vari computer e l’ho trovato molto interessante. Era un’ottima idea per una solida architettura. Decisi così che il progetto su cui stavo lavorando dovesse essere open source per dare la possibilità a tutti di svilupparlo e implementarlo al meglio”.
UN MODELLO DI BUSINESS PER L’OPEN SOURCE
“Le persone quando possono preferiscono utilizzare tecnologie open source: questa è la mia esperienza nello sviluppo di Lucene e Hadoop – prosegue Cutting – lo sviluppo di un software opne source è facilitato dal supporto della comunità e dal fatto che più sviluppatori possono mettersi al servizio del progetto in maniera anche volontaria e per passione”. Ciò ovviamente non vuol dire che non si possa fare business con le tecnologie open source: il modello di business è un modello economico diverso. “Esistono moltissime aziende – racconta Cutting – che lavorano nel campo dell’open source e fanno business non attraverso lo sviluppo di software proprietario e quindi i diritti connessi alla vendita e uso delle licenze ma attraverso servizi aggiuntivi immessi sul mercato, supporto, consulenze, ed anche implementazione di parti di software non open source ma proprietarie in quelle occasioni in cui il software ha necessità di essere personalizzato per il cliente”.
Il valore aggiunto della scelta open source per lo sviluppo sembrerebbe dunque risiedere nella possibilità di implementare e migliorare il progetto da parte della community. Anche Michele Guglielmo, Regional Sales Director Cloudera M&ME, ritiene che il concetto fondamentale per l’utilizzo di piattaforme open source sia l’adattabilità e l’evoluzione di sviluppo in velocità poiché operata da parte di più soggetti; “presto o tardi – spiega Guglielmo – anche le aziende e compagnie più grandi, che sembrano al momento detenere un monopolio, finiranno per dover adeguare le proprie strategie alle richieste e alla velocità del mercato, poiché è un valore aggiunto poter lavorare in modalità open e con svariate professionalità. Un’azienda da sola non ha le caratteristiche né la capacità di poter cogliere le molteplici sfaccettature e sfumature dell’ecosistema dei big data. Volendo riportare sul mercato i principi dell’openness la colonna centrale che sostiene tutta l’archittetura è senza dubbio l’open source seguita successivamente dalle infrastrutture di collegamento per rendere la tecnologie adatta anche all’ambiente aziendale”.
Ed infatti ad oggi, oltre che da Yahoo!, Hadoop è stato adottato da Facebook, Twitter, Ebay, Spotify, LinkedIn, Ibm e molti altri. Hadoop è un framework open source, ma anche un ecosistema di svariate decine di applicazioni, che permette di immagazzinare ed elaborare big data. Analogamente ad altri pacchetti software, ne possono esistere versioni commerciali, che seguano le direttive delle specifiche licenze. Esistono quindi diverse distribuzioni di Hadoop: probabilmente le tre più note sono HortonWorks, MapR e Cloudera, con percentuali open source variabili tra l’80% e il 100% e con finanziamenti anche superiori al miliardo di dollari.
BIG DATA & IoT
I filoni principali per lo sviluppo dei big data per i prossimi anni restano indubbiamente sempre legati alla necessità di dare più valore ai dati che vengono prodotti; in questo senso il data warehouse classico ha dei limiti dovuti alla forte crescita della quantità di dati prodotti. Secondo Guglielmo una prima sfida a cui non ci si può sottrarre è l’utilizzo in modo diretto degli strumenti di lettura ed analisi dei dati, ovvero la necessità di semplificare sempre di più le interfacce e rendere la gestione del dato quasi autonomo anche per le unità di il business e non più solo per le direzioni IT.
Cutting sottolinea quanto l’ambito di applicazione dei big data sarà sempre più concentrato in relazione all’IoT per il quale si continuerà anche nei prossimi anni a generare enormi quantità di dati. “In questo contesto – prosegue Cutting – un rischio a cui dobbiamo prestare particolare attenzione è quello che riguarda tutte le tecnologie ovvero il rispetto della privacy dell’utente; abbiamo necessità di costruire fiducia e rispetto e professionalità nel settore”.
Guglielmo conclude sostenendo che “il limite dei big data è in realtà la fantasia di chi usa i dati e come portare a compimento i casi d’uso che i nostri clienti si inventano ad esempio come utilizzo point of sales per dare informazioni ai negozianti per la loro situazione a competitor simili, cercando di monetarizzare i dati dopo averli raccolti. Una nuova sfida per il settore è appunto quella di capire come fare business con quei dati, ed è la nuova frontiera per il settore Telco e finanza”.
Infine la sfida più importante secondo Cutting è quella relativa allo sviluppo di professionalità e competenze al momento non presenti sul mercato. “Un ecosistema di implementazione efficace per lo sviluppo di competenze nel settore dovrebbe basarsi su tre pilastri principali: una migliore educazione nelle materie scientifiche di base, le cosiddette STEM, una visione di business e un migliore utilizzo delle tecnologie. Le tecnologie continueranno a cambiare velocemente e quindi anche le aziende e le persone avranno necessità di acquisire nuove competenze flessibili nel corso di tutta la propria vita lavorativa” .
Facebook Comments