Big data e open source si incontrano in Apache Hadoop

big data

Collezionare dati, analizzarli e trasformali in informazioni utili per il miglioramento dei servizi all’utenza è lo scopo del progetto Hadoop, prima piattaforma unificata per big data open source, sul quale fornisce supporto e servizi la società statunitense Cloudera. Hadoop è un framework software concepito per scrivere facilmente applicazioni che elaborano grandi quantità di dati in parallelo, su cluster di grandi dimensioni (costituiti da migliaia di nodi) assicurando un’elevata affidabilità e disponibilità (fault-tolerant). Hadoop nacque per sopperire ad un grave problema di scalabilità di Nutch, un crawler Open Source basato sulla piattaforma Lucene di Apache. I programmatori Doug Cutting e Michael J. Cafarella hanno lavorato ad una versione iniziale di Hadoop a partire dal 2004; in quell’anno furono pubblicati documenti tecnici riguardanti il Google File System e Google MapReduce, documenti da cui i due programmatori attinsero le competenze fondamentali per lo sviluppo di HDFS e di un nuovo e innovativo pattern per l’elaborazione distribuita di elevate moli di dati: MapReduce. Attualmente MapReduce è uno dei componenti fondamentali di Hadoop. Nel 2008, nacque invece la prima release come progetto Open Source indipendente di Apache. Ad oggi Hadoop è un insieme di progetti opensource tutti facenti parte della stessa infrastruttura di calcolo distribuito.

romain picard
Romain Picard, Cloudera

Abbiamo chiesto a Romain Picard – Senior Director SEMEA Fr. & N. Africa, Iberia, Italia, Grecia, Turchia & Middle East per Cloudera – di spiegarci meglio il progetto.

Hadoop nasce come progetto open source: quali le condizioni ottimali per la migliore diffusione degli open standard?

Il progetto Hadoop nasce come progetto open source per vari motivi, forse il più importante riguarda il fatto che l’open source spinge l’innovazione più velocemente attraverso l’adozione di tecnologie innovative che sono sviluppate da una intera comunità valicando i problemi legati ad esempio al lock-in del software proprietario. Proprio questa spinta all’innovazione e quindi una maggiore attenzione alle necessità e richieste del mercato ci ha convito come azienda a sviluppare un software che fosse 100% open source non solo in termini di “vendita” di prodotti ma in tutto il processo di realizzazione. Per la stabilità del prodotto e un posizionamento serio e duraturo sul mercato è necessario rifarsi a degli standard; in effetti non è sempre detto che un progetto open source sia poi adottato e sostenuto dalla comunità e quindi abbia una valenza economica considerevole sul mercato. In questo senso la scelta di operare e utilizzare standard aperti è fondamentale per la durata del progetto che diventa appetibile, implementabile, scalabile ma sopratutto stabile sul mercato. Inoltre l’adozione di tecnologie e soluzioni open source è fondamentale e di rilievo non solo in relazione all’aspetto di innovazione tecnologica ma anche in relazione all’aspetto dei costi che sono ovviamente ridotti. Noi ad esempio abbiamo deciso di sviluppare delle nostre API al fine di assicurare il migliore servizio possibile realizzato e basato su tecnologie open source ma forte anche negli aspetti relativi alla sicurezza.

Quali i vantaggi di Hadoop/Cloudera nella gestione dei Big Data?

Il valore di un dato si moltiplica di un ben 40% quando correlato e combinato con altri dati. Per sfruttare appieno la mole di dati, la loro grande varietà e variabilità sono indispensabili architetture di gestione dei big data flessibili, scalabili, sicure ed efficienti: da qui la necessità di un Hub di dati aziendali (EDH) costruito con Hadoop al suo interno con cui è possibile rafforzare il coinvolgimento del cliente, ottimizzare l’offerta e migliorare le previsioni e il merchandising. Dunque, un hub aziendale che offra due vantaggi principali: la governance multi-tenancy e la sicurezza dei dati. Questo sistema è ovviamente applicabile a ogni tipologia di settore economico. Per portare solo alcuni esempi:

  1. per il settore viaggi: la customer journey è fondamentale per poter dare un servizio migliore ad esempio da parte della compagnie aeree che hanno la necessità di conoscere e monitorare le scelte degli utenti, la soddisfazione dei servizi erogati, i flussi di informazioni, la logistica, ecc.
  2. per il settore manifatturiero: l’ottimizzazione della supply chain e del controllo di tutta la filiera di distribuzione dei prodotti è fondamentale tanto quanto il monitoraggio della logistica e distribuzione al fine di migliorare la vendita del prodotto finale
  3. per il settore smart city ed energy: la costruzione delle abitazioni moderne dovrebbe passare per l’implementazione e lo sviluppo della domotica e dell’IoT, l’analisi delle esigenze prioritarie degli utenti, la gestione della mobilità cittadina e delle emissioni inquinanti possibili solo tramite la conoscenza e gestione dei flussi di traffico e delle abitudini dei cittadini di un dato territorio.

Quali sono le specifiche della piattaforma e i principali punti di forza che la differenziano dalle altre presenti sul mercato?

Hadoop offre librerie che permettono la suddivisione dei dati da elaborare direttamente sui nodi di calcolo e permette di ridurre al minimo i tempi di accesso, questo perché i dati sono immediatamente disponibili alle procedure senza pesanti trasferimenti in rete. Il framework garantisce un’elevata affidabilità: le anomalie e tutti gli eventuali problemi del sistema sono gestiti a livello applicativo anziché utilizzare sistemi hardware per garantire disponibilità. Un’altra caratteristica di Hadoop è la scalabilità che è realizzabile semplicemente aggiungendo nodi al cluster in esercizio. I principali vantaggi di Hadoop risiedono nelle sue caratteristiche di agilità e di flessibilità. Cloudera Enterprise (basata su Hadoop) è una soluzione unificata ed integrata che permette di memorizzare e analizzare tutti i dati e metadati, fornendo sicurezza e governance e una gestione end-to-end dei sistemi. L’azienda ha messo al centro dei propri servizi il dato e sviluppato servizi per la gestione di un processo integrato, mettendo a disposizione una soluzione che, grazie alla flessibilità e stabilità di sistema, si sta configurando anche come partner ideale per le imprese più piccole. I principali punti di forza possono essere dunque facilmente ricondotti a: velocità nella gestione del dato e quindi nel business, facilità e semplificazione di utilizzo e gestione, sicurezza informatica senza compromessi.

history-of-hadoop-it

Facebook Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here