di Michael Allen VP & CTO EMEA, Dynatrace
Le organizzazioni di tutto il mondo continuano a trasformarsi digitalmente, sforzandosi di offrire ai clienti esperienze uniche e di innovare più velocemente per soddisfare le aspettative degli utenti. Per raggiungere questo obiettivo, stanno migrando sempre più servizi verso ambienti ibridi cloud-native. Sebbene questi ecosistemi dinamici apportino un notevole livello di agilità alle organizzazioni, introducono anche livelli di complessità senza precedenti, che, secondo ricerche recenti, stanno superando le capacità umane di gestione.
I moderni team IT sono bombardati ogni giorno da migliaia di avvisi riguardanti performance e accessibilità, che sono tenuti a indagare per identificare e risolvere potenziali problemi prima che incidano sulle prestazioni dei servizi IT e riducano la soddisfazione di utenti e clienti. Di fronte a un volume così elevato di alert, un team IT trascorre in media il 15% del proprio tempo semplicemente cercando di identificare su quali avvisi è necessario concentrarsi. Questo costa alle organizzazioni, in media, 1,5 milioni di dollari di spese generali per il personale ogni anno – e questo è ancora prima che affrontino il compito di risolvere il problema di fondo.
Un futuro sempre più in cloud
La sfida che i moderni team IT devono affrontare è in gran parte legata al fatto che le applicazioni in esecuzione negli ecosistemi cloud aziendali di oggi sono estremamente complesse, con centinaia di tecnologie, milioni di linee di codice e miliardi di dipendenze. Tutto ciò sta causando un volume, una velocità e una varietà di dati di monitoraggio e alert sulle prestazioni su una scala mai vista prima. I metodi tradizionali di monitoraggio delle applicazioni non sono attrezzati per dare un senso a tutti questi dati e fornire il livello di osservabilità di cui i team IT hanno bisogno per gestire le prestazioni del servizio in modo efficace.
In gran parte, questa sfida deriva dal fatto che i sistemi di monitoraggio tradizionali operano in genere isolati l’uno dall’altro. Di conseguenza, stanno inviando collettivamente migliaia di avvisi che non tengono conto del contesto più ampio di ciò che sta avvenendo nell’intero stack. I dati che i team IT ricevono sono quindi indifferenziati, con un gran numero di falsi positivi e avvisi duplicati, che devono essere vagliati prima di poter procedere con la risoluzione dei problemi. Di fronte a questa costante raffica di dati e incapaci di concentrarsi immediatamente su problemi di prestazioni reali, i team IT stanno dedicando sempre più tempo al triaging di base per determinare dove dovrebbero dirigere i propri sforzi. Questo compito è reso ancora più complicato dal fatto che la maggior parte degli avvisi è irrilevante e di basso livello, con i CIO che affermano che in media solo il 26% richiede un’azione.
Annegare in un mare di alert
Separare falsi positivi, duplicati e avvisi a bassa priorità dai veri problemi è un processo lento e soggetto a errori. Questo significa che i team IT hanno meno tempo per il compito molto più importante di identificare con esattezza la causa alla base dei problemi di prestazione e risolverli prima che i clienti o gli utenti finali subiscano interruzioni del servizio. Nell’odierna era del cliente, in cui abbiamo un’ampia scelta e l’opportunità di passare a un servizio alternativo in un attimo, ciò può comportare una perdita di entrate e danneggiare i profitti delle aziende. Gli utenti si aspettano un’esperienza digitale senza interruzioni e, per offrire questo, i team IT devono essere in grado di mantenere un’osservabilità end-to-end. Solo così possono gestire efficacemente i loro ambienti IT sempre più complessi, con la capacità di identificare e risolvere i problemi di prestazione prima che la qualità del servizio venga compromessa.
Chiaramente lo status quo è insostenibile ed è necessario un cambiamento radicale per alleviare lo stress che pesa sui team IT. Le risorse cruciali che i team stanno attualmente sprecando per classificare migliaia di avvisi sulle prestazioni devono essere reindirizzate verso un’efficace gestione delle performance e la fornitura di esperienze digitali senza interruzioni. Alcune organizzazioni stanno tentando di affrontare il problema aggiornando gradualmente i propri strumenti di monitoraggio delle prestazioni. Questa operazione ha però un successo molto limitato perché gli strumenti che stanno aggiornando non sono mai stati creati per la natura dinamica degli ambienti multi-cloud. Gestire la complessità di questi ecosistemi cloud richiede un cambiamento trasformativo, che va oltre il semplice affidarsi alle capacità umane.
Superare la tempesta grazie a operazioni guidate dall’intelligenza artificiale
Per padroneggiare i loro ambienti complessi e rimanere vincenti in un mondo incentrato sull’esperienza, le organizzazioni devono passare alle cloud operation basate sull’intelligenza artificiale. La combinazione di questo passaggio con un approccio basato su un modello di dati comune che suddivide i silos tra i dati di monitoraggio, offrirà un supporto di gran lunga migliore ai team IT, fornendo risposte contestualizzate e precise a problemi di prestazioni, piuttosto che più dati e avvisi. Questo aprirà la strada alle applicazioni che si auto-correggono e auto-riparano attraverso l’automazione della consegna continua e dei processi operativi.
In definitiva, i responsabili delle aziende e dei reparti IT devono affrontare l’inadeguatezza dei sistemi di monitoraggio tradizionali che stanno affogando i dipartimenti IT in alert continui. Le organizzazioni di oggi devono compiere un passaggio decisivo verso le cloud operation basate sull’AI che forniscono informazioni fruibili sulle prestazioni delle applicazioni e sull’impatto sull’utente finale. Solo così saranno in grado di offrire esperienze digitali senza interruzioni nella complessità del cloud aziendale e rimanere competitivi in un mondo incentrato sul cliente.
Facebook Comments