Disponibilità, capacità, continuità: un caso, tre errori

Una seminota marca britannica di cosmetici ha scelto da un po’ di tempo di coniugare like su Facebook e offerte sull’acquisto dei propri prodotti: propone degli sconti particolari sugli ordini, come ad esempio prodotti in omaggio o spedizione gratuita o forti riduzioni di prezzo, una volta raggiunto un certo numero di like su Facebook.

Già in una situazione normale senza promozioni in corso, a causa dei prezzi popolari, ha una sfilza continua di ordini entranti, figuratevi cosa è successo nel momento in cui diverse decine di migliaia di persone in fibrillazione hanno scoperto che il numero di like necessario ad avere una superofferta era stato raggiunto.

Ebbene sì, dopo poche ore dall’annuncio della promozione il sito web è stato letteralmente abbattuto da un’orda selvaggia di acquirenti che, impauriti dall’eventuale “out of stock”, si è lanciata immediatamente in una navigazione forsennata tra gli scaffali virtuali e ha avviato migliaia di transazioni contemporanee. Un denial of service umano involontario.

A questo punto, mentre altrove si consumavano drammi tipo “Adesso non troverò più lo smalto glitterato verde pisello!” o “Come farò senza il blush rosa confetto se finisce mentre aspetto?” , la mia mente andava a quel sito web reso non disponibile in poche ore e al fatto che non tornasse attivo in tempi ragionevoli.

Cosa è venuto a mancare?

Errore #1

Sicuramente un discorso di gestione della disponibilità del servizio, meglio conosciuto come “Availability Management“.

La disponibilità è la capacità di un servizio o di una specifica parte di esso ad eseguire le proprie funzioni in certo periodo di tempo. Ad essa si affiancano l’affidabilità (reliability), che è la misura di quanto un servizio non sia affetto da malfunzionamenti, e la manutenibilità (maintainability) che è la capacità che ha di essere ripristinato in una situazione di corretto funzionamento.

Probabilmente nessuno del management IT si è posto il problema di analizzare per tempo se e quanto il servizio sarebbe potuto restare attivo con una richiesta di transazioni raddoppiata, triplicata, decuplicata…

Errore #2

L’azienda si è scusata con un messaggio sulla home page del (cadavere del) sito che recitava: “Il sito non è attualmente disponibile a causa dell’impredicibile traffico in ingresso, ci scusiamo e vi ringraziamo per la pazienza, stiamo lavorando per ripristinarlo”, mentre il team della pagina Facebook continuava a ripetere agli esagitati clienti di non insistere nella navigazione dato che più continuavano più il sito tornava a “cadere”. Tutto inutile, dato che nel frattempo centinaia di persone provavano senza tregua a cercare di visualizzare prodotti e piazzare ordini che, molto spesso, si perdevano miseramente tra un crash e un altro.

L’errore #2 sta nel fatto che il traffico improvviso non era affatto impredicibile, dato che il numero dei like era noto al team giorno per giorno. Tra quel dato e il feedback dello hype generato dall’annuncio della entrante offerta si capiva molto chiaramente che tutti i TOTmila utenti avrebbero piazzato uno o più ordini allo scoccare della soglia prevista.

Una attenta politica di “Capacity Management” avrebbe permesso un preventivo corretto dimensionamento delle risorse necessarie per tenere attivo il servizio. In questo caso parliamo di Resource Capacity Management e di Service Capacity Management, ma se avessero espanso il ragionamento avrebbero dovuto fare anche una valutazione del Business Capacity Management prima di lanciarsi in mega promozioni, non solo a livello di hardware/software che sarebbe stato necessario, ma anche delle forniture di magazzino, dato che dopo un paio di giorni c’era un out of stock enorme che è stato riparato solo dopo un ulteriore altro giorno.

Errore #3

Il peggio è stato quando il sito è rimasto indisponibile per quasi 3 giorni interi. E 3 è anche il numero dell’ultimo macro-errore: la continuità del servizio è venuta a mancare. Come il “Continuity Management“.

Se ci fosse stata una corretta gestione della continuità del servizio sicuramente il disservizio sarebbe terminato dopo pochissimo tempo, se non addirittura evitatop a priori. Quanti acquisti non sono stati fatti in quei giorni? Quanta gente, stanca dell’attesa, avrebbe abbandonato l’ardua impresa dell’acquisto online? E’ molto probabile che ci sia stata una perdita di introiti abbastanza importante.

Un processo di Business Continuity Management normalmente dopo una fase di iniziale di definizione delle policy (Initiation) avrebbe definito le necessità e le strategie (Requirements & Strategy) affinché non ci fosse un impatto negativo sul business qualora si fosse presentata una discontinuità del servizio. Si sarebbero quindi definiti i piani operativi e le misure di riduzione del danno e/o recovery, come ad esempio  la gestione della ridondanza dei sistemi o dell’hardware.

La prossima mega-offerta dista ancora poche migliaia di like. Riuscirà l’azienda a non soccombere nuovamente all’orda di clienti virtuali? Vi farò sapere. Nel frattempo attendo la consegna del mio ordine.

Facebook Comments

1 COMMENT

LEAVE A REPLY

Please enter your comment!
Please enter your name here