La strada giusta per ogni informazione

Alessio Misultin -

11 Luglio 2005

Categorizzare, conservare e recuperare un documento al minor costo e con la massima efficienza. Tutti questi benefici sono sintetizzati nell’approccio dell’Information lifecycle management, verso il quale i vendor spingono, ma che inizia finalmente a essere compreso anche dagli utenti finali.

Sempre più aziende, oggi, hanno la necessità di fornire continuità operativa e disponibilità delle applicazioni, ovvero di funzionare sempre con piena efficienza, disponendo immediatamente dei dati in loro possesso. Tutto questo implica l’obbligo di sfruttare al massimo le risorse It e, soprattutto, le informazioni raccolte. Proprio la crescente mole di documenti, sempre più costosi da conservare e gestire, ha imposto di rivedere le strategie di storage, per trovare soluzioni in grado di coniugare disponibilità e costi, soprattutto in una fase di stagnazione economica come quella in atto. È nato, così, l’Ilm (Information lifecycle management), acronimo dietro il quale si cela una strategia che ha un solo obiettivo: conservare e rendere sempre disponibili le informazioni. Attività critica se si pensa che, in base a una recente ricerca di Ontrack, è emerso come il 44% delle perdite dei dati sia imputabile a malfunzionamenti hardware o di sistema e il 33% a errori umani. A questi si aggiungono virus, malfunzionamenti software e "site disaster". Un elenco lungo e articolato, che prevede metodologie differenti per far fronte alle possibili cause. Anche perché, per riuscire a far combaciare costi e performance delle soluzioni, è necessario studiare una strategia opportuna per ogni applicazione e tipo di dato, con un approccio flessibile basato anche su opzioni di in e outsourcing, in funzione di necessità e disponibilità di budget.

Classificare i dati

Complice il costo delle operazioni di conservazione, prima di affrontare qualsiasi investimento è necessario distinguere i dati in funzione della loro durata nel tempo, della frequenza d’accesso e della rapidità con cui devono essere disponibili. Un documento fiscale, ad esempio, può essere richiesto dopo anni dalla sua emissione. Ma anche se venisse recuperato dopo 24 ore non creerebbe nessun problema. Diversamente, soprattutto sulla scorta della recente normativa di tracciabilità, è necessario conoscere tutta la storia, "in avanti" e "indietro", di tutti i generi alimentari. In caso di sospetti sulla conformità ai parametri di salute pubblica, anche a distanza di mesi, tutti i dati relativi a un lotto devono, infatti, essere resi disponibili in tempo reale. Questi due esempi, estremi ma emblematici, aiutano a comprendere quanto sia importante conoscere e suddividere i dati in funzione delle loro caratteristiche. Per tale ragione, un’efficace classificazione distingue fra "online" (i dati "attivi", che debbono essere fruibili in tempo reale) e "near online" (quelli che vanno conservati per un periodo compreso fra 3 e 6 mesi e, pur essendo necessari in tempi rapidi, sono utilizzati solo saltuariamente). Accanto a queste due categorie di informazioni, la cui probabilità di impiego è relativamente alta, esistono le cosiddette informazioni "nearline", che vengono conservate in media per un anno e la cui disponibilità può essere bassa. Diversa è la condizione dei dati classificati come "offline", da custodire per 5 anni e che possono essere stipati anche in siti remoti, così come degli "archivi", destinati a essere conservati per oltre 30 anni, ma con una bassissima probabilità di impiego.

Una questione di etichetta

Una simile classificazione, però, non è univoca e i dati, prima di essere custoditi nella loro destinazione finale, devono completare un ciclo di vita che li porta a risiedere su supporti differenti, in funzione di "anzianità" e caratteristiche. Proprio questa fase, che parte dalla generazione di un’informazione, costituisce il cuore dell’Ilm. Un processo da ottimizzare, anche in funzione del budget disponibile, e da rendere sicuro. Ma, soprattutto, da automatizzare, per evitare i lunghi tempi e i rischi connessi a ogni azione manuale. Per questa ragione, si è affermato il backup temporaneo su disco che, grazie alla sua capacità di recuperare i singoli file, riduce sensibilmente i tempi di richiamo. Il salvataggio su disco costituisce una fase intermedia del processo di conservazione. Permette di posticipare il trasferimento su supporti più economici (e più lenti) in un secondo momento, senza interferire con l’operatività del sistema e senza occupare la banda nelle ore di massimo utilizzo. L’intero processo, ovviamente, è completamente automatizzato e non necessita di operazioni manuali, perché i moderni software di gestione dei file sono in grado di analizzarli e classificarli, trasferendoli sul supporto adeguato in funzione di specifici parametri operativi. Il medesimo software deve, inoltre, poter accedere direttamente ai dati registrati su qualunque supporto, per recuperarli in tempi adeguati alle specifiche necessità.

Risparmi consistenti

Proprio il risparmio economico, senza incidere sulla disponibilità delle informazioni, rappresenta uno dei principali obiettivi di un’adeguata strategia Ilm. Anche perché, come dimostrano recenti studi della Snia (Storage Networking Industry Association), mediamente l’80% dei file archiviati non viene più utilizzato. Una valutazione che permette di comprendere come l’impiego di un supporto inadeguato comporti una crescita dei costi e un’inefficienza sempre maggiori. Basti pensare che, per la conservazione di 5 Terabyte su un sistema ad alta disponibilità (al costo medio di 50 dollari per singolo Gigabyte gestito), un’azienda investe circa 250.000 dollari. Ma, considerando che l’80% di queste informazioni è inutilizzato, e che il costo di un Gb memorizzato su un disco di fascia bassa è pari a 5 dollari, è immediato ricavare che, semplicemente spostando 4 Tb su un supporto meno costoso, è possibile ottenere un risparmio di ben 180.000. Un valore che sale sino a quasi 200.000 se si utilizza un’infrastruttura basata su tecnologia a nastro. Senza dimenticare che, con una simile mole di dati, un’operazione di backup richiede almeno 10 ore. Questi calcoli, anche se devono tener conto dell’obbligatorio investimeno in software, evidenziano la necessità di attuare politiche che consentano di sfruttare al meglio i diversi supporti disponibili, generando così riduzione dei costi e aumento dell’efficienza.