Nei convegni e nei seminari ai quali mi è capitato di partecipare, ho sentito parlare sempre più spesso di data quality. Che cosa si intende esattamente? La data quality è un concetto di "dato" che rientra nel variegato m …
Nei convegni e nei seminari ai quali mi è capitato di partecipare, ho sentito parlare sempre più spesso di data quality. Che cosa si intende esattamente?
La data quality è un concetto di "dato" che rientra nel variegato mondo della business intelligence. Mutuando una definizione del MIT, Cinzia Cappiello, del Politecnico di Milano, parla di data quality come di "fitness for use", ovvero adeguatezza del dato al processo. "Non si tratta di parlare solo di esattezza del dato in sé, ma anche di aggiornamento, adeguata rappresentazione, attenzione alla multidimensionalità. Quando trattiamo di dati, il rischio che si corre è di non avere una corrispondenza con la realtà d’azienda.C’è quindi molta soggettività".
La data quality interessa tutti i processi aziendali (da quelli operativi a cui sono associati i dati elementari, a quelli decisionali dove i dati non sono più strutturati), ma pate dal basso. Fondamentale è quindi il database. A volte i problemi a livello operativo sulla qualità dei dati non si sentono, ma quando si affrontano i processi decisionali vengono a galla.
Secondo Cappiello, se un’azienda vuole perseguire la data quality deve fare due cose. Primo, darsi uno strumento per pulire i dati e fare profiling. Sintatticamente è facile, più difficile è fare controlli semantici. Secondo: deve controllare i propri processi. Se un errore si verifica per colpa di un processo, è scontato che si riproporrà nel futuro