Home Big Data Data Mesh e Data Virtualization: il binomio vincente

Data Mesh e Data Virtualization: il binomio vincente

Quando si parla di Data Mesh, ci si riferisce a un paradigma di analisi dei dati innovativo e tutt’ora in evoluzione, progettato per trasformare strutture monolitiche, come Data Warehouse e Data Lake, in un’architettura più decentralizzata.

In risposta a quali sfide nasce il Data Mesh?

  1. Mancanza di conoscenza del business da parte di chi gestisce i dati: troppo spesso, chi gestisce centralmente i dati si trova ad avere a che fare con dati non sempre dal significato chiaro, per risolvere problemi altrettanto fraintendibili. Di conseguenza, molti dei processi che prevedono lo scambio di dati tra Team diversi subiscono importanti rallentamenti, compromettendo la qualità dei risultati finali.
  2. Mancanza di flessibilità nelle piattaforme di gestione dei dati centralizzati: centralizzare i dati può essere problematico. Le esigenze delle grandi organizzazioni sono infatti troppo eterogenee per essere soddisfatte da un’unica piattaforma.
  3. Lentezza nel fornire i dati e rispondere alla necessità di innovazione: ogni cambiamento a livello di business richiede l’integrazione di nuovi dati nell’architettura centralizzata e la modifica dei flussi a tutti i livelli del sistema, ma questo rende l’architettura rigida e soggetta a fallire.

L’obiettivo del Data Mesh è quello di superare questi ostacoli, rendendo le unità organizzative (chiamate “domini”) responsabili della gestione e dell’esposizione dei dati al resto dell’organizzazione. Ogni dominio consente quindi una migliore comprensione dell’utilizzo dei dati, permettendo una riduzione dei processi ridondanti e abilitando un generale miglioramento della produttività. I limiti imposti dalle infrastrutture centralizzate vengono così eliminati, dando ai diversi domini l’autonomia di utilizzare gli strumenti che meglio si adattano alle singole circostanze.

Allo stesso tempo, questa soluzione può presentare dei rischi, quali il permanere di una divisione dei dati in silos, una ridondanza degli sforzi per la gestione dei diversi domini e – più in generale – la mancanza di una governance unificata dei dati. Per ovviare a questi possibili inconvenienti, il paradigma del Data Mesh introduce nuovi concetti aggiuntivi:

  • Dati come prodotto (Data Products): i dati gestiti dai diversi domini devono essere facilmente reperibili, comprensibili e utilizzabili da altre unità.
  • Piattaforme di dati self-service: costruire e gestire un’infrastruttura di dati è complesso e non tutti i domini disporranno delle risorse appropriate, considerando anche che si deve evitare la duplicazione degli sforzi. Per questo, i domini stessi devono essere in grado di utilizzare una piattaforma Self-Service per automatizzare o semplificare compiti come l’integrazione e la trasformazione dei dati, l’applicazione delle policy di sicurezza, la tracciabilità e la gestione delle identità.
  • Governance IT federata: per assicurare l’interazione tra i Data Products creati dai diversi domini, è necessario un buon livello di standardizzazione. Questo include modelli semantici comuni a diversi domini (che modellino, ad esempio, entità come clienti e prodotti) e aspetti tecnici come l’indirizzabilità dei Data Products e la gestione delle identità. Alcune politiche di sicurezza possono anche essere applicate a livello globale e, quando possibile, tali politiche vengono applicate automaticamente.

La tecnologia chiave per l’implementazione del Data Mesh è senza dubbio la Data Virtualization, che fornisce un accesso unificato ai dati, oltre a un livello di sicurezza e di data governance al di sopra dei sistemi di dati distribuiti ed eterogenei.

Creare Data Products con la Data Virtualization

La Data Virtualization permette ai domini di costruire rapidamente Data Products, creando modelli virtuali da qualsiasi fonte. Grazie alla sua facilità d’uso e alla capacità di ridurre al minimo la replicazione, consente di creare Data Products molto più velocemente rispetto alle alternative tradizionali. Allo stesso modo, permette di gestire più agilmente ed efficacemente più versioni di Data Products, fino a soddisfare le esigenze di business (uno studio di Gartner stima che la virtualizzazione dei dati può portare a un aumento della produttività di oltre il 45%).

I modelli virtuali, inoltre, forniscono un modello semantico in grado di presentare i dati in modo chiaro, nascondendo agli utenti la complessità dei sistemi sottostanti, come la posizione dei dati o i formati di origine. I Data Products sono resi disponibili tramite formati standardizzati come SQL, REST, OData, GraphQL o interfacce MDX, senza che lo sviluppatore debba scrivere codice, e possono essere pubblicati automaticamente in un catalogo di dati aziendali, che potrà essere utilizzato come un Data Marketplace di dati dell’organizzazione.

Preservare l’autonomia dei domini

Un altro vantaggio chiave della Data Virtualization è quello di permettere ai domini di selezionare e far evolvere autonomamente le fonti dati che implementano i loro Data Products.

Per esempio, molte aziende dispongono già di sistemi di analisi dei dati specifici per ciascun dominio, che possono riutilizzare quasi senza sforzo e senza dover introdurre nuove competenze nei loro Team, riutilizzando inoltre direttamente le applicazioni specificamente adattate ai propri domini (per esempio applicazioni SaaS).

Se necessario, le capacità di caching/accelerazione delle query offerte dalla piattaforma di Data Virtualization possono anche essere sfruttate per garantire prestazioni adeguate ed evitare interferenze con altri processi interni in esecuzione su questi sistemi. Infine, per un ulteriore isolamento e autonomia, i server di Data Virtualization sono in grado di scalare in modo indipendente da ciascun dominio.

Naturalmente, i domini possono sempre appoggiarsi a Data Warehouse o Data Lake per determinati tipi di dati, ovviamente assumendo che si disponga delle competenze adeguate. Per esempio, un’infrastruttura di Data Lake centrale può essere una buona scelta per Data Products pensati per attività di Machine Learning, ma naturalmente questo potrebbe non essere necessario per tutti i domini, né per tutti i dati.

Governance IT federata per il Data Mesh

La Data Virtualization permette anche l’implementazione del principio di governance federata. Innanzitutto, la struttura a strati dei modelli virtuali consente il semplice riutilizzo delle definizioni attraverso i domini. Di conseguenza, questo permette la definizione di entità comuni con una rappresentazione coerente per tutti i tipi di dati, assicurando l’interoperabilità. In questo modo, anche gli sviluppatori possono riutilizzare facilmente i dati provenienti da altri domini senza dover duplicare il processo di integrazione.

Il livello di Data Virtualization permette poi alle organizzazioni di automatizzare l’implementazione di Policy globali di sicurezza dei dati (ad esempio mascherare dati sensibili dei dipendenti a meno che l’utente non abbia una funzione HR), proteggendoli dall’accesso diretto e fornendo un unico punto di accesso per applicare altre standardizzazioni per il dominio (ad esempio, convenzioni di denominazione e indirizzabilità).

Il Data Mesh è quindi un nuovo approccio alla progettazione e allo sviluppo delle architetture di dati, che a differenza di architetture centralizzate e monolitiche basate su Data Warehouse o Data Lake, segue un approccio altamente decentralizzato, progettato per ridurre al minimo gli effetti negativi derivanti dalla presenza di silos di dati, evitare la duplicazione degli sforzi e garantire la coerenza complessiva del patrimonio informativo

Il paradigma del Data Mesh, da questo punto di vista, fornisce un’infrastruttura unificata che permette ai domini di creare e condividere i Data Products, applicando al contempo elevati standard di interoperabilità, qualità, governance e sicurezza. In questo contesto, le soluzioni di Data Virtualization sono state specificamente progettate per fornire uno strato di dati unificato, controllato e sicuro, per adattarsi perfettamente all’implementazione dei principi di questo rivoluzionario paradigma.

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche
css.php