BigQuery è il data warehouse serverless a scalabilità elevata di Google Cloud: il servizio consente ai clienti della piattaforma cloud della società di Mountain View di inserire e analizzare i dati in modo rapido e con disponibilità elevata, in modo che essi possano ricavarne nuovi insight, trend e previsioni, per gestire in modo più efficiente il proprio business.
Nell’ultimo periodo Google Cloud ha aggiunto diverse nuove funzionalità in BigQuery, e di recente il team di ingegneri responsabili dello sviluppo del servizio ha ritenuto fosse utile fare il punto della situazione, sia sulle novità che sulla documentazione che spiega come utilizzare in pratica le nuove funzioni.
Apache ORC e Parquet sono due popolari formati di dati colonnari open source, per le attività di data analytics su larga scala. Le aziende che passano al cloud hanno la possibilità di utilizzare direttamente BigQuery per analizzare i dati archiviati in questi formati.
Scegliere tra mantenere questi file nel Cloud Storage piuttosto che caricare i dati in BigQuery può essere una decisione difficile. Per semplificarla, Google Cloud ha introdotto il supporto della query federata per i file Apache ORC e Parquet in Cloud Storage, dall’interfaccia SQL standard di BigQuery.
Questa funzionalità lanciata alla fine dello scorso anno si è aggiunta alle altre funzionalità di query federate all’interno di BigQuery, tra cui sistemi di storage come Cloud Bigtable, Fogli Google e Cloud SQL, così come i formati di file AVRO, CSV e JSON in Cloud Storage.
Il successo dei modelli di machine learning, spiega Google Cloud, dipende fortemente dalla qualità del set di dati utilizzato per il training. Il preprocessing dei dati di training durante la progettazione delle funzioni può diventare complicato, quando è necessario eseguire le stesse trasformazioni sui dati di produzione, al momento della previsione.
Google Cloud ha introdotto per questo alcuni nuovi strumenti di BigQuery ML che possono aiutare a preprocessare e trasformare i dati con semplici funzioni SQL oltre che ad applicare queste trasformazioni in fase di produzione dei modelli di machine learning.
Tra queste novità c’è anche BigQuery Reservations, al momento in beta nelle regioni USA ed EU, che consente di acquistare senza soluzione di continuità gli slot BigQuery per sfruttare il pricing flat-rate (tariffe a costo fisso) e gestire la spesa in BigQuery con una prevedibilità completa.
Informazioni complete sulle funzionalità, le caratteristiche e i prezzi di BigQuery sono disponibili sul sito di Google Cloud.
Per sfruttare al massimo le potenzialità di BigQuery, può essere preziosa anche questa raccolta di 10 tip pubblicata da Google Cloud sul blog della piattaforma.