SAN FRANCISCO – 28 giugno 2022 – Databricks, #data e AI company pioniera del paradigma del #data lakehouse, ha presentato oggi, in occasione dell'annuale Data + AI Summit di #sanfrancisco, l'evoluzione della #Databrickslakehouseplatform. Le nuove caratteristiche comprendono migliori prestazioni e funzionalità di #data warehousing della categoria, ampliamento della governance dei dati, innovazioni per la condivisione dei dati tra cui marketplace analytics e room #data clean per una collaborazione sicura sui dati, ottimizzazione automatica dei costi per le attività ETL e miglioramenti del ciclo di vita del machine learning (ML).
"I nostri clienti vogliono disporre di business intelligence, AI e machine learning su un'unica piattaforma, dove già risiedono i propri dati. Ciò richiede le migliori funzionalità di #data warehousing in grado di operare direttamente sul loro #data lake. Facendo un'analisi comparativa con gli standard più elevati, abbiamo dimostrato più volte che #Databrickslakehouseplatform offre ai #data team il meglio di entrambi i mondi su una piattaforma semplice, aperta e multi-cloud", ha dichiarato #alighodsi, Co-founder e CEO di #Databricks. "Gli annunci di oggi rappresentano un significativo passo avanti nella nostra visione Lakehouse, dal momento che stiamo rendendo più veloce e più semplice che mai la massimizzazione del valore dei dati nelle aziende, sia internamente che esternamente.
Il miglior #data Warehouse è il Lakehouse
Aziende come Amgen, AT&T, Northwestern Mutual e Walgreens stanno adottando la #tecnologia lakehouse per eseguire analisi su dati strutturati e non strutturati. Oggi #Databricks ha presentato le nuove funzionalità di #data warehousing della piattaforma per migliorare ulteriormente i workload analytics:
La governance dei dati diventa una priorità assoluta con le funzionalità avanzate di Unity Catalog
Unity Catalog disponibile su AWS e Azure nelle prossime settimane, offre una soluzione di governance centralizzata per tutti i dati e gli asset AI con ricerca e rilevamento integrati, lineage automatizzato per tutti i carichi di lavoro, prestazioni e scalabilità per il lakehouse su qualsiasi cloud. Inoltre, recentemente #Databricks ha introdotto il data lineage per Unity Catalog, ampliando in modo significativo le capacità di governance dei dati sul lakehouse e offrendo alle aziende una visione completa dell'intero ciclo di vita dei dati. Grazie al #data lineage, i clienti hanno la visibilità sulla provenienza dei dati nel proprio lakehouse, su chi li ha creati e quando, come sono stati modificati nel tempo, come vengono utilizzati nei carichi di lavoro di #data warehousing e #data science e molto altro ancora.
Maggiore condivisione dei dati grazie a #Databricks Marketplace e Cleanrooms
Come primo marketplace per tutti i dati e AI, #Databricks Marketplace, disponibile nei prossimi mesi, è un mercato aperto per confezionare e distribuire dati e analitycs. Superando i marketplace che offrono semplicemente set di dati, #Databricks Marketplace consente ai #data provider di gestire e vendere in modo sicuro una serie di asset come tabelle di dati, file, modelli di machine learning, notebook e dashboard analytics. I fruitori di dati possono facilmente scoprire nuovi dati e risorse di #intelligenzaartificiale, avviare le proprie analisi e ottenere più rapidamente approfondimenti e valore dai dati. Ad esempio, invece di acquisire l'accesso a un set di dati e investire il proprio tempo nello sviluppo e nella gestione di dashboard per la reportistica, possono scegliere di abbonarsi a dashboard preesistenti che forniscono le analisi necessarie. #Databricks Marketplace è alimentato da Delta Sharing, che consente ai #data provider di condividerli senza doverli spostare o copiare dal proprio storage cloud. In questo modo i provider possono offrire i dati ad altri cloud, strumenti e piattaforme da un'unica fonte.
Inoltre, #Databricks sta aiutando i propri clienti a condividere e sfruttare i dati oltre i confini aziendali. Cleanrooms, disponibile nei prossimi mesi, consentirà di condividere e unire i dati tra le diverse aziende, in un ambiente sicuro e protetto, senza la necessità di replicare i dati. Nell’ambito di media e pubblicità, ad esempio, due aziende potrebbero voler capire la sovrapposizione del pubblico e la portata delle campagne. Le soluzioni di clean room esistenti presentano dei limiti, generalmente sono, infatti, circoscritte a strumenti SQL e comportano il rischio di duplicazione dei dati su più piattaforme. Grazie a Cleanrooms, le aziende possono collaborare facilmente con clienti e partner su qualsiasi cloud e avere la flessibilità necessaria di eseguire calcoli e carichi di lavoro complessi utilizzando sia strumenti SQL sia strumenti basati sul #data science, tra cui Python, R e Scala con controlli coerenti sulla privacy dei dati.
MLflow 2.0 semplifica e accelera il machine learning su vasta scala
Databricks continua a essere all'avanguardia nell'innovazione MLOps con l'introduzione di MLflow 2.0. La realizzazione di una pipeline di machine learning richiede la creazione di un'infrastruttura, non solo la scrittura di codice. Questo può essere difficile per i nuovi utenti e noioso per chiunque operi su ampia scala. Grazie a MLflow 2.0, MLflow Pipelines ora gestisce i dettagli operativi per gli utenti. Invece di impostare l'orchestrazione dei notebook, gli utenti possono semplicemente definire gli elementi della pipeline in un file di configurazione e MLflow Pipelines ne gestisce automaticamente l'esecuzione. Oltre a MLflow, #Databricks ha aggiunto anche Serverless Model Endpoints per supportare direttamente l'hosting dei modelli di produzione, nonché dashboard integrate di Model Monitoring per aiutare i team ad analizzare le prestazioni dei modelli nel mondo reale.
Delta Live Tables include il primo sistema di ottimizzazione delle prestazioni per le pipeline di #data Engineering
Delta Live Tables (DLT) è il primo framework ETL che utilizza un approccio semplice e esplicativo per costruire pipeline di dati affidabili. Dal suo lancio all'inizio di quest'anno, #Databricks ha continuato ad aggiungere nuove funzionalità, tra cui l'introduzione di un nuovo livello di ottimizzazione delle prestazioni progettato per accelerare l'esecuzione e ridurre i costi dell'ETL. Inoltre, il nuovo Enhanced Autoscaling è stato concepito per scalare in modo intelligente le risorse in base alle fluttuazioni dei carichi di lavoro in streaming, mentre Change #data Capture (CDC) for Slowly Changing Dimensions - Type 2 tiene facilmente traccia di ogni cambiamento nei dati di origine sia per scopi di conformità che di sperimentazione di machine learning.
Per maggiori informazioni sulla #Databrickslakehouseplatform: https://Databricks.com/product/data-lakehouse. Collegati virtualmente per seguire altri keynote del #dataaisummit registrandoti qui.
© Copyright 2024