Cookie Consent by Free Privacy Policy website Databricks presenta le novità per la sua piattaforma di data lakehouse leader di settore
giugno 28, 2022 - Databricks

Databricks presenta le novità per la sua piattaforma di data lakehouse leader di settore

  • Le funzionalità avanzate di #data warehousing e #data governance evidenziano il futuro del moderno #data stack
  • Databricks Marketplace e #data Cleanrooms accelerano la visione dell'azienda per la condivisione aperta e collaborativa dei dati
  • Le nuove ottimizzazioni di #data engineering consentono di eseguire automaticamente pipeline di dati in batch e streaming nel modo più efficiente in termini di costi.
  • Miglioramenti lungo tutto il ciclo di vita del machine learning che semplificano notevolmente le operazioni di MLOps a livello produttivo

SAN FRANCISCO – 28 giugno 2022 – Databricks, #data e AI company pioniera del paradigma del #data lakehouse, ha presentato oggi, in occasione dell'annuale Data + AI Summit di #sanfrancisco, l'evoluzione della #Databrickslakehouseplatform. Le nuove caratteristiche comprendono migliori prestazioni e funzionalità di #data warehousing della categoria, ampliamento della governance dei dati, innovazioni per la condivisione dei dati tra cui marketplace analytics e room #data clean per una collaborazione sicura sui dati, ottimizzazione automatica dei costi per le attività ETL e miglioramenti del ciclo di vita del machine learning (ML).

"I nostri clienti vogliono disporre di business intelligence, AI e machine learning su un'unica piattaforma, dove già risiedono i propri dati. Ciò richiede le migliori funzionalità di #data warehousing in grado di operare direttamente sul loro #data lake. Facendo un'analisi comparativa con gli standard più elevati, abbiamo dimostrato più volte che #Databrickslakehouseplatform offre ai #data team il meglio di entrambi i mondi su una piattaforma semplice, aperta e multi-cloud", ha dichiarato #alighodsi, Co-founder e CEO di #Databricks. "Gli annunci di oggi rappresentano un significativo passo avanti nella nostra visione Lakehouse, dal momento che stiamo rendendo più veloce e più semplice che mai la massimizzazione del valore dei dati nelle aziende, sia internamente che esternamente.

Il miglior #data Warehouse è il Lakehouse

Aziende come Amgen, AT&T, Northwestern Mutual e Walgreens stanno adottando la #tecnologia lakehouse per eseguire analisi su dati strutturati e non strutturati. Oggi #Databricks ha presentato le nuove funzionalità di #data warehousing della piattaforma per migliorare ulteriormente i workload analytics:

  • Databricks SQL Serverless, disponibile in anteprima su AWS, offre un'elaborazione flessibile, veloce, sicura e completamente controllata per migliorare le prestazioni a un costo ridotto.
  • Photon, il motore di query da record per i sistemi lakehouse sarà disponibile su #Databricks Workspaces nelle prossime settimane, ampliando ulteriormente la portata di Photon sulla piattaforma. Nei due anni successivi all'annuncio, Photon ha elaborato exabyte di dati, eseguito miliardi di query e fornito un rapporto prezzo/prestazioni di riferimento fino a 12 volte migliore rispetto ai #data warehouse cloud tradizionali.
  • Connettori open source per Go, Node.js e Python ora rendono ancora più semplice l'accesso al lakehouse dalle applicazioni operative.
  • Databricks SQL CLI consente a sviluppatori e analisti di eseguire query direttamente dal proprio computer locale.
  • Databricks SQL offre ora query federation per interrogare fonti di dati remote, tra cui PostgreSQL, MySQL, AWS Redshift e molte altre, senza dover prima estrarre e caricare i dati dai sistemi di origine.

La governance dei dati diventa una priorità assoluta con le funzionalità avanzate di Unity Catalog

Unity Catalog disponibile su AWS e Azure nelle prossime settimane, offre una soluzione di governance centralizzata per tutti i dati e gli asset AI con ricerca e rilevamento integrati, lineage automatizzato per tutti i carichi di lavoro, prestazioni e scalabilità per il lakehouse su qualsiasi cloud. Inoltre, recentemente #Databricks ha introdotto il data lineage per Unity Catalog, ampliando in modo significativo le capacità di governance dei dati sul lakehouse e offrendo alle aziende una visione completa dell'intero ciclo di vita dei dati. Grazie al #data lineage, i clienti hanno la visibilità sulla provenienza dei dati nel proprio lakehouse, su chi li ha creati e quando, come sono stati modificati nel tempo, come vengono utilizzati nei carichi di lavoro di #data warehousing e #data science e molto altro ancora.

Maggiore condivisione dei dati grazie a #Databricks Marketplace e Cleanrooms

Come primo marketplace per tutti i dati e AI, #Databricks Marketplace, disponibile nei prossimi mesi, è un mercato aperto per confezionare e distribuire dati e analitycs. Superando i marketplace che offrono semplicemente set di dati, #Databricks Marketplace consente ai #data provider di gestire e vendere in modo sicuro una serie di asset come tabelle di dati, file, modelli di machine learning, notebook e dashboard analytics. I fruitori di dati possono facilmente scoprire nuovi dati e risorse di #intelligenzaartificiale, avviare le proprie analisi e ottenere più rapidamente approfondimenti e valore dai dati. Ad esempio, invece di acquisire l'accesso a un set di dati e investire il proprio tempo nello sviluppo e nella gestione di dashboard per la reportistica, possono scegliere di abbonarsi a dashboard preesistenti che forniscono le analisi necessarie. #Databricks Marketplace è alimentato da Delta Sharing, che consente ai #data provider di condividerli senza doverli spostare o copiare dal proprio storage cloud. In questo modo i provider possono offrire i dati ad altri cloud, strumenti e piattaforme da un'unica fonte.

 Inoltre, #Databricks sta aiutando i propri clienti a condividere e sfruttare i dati oltre i confini aziendali. Cleanrooms, disponibile nei prossimi mesi, consentirà di condividere e unire i dati tra le diverse aziende, in un ambiente sicuro e protetto, senza la necessità di replicare i dati. Nell’ambito di media e pubblicità, ad esempio, due aziende potrebbero voler capire la sovrapposizione del pubblico e la portata delle campagne. Le soluzioni di clean room esistenti presentano dei limiti, generalmente sono, infatti, circoscritte a strumenti SQL e comportano il rischio di duplicazione dei dati su più piattaforme. Grazie a Cleanrooms, le aziende possono collaborare facilmente con clienti e partner su qualsiasi cloud e avere la flessibilità necessaria di eseguire calcoli e carichi di lavoro complessi utilizzando sia strumenti SQL sia strumenti basati sul #data science, tra cui Python, R e Scala con controlli coerenti sulla privacy dei dati.

MLflow 2.0 semplifica e accelera il machine learning su vasta scala

Databricks continua a essere all'avanguardia nell'innovazione MLOps con l'introduzione di MLflow 2.0. La realizzazione di una pipeline di machine learning richiede la creazione di un'infrastruttura, non solo la scrittura di codice. Questo può essere difficile per i nuovi utenti e noioso per chiunque operi su ampia scala. Grazie a MLflow 2.0, MLflow Pipelines ora gestisce i dettagli operativi per gli utenti. Invece di impostare l'orchestrazione dei notebook, gli utenti possono semplicemente definire gli elementi della pipeline in un file di configurazione e MLflow Pipelines ne gestisce automaticamente l'esecuzione. Oltre a MLflow, #Databricks ha aggiunto anche Serverless Model Endpoints per supportare direttamente l'hosting dei modelli di produzione, nonché dashboard integrate di Model Monitoring per aiutare i team ad analizzare le prestazioni dei modelli nel mondo reale.

Delta Live Tables include il primo sistema di ottimizzazione delle prestazioni per le pipeline di #data Engineering

Delta Live Tables (DLT) è il primo framework ETL che utilizza un approccio semplice e esplicativo per costruire pipeline di dati affidabili. Dal suo lancio all'inizio di quest'anno, #Databricks ha continuato ad aggiungere nuove funzionalità, tra cui l'introduzione di un nuovo livello di ottimizzazione delle prestazioni progettato per accelerare l'esecuzione e ridurre i costi dell'ETL. Inoltre, il nuovo Enhanced Autoscaling è stato concepito per scalare in modo intelligente le risorse in base alle fluttuazioni dei carichi di lavoro in streaming, mentre Change #data Capture (CDC) for Slowly Changing Dimensions - Type 2 tiene facilmente traccia di ogni cambiamento nei dati di origine sia per scopi di conformità che di sperimentazione di machine learning.

Per maggiori informazioni sulla #Databrickslakehouseplatform: https://Databricks.com/product/data-lakehouse. Collegati virtualmente per seguire altri keynote del #dataaisummit registrandoti qui.