Cookie Consent by Free Privacy Policy website Databricks annuncia importanti progressi nei progetti Open Source al Data + AI Summit
giugno 28, 2022 - Databricks

Databricks annuncia importanti progressi nei progetti Open Source al Data + AI Summit

  • Tutte le nuove features di Delta Lake sono state offerte alla comunità open della Linux Foundation con il rilascio di Delta Lake 2.0
  • MLflow 2.0 con ML Pipelines accelera il time-to-production per i progetti di machine learning
  • Presentato Spark Connect per l'esecuzione di Apache Spark™ su qualsiasi dispositivo
  • Svelato il progetto Lightspeed per la nuova generazione di Spark Streaming

SAN FRANCISCO - 28 giugno 2022 - Databricks, #data and AI company pioniera del paradigma del #data lakehouse, ha annunciato oggi numerosi progressi in importanti progetti open source di dati e IA tra cui Delta Lake, MLflow e Apache Spark.

In occasione del Data + AI Summit, il più grande incontro della comunità open source Dati e IA, #databricks ha annunciato che intende contribuire alla Linux Foundation con tutte le funzionalità e i progressi apportati a Delta Lake e rendere open source tutte le API di Delta Lake come parte del lancio di Delta Lake 2.0. Inoltre, l'azienda ha annunciato MLflow 2.0, che include MLflow Pipelines, una nuova funzionalità per accelerare e semplificare le implementazioni dei modelli ML. Infine, l'azienda ha presentato Spark Connect, per consentire l'utilizzo di Spark su qualsiasi dispositivo, e Project Lightspeed, un motore Spark Structured Streaming di nuova generazione per lo streaming dei dati su lakehouse.

"Fin dall'inizio, #databricks si è impegnata a favore di standard open e della comunità open source. Abbiamo creato, partecipato, donato e favorito la crescita di alcune delle tecnologie open source di maggior impatto esistenti", ha dichiarato #alighodsi, Co-Founder e CEO di #databricks. "I #data lakehouse aperti stanno rapidamente diventando lo standard per la gestione dei dati e dell'IA per le aziende più innovative. Delta Lake, MLflow e Spark sono tutti elementi fondamentali di questa trasformazione architetturale e siamo orgogliosi di fare la nostra parte per accelerarne l'innovazione e l'adozione".

Delta Lake 2.0 offre la Lakehouse a tutti

Delta Lake 2.0 offrirà a tutti gli utenti di Delta Lake, query dalle performance senza precedenti e consentirà a tutti di costruire un #data lakehouse altamente performante su standard open. Grazie a questo contributo, i clienti di #databricks e la comunità open source potranno beneficiare di tutte le funzionalità e delle prestazioni migliorate di Delta Lake 2.0. Delta Lake 2.0 Release Candidate è ora disponibile e il lancio è previsto per la fine dell'anno. La portata dell'ecosistema Delta Lake lo rende flessibile e potente in diversi casi d'uso; ad alimentarlo è una vivace comunità di oltre 6.400 membri, con sviluppatori provenienti da più di 70 organizzazioni che vi contribuiscono.

"Databricks fornisce ad Akamai un formato di archiviazione delle tabelle aperto e certificato per carichi di lavoro particolarmente complessi come i nostri. Il lakehouse consente di effettuare analisi interattive su qualsiasi volume di dati, in modo che i nostri clienti possano analizzare in maniera near-realtime gli eventi di sicurezza sulla nostra piattaforma Edge", ha dichiarato #aryehsivan, VP Engineering di Akamai. "Siamo entusiasti della rapida evoluzione che #databricks, insieme alla comunità in rapida crescita, sta apportando a Delta Lake. Non vediamo l'ora di collaborare con gli altri sviluppatori del progetto per portare la #data community a risultati più grandi".

"Delta Lake sta riscontrando una crescita e un'attività straordinarie, segno che la comunità degli sviluppatori desidera far parte di questo progetto. La presenza dei collaboratori è aumentata del 60% nell'ultimo anno, la crescita dei commit è del 95% e il numero medio di linee di codice per commit e' aumentato del 900%. Stiamo assistendo a questa crescita esponenziale da parte di organizzazioni che collaborano a questo progetto come Uber Technologies, Walmart e CloudBees, tra le altre", ha dichiarato #jumzemlinali, Executive Director della Linux Foundation.

Con Mlflow 2.0 si introduce Mlflow pipelines per "templatizzare" e automatizzare MLOps
MLflow, uno dei progetti open source di machine learning (ML) di maggior successo, ha definito lo standard per le piattaforme di ML. Il lancio di MLflow 2.0 introduce MLflow Pipelines nella piattaforma, diminuendo sostanzialmente il tempo di produzione e migliorando l'esecuzione su scala grazie alla standardizzazione. MLflow Pipelines offre ai #data scientist modelli predefiniti e predisposti alla produzione, in base al tipo di modello che stanno sviluppando, per consentire di eseguire il bootstrap in modo affidabile e accelerare lo sviluppo dei modelli evitando l'intervento dei production engineers.

Un motore di streaming di nuova generazione e Spark ovunque e in qualsiasi momento
Come motore principale e unificato per l'analisi dei dati su larga scala, Spark è in grado di gestire insiemi di dati di tutte le dimensioni. Tuttavia, la mancanza di connettività da remoto e il peso di applicazioni sviluppate ed eseguite sul driver node, ostacolano i requisiti delle moderne applicazioni di dati. Per risolvere questo problema, #databricks ha presentato Spark Connect, un'interfaccia client e server per Apache Spark basata sull'API DataFrame che separerà il client dal server per una migliore stabilità e consentirà una connettività da remoto integrata. Con Spark Connect, gli utenti potranno accedere a Spark da qualsiasi dispositivo.

In collaborazione con la Spark community, #databricks ha annunciato anche Project Lightspeed, il motore di streaming Spark di nuova generazione. Con la crescita della varietà di applicazioni che si orientano verso lo streaming dei dati, sono emersi nuovi requisiti per il supporto di carichi di lavoro di dati per il lakehouse e lo streaming dei dati. Spark Structured Streaming è stato largamente adottato fin dall’origine dello streaming grazie alla sua facilità d'uso, alle prestazioni, all'ampio ecosistema e alle comunità di sviluppatori. In quest'ottica, #databricks collaborerà con la comunità e incoraggerà la partecipazione a Project Lightspeed per migliorare le prestazioni, il supporto dell'ecosistema per i connettori, ottimizzare le funzionalità di elaborazione dei dati con nuovi operatori e API e semplificare la distribuzione, le operazioni, il monitoraggio e la risoluzione dei problemi.

Per saperne di più sull'impegno di #databricks nei confronti della comunità open source, visita il sito: https://databricks.com/product/open-source.

Ti potrebbe interessare anche

giugno 09, 2022

Le nuove funzionalità di data lineage offrono ai clienti una maggiore trasparenza e un controllo proattivo sull'utilizzo dei dati ...