Databricks onthult Delta Lake 3.0 met nieuw Universal Format

Redactie WINMAG Pro

Databricks, hét data- en AI-bedrijf, onthult vandaag Delta Lake 3.0, de nieuwste bijdrage aan het Delta Lake open source-project van de Linux Foundation. Deze aankomende release komt met Universal Format (UniForm), waarmee in Delta Lake opgeslagen data kan worden uitgelezen alsof het een Apache Iceberg of Apache Hudi-omgeving is. UniForm neemt compatibiliteitsproblemen tussen data formats weg dankzij automatische ondersteuning voor Iceberg en Hudi binnen Delta Lake. Delta Lake 3.0 voorkomt daarmee het ingewikkelde integratiewerk van meerdere data formats, zodat organisaties zich volledig kunnen richten op het uitbouwen van een open lakehouse.

Delta

"Databricks heeft de lakehouse-architectuur ontwikkeld op Delta Lake. Het is onze missie om Delta Lake tot een open format te maken dat klanten de meeste keuze en flexibiliteit biedt, de grootste controle over hun eigen data, samen met alle voordelen van een open ecosysteem”, aldus Ali Ghodsi, medeoprichter en CEO van Databricks. “Onze klanten mogen niet beperkt worden door hun keuze in data format. Met deze nieuwste versie van Delta Lake maken we het daarom mogelijk om eenvoudig te werken met welk format dan ook, inclusief Iceberg en Hudi, met toegang tot de toonaangevende snelheid en schaalbaarheid van Delta Lake."

Het doorbreken van datasilo’s

Bedrijven stappen snel over op een data lakehouse-architectuur, onder meer om beter gebruik te kunnen maken van moderne technologieën zoals generatieve AI. Maar in hun overstap naar een lakehouse worden datagedreven organisaties geconfronteerd met een lastige keuze tussen drie drie verschillende open tabelindelingen. UniForm neemt die keuze weg, zodat deze organisaties een data-ecosysteem kunnen opzetten dat overweg kan met data in zowel Delta, Iceberg als Hudi – van transactionele- tot streaming-, gestructureerde- en ongestructureerde data.

Nieuwe features in Delta Lake 3.0 zijn onder andere:

  • Delta Universal Format (UniForm): In Delta opgeslagen data kan worden gelezen alsof het een Iceberg- of Hudi- omgeving is. Met UniForm genereert Delta automatisch de benodigde metadata voor Iceberg of Hudi, waardoor de tabelformats worden samengevoegd. Hierdoor zijn keuzes in formats of handmatige conversies tussen formats niet meer nodig.  
  • Delta Kernel: Kernel pakt de fragmentatie van connectors aan door deze te bouwen op basis van een centrale Delta-library die alle Delta-specificaties borgt. Hierdoor hoeven gebruikers hun Delta-connectors minder vaak bij te werken na een nieuwe release of protocolwijziging. Omdat er één stabiele API is om connectors tegen te spiegelen, kunnen ontwikkelaars in het Delta ecosysteem hun connectors veel makkelijker up-to-date houden met de nieuwste versie van Delta.
  • Delta Liquid Clustering: Een veelvoorkomende uitdaging in werken met data heeft te maken met de prestaties van lezen en schrijven. Liquid Clustering is een innovatie die de decennia oude hive-achtige tabelpartitionering met vaste gegevensindeling achter zich laat. Liquid Clustering biedt een flexibele data layout-techniek, voor kosteneffectieve en schaalbare datasclustering.

"Delta Lake 3.0, inclusief Universal Format en Kernel, toont hoe toegewijd de open source community is aan het verbeteren van de betrouwbaarheid van data en het bouwen van geavanceerde analysetools. Deze release is een stap voorwaarts richting een community-gedreven ecosysteem gebaseerd op data-integriteit, naadloze samenwerking en real-time analysetools", zegt Mike Dolan, SVP Projects bij The Linux Foundation.

Delta Lake helpt organisaties hun data uit honderden uiteenlopende systemen via een snelle en gebruiksvriendelijke interface in te zetten voor data analytics, rapportages en AI-modellen. Delta Lake is tevens het enige open format met ingebouwde ondersteuning voor Delta Sharing, de open standaard voor veilige data-uitwisseling voor samenwerking tussen platforms, clouds en regio's. Inmiddels wisselen dagelijks meer dan 6.000 actieve gebruikers ruim 300 petabyte aan data uit.

"Samenwerking en innovatie in financiële dienstverlening worden gestimuleerd door de open source-community en projecten zoals Legend, het open source dataplatform van Goldman Sachs dat we samen met FINOS beheren", aldus Neema Raphael, Chief Data Officer en Head of Data Engineering bij de Amerikaanse zakenbank Goldman Sachs. "We geloven in de belangrijke rol die open source speelt in de toekomst van technologie en zijn verheugd om te zien dat Databricks blijft investeren in Delta Lake. Organisaties mogen niet worden beperkt door hun keuze in open table-formats. Universal Format-ondersteuning in Delta Lake bevordert daarom de hele community."

Delta Lake is het meest gebruikte lakehouse opslagformat ter wereld
Delta Lake is het open format bij uitstek voor ondernemingen die een flexibel, hoogwaardig, open data platform willen dat meeschaalt met hun bedrijfsbehoeften. Het is dan ook geen verrassing dat de technologie jaarlijks ruim 1 miljard keer wordt gedownload en dat er regelmatig bijdragen uitkomen van honderden engineers bij toonaangevende bedrijven zoals AWS, Adobe, eBay, Twilio en Uber.
Ga voor meer informatie over de bijdragen van Databricks aan de open source community naar https://databricks.com/product/open-source.

Beschikbaarheid
De Delta Lake 3.0-release is beschikbaar als preview, als onderdeel van het Delta Lake-project van de Linux Foundation.

Redactie WINMAG Pro
Door: Redactie WINMAG Pro
Redactie

Redactie WINMAG Pro

Redactie