Data Lake: So funktioniert das zentrale Datenverzeichnis

Rückschlüsse auf Trends, Feedback von Kunden, effizientere Lieferketten – in einem Data Lake steckt ein Schatz an Informationen. Doch wie können Sie diesen heben?

Ein Data Lake sammelt alle Daten, die in Ihrem Unternehmen anfallen – von Interaktionen aus dem CRM-System über Sensorwerte aus IoT-Geräten bis zu Social-Media-Posts, E-Mails und Website-Klicks. Die Informationen sind sicher gespeichert und leicht zugänglich. Wie das funktioniert und welche Vorteile Sie daraus ziehen können, erfahren Sie hier.

Was ist ein Data Lake?

Der Begriff Data Lake (auf Englisch: Datensee) ist keine zufällige Wortschöpfung. Ein See ist ein Gewässer, das sich aus verschiedenen Quellen speist – Flüsse und Bäche, Grundwasser und Regen. Ähnlich vielfältig ist der Datenstrom hin zu einem Data Lake. Der Data Lake ist ein zentralisiertes Repository (also ein Speicherort), an dem Sie verschiedene Arten von Daten (strukturiert, teilstrukturiert, unstrukturiert) in ihrer ursprünglichen Form speichern können.
Sie können also Daten aus einer Vielzahl von Quellen in den Data Lake leiten und für eine Vielzahl an Anwendungen nutzen – von Advanced Analytics und Data-Mining bis zu künstlicher Intelligenz (KI) und Machine Learning (ML). Ein Data Lake ist damit eine agile und skalierbare Grundlage für datengetriebene Anwendungen in Ihrem Unternehmen.

Komponenten eines Data Lakes

Ein Data Lake ist mehr als nur eine Festplatte oder ein Server. Dahinter stecken zusätzliche Prozesse und Regeln, um das Sammelsurium an Informationen nutzbar zu machen. Auch sie sind Komponenten dieser Technologie. Ein Überblick der wichtigsten Elemente.
1. Datenquellen: Das Lebenselixier eines jeden Data Lakes. Dabei handelt es sich um eine Vielzahl von Systemen.Seien es interne wie z.B. Datenbanken für Kunden und Produkte, CRM-Systeme, IoT-Daten, E-Mails, Bilder, Audio, Video; oder externe wie z.B. Social-Media-Feeds, Webseiten-Daten, Marktforschungsdaten, Wetterdaten.
2. Datenerfassung (Data Ingestion): Das ist der Prozess, bei dem Daten aus den verschiedenen Quellen in den Data Lake überführt und gespeichert werden. Dafür gibt es verschiedene Methoden:
– Bei der Batch-Verarbeitung laden Sie größere Blöcke an Daten (z.B. zweimal täglich) in ihren Data Lage.
– Für zeitkritische Informationen (z.B. Sensorwerte oder Finanzströme) eignet sich das Streaming – also die kontinuierliche Erfassung.
– Bei der API-Integration läuft die Datenerfassung programmatisch ab. Sie verwenden also ein Skript, dass sich automatisiert die Informationen zieht.
3. Data Storage: Im Data Lake werden Daten in ihrem ursprünglichen, rohen Format gespeichert, ohne dass vorab eine Transformation oder Strukturierung erzwungen wird. Diese Flexibilität ermöglicht die Speicherung großer Datenmengen in unterschiedlichen Formaten wie Text, Bildern, Videos und Dokumenten.
4. Data Quality Management: Die Sicherstellung und Verbesserung der Datenqualität ist entscheidend für den Wert des Data Lakes. Dazu gehören die Analyse, Korrektur und Bereinigung der Daten. Außerdem ist eine kontinuierliche Überwachung unerlässlich.
5. Data Catalog: Ein Datenkatalog hilft Ihnen, die Übersicht zu behalten. Er ist ein zentralesVerzeichnis, das Metadaten der im Data Lake gespeicherten Daten verwaltet. Sie beschreiben die Eigenschaften und den Kontext der Daten.
6. Data Processing: Sobald die Daten im Data Lake gespeichert sind, können sie für verschiedene Analyse- und Verwendungszwecke verarbeitet werden. Dieser Schritt beinhaltet die Transformation und Anreicherung der Daten.
7. Data Analytics: Zweck eines Data Lakes ist es, Erkenntnisse aus den gespeicherten Daten zu gewinnen. Data Analytics umfasst die Anwendung verschiedener Techniken und Tools, um Muster, Trends, Korrelationen und andere nützliche Informationen zu identifizieren.
8. Data Governance: Diese Art der Datenverwaltung garantiert, dass Daten sicher, datenschutzkonform und für die beabsichtigten Zwecke nutzbar sind.
9. Data Security: Datensicherheit umfasst alle Maßnahmen und Technologien, die Sie implementieren, um den Data Lake vor unbefugtem Zugriff, Verlust oder Beschädigung zu schützen.
10. Infrastructure: Hierbei handelt es sich um die physische Komponente ­– wie Speichersysteme und Rechenleistung. Einen Data Lake können Sie sowohl als On-Premise, Cloud- oder Hybridlösung betreiben.

Data Lake: Begrifflichkeiten und Abgrenzungen

So klar die Definition für den Data Lake ist, so notwendig ist es auch, die Unterschiede zu ähnlichen Begrifflichkeiten zu kennen. An dieser Stelle wollen wir daher etwas Klarheit schaffen.

Data Lake Data

Der Begriff beschreibt schlicht die Gesamtheit der Daten in einem Data Lake.

Data Warehouse

Das Data Warehouse ist zwar ebenfalls ein zentrales Repository, allerdings für strukturierte, gefilterte und transformierte Daten, die bereits für spezifische Analyse- und Reportingzwecke aufbereitet wurden (Schema-on-Write). Der Fokus liegt auf der Bereitstellung konsistenter und bereinigter Daten für Business Intelligence und Reporting.
Im Gegensatz dazu ist der Data Lake ein Repository für rohe Daten in verschiedenen Formaten (Schema-on-Read). In einer modernen Datenarchitektur ergänzen sich oft Data Warehouse und Data Lake.

Data Lakehouse

Das Data Lakehouse ist ein neuerer Ansatz, der versucht, die Vorteile von Data Lakes und Data Warehouses zu vereinen. Ein Data Lakehouse zielt darauf ab, die Notwendigkeit separater Data Lakes und Data Warehouses zu reduzieren, indem es eine einheitliche Plattform für alle analytischen Anwendungsfälle bietet. Dafür integriert das Data Lakehouse von Beginn an mehr Struktur und Governance-Mechanismen.

Data Mesh

Ein Data Lake bekommt Daten von allen Abteilungen Ihres Unternehmens. Bei einem Data Mesh bekommt jede Abteilung ihren eigenen kleinen See und ist auch für die Qualität der jeweiligen Daten zuständig. Der große Data Lake existiert noch, allerdings sind die Verantwortlichkeiten und der Umgang mit den Daten anders geregelt. Ein Data Lake ist also Teil einer Data-Mesh-Strategie.

Big Data

Big Data ist ein Berg an Informationen, der so groß ist, dass sich konventionelle Programme für die Speicherung und Verarbeitung nicht gut eignen. In einem Data Lake hingegen können Sie die enormen Datenmengen speichern und bei Bedarf analysieren.

Vorteile eines Data Lake

Da ein Data Lake seine Daten im Rohformat speichert, gilt die Technik als flexibel und kosteneffizient. Diese Flexibilität erlaubt es Unternehmen, unterschiedlichste Datenquellen zu integrieren, ohne diese vorher aufwendig transformieren zu müssen. Das beschleunigt die Aufnahme neuer Daten. Die Kosteneffizienz ergibt sich daraus, dass die Prozesse für Datenspeicherung unkompliziert und Speicherlösungen günstig sind.
Mit einem Data Lake erhalten Unternehmen eine umfassende Datenbasis, die sich eignet, fundierte Entscheidungen zu treffen und neue Entwicklungen zu tätigen. Durch die zentrale Speicherung von Daten aus verschiedenen Silos – seien es Kundeninteraktionen, operative Prozesse, Sensordaten oder externe Informationen – entsteht ein ganzheitliches Bild des Geschäfts.

Anwendungsfälle von Data Lakes

Data Lakes lassen sich in den verschiedensten Branchen sinnvoll einsetzen. Predictive Analytics ist das Stichwort, das wir Ihnen an anderer Stelle im V-Hub erläutern. Konkrete Beispiele machen deutlich, welche Potenziale in der Technologie stecken.
  • Vorausschauende Wartung: Die Analyse kontinuierlich gesammelter Sensordaten von Maschinen (Temperatur, Vibration, Druck) ermöglicht es, Muster zu erkennen, die auf einen bevorstehenden Ausfall hindeuten. Sie können dann die Wartungsarbeiten proaktiv planen und damit Ausfallzeiten reduzieren.
  • Optimierung der Lieferkette: Bestelldaten, Lagerbestände und Transportdaten lassen Rückschlüsse auf den zukünftigen Bedarf zu. So können Sie mehrere Ziele angehen, wie etwa die Reduzierung der Lagerbestände. Gleichzeitig ermöglicht die Analyse dieser Daten die Optimierung von Transportrouten und -zeiten, was zu geringeren Logistikkosten und schnelleren Lieferzeiten führen kann.
  • Analyse von Social Media: Werten Sie Social-Media-Posts, Kundenrezensionen und Umfrageergebnisse in Ihrem Data Lake aus. So erkennen Sie frühzeitig Trends, verstehen Ihre Kund:innen besser und können auf deren Wünsche reagieren.

Das Wichtigste zu Data Lake in Kürze

  • Ein Data Lake ist ein zentraler Speicher, in dem alle Rohdaten aus den verschiedensten Quellen gesichert werden.
  • Ein Data Lake kann Teil einer Architektur zur Speicherung und Analyse Ihrer Daten sein, die eine Vielzahl zusätzlicher Technologien (wie Data Warehouse und Data Mesh) nutzt.
  • Sie können die Daten in einem Data Lake nutzen, um in den verschiedensten Geschäftsbereichen und Abteilungen fundierte Entscheidungen zu treffen. Von der strategischen Ausrichtung über konkrete Produktverbesserungen bis zu Anpassungen beim Vertrieb oder in der Lieferkette.

Quelle:

https://www.vodafone.de/business/blog/data-lake-20806/