Was ist Microsoft Azure Data Lake?

microsoft azure data lake

Azure Data Lake bietet alle Funktionen und Dienste, die Entwicklern, Data Scientists und Analysten helfen, Daten jeder Größe, Form und Geschwindigkeit zu speichern. Es hilft bei der plattformübergreifenden Durchführung aller Arten von Verarbeitungen und Analysen in verschiedenen Sprachen. Es vereinfacht und beschleunigt den Prozess der Speicherung und Aufnahme von Daten durch Batch-, Streaming- und interaktive Analysen.

 

Was ist Azure Data Lake Storage?

Azure Data Lake Storage (ADLS) ist ein gesicherter und skalierbarer Data Lake, der dabei hilft, leistungsstarke Analyse-Workloads zu erreichen. Er ist auch als Azure Data Lake Store bekannt. Er bietet eine einzige Speicherplattform zur Integration großer Mengen von Unternehmensdaten. Er ist sehr kosteneffizient und bietet eine abgestufte Speicher- und Richtlinienverwaltung. ADLS bietet außerdem Single-Sign-On-Funktionen und Zugriffskontrollen über das Hadoop Distributed File System. Azure Data Lake Storage ermöglicht es uns, alle Tools zu nutzen, die HDFS unterstützen.

Vorteile von Azure Data Lake?

Die Data Lake in Azure-Lösung ist für Unternehmen gedacht, die die Vorteile von Big Data nutzen möchten. Sie bietet eine Datenplattform, die es Entwicklern, Datenwissenschaftlern und Analysten ermöglicht, Daten jeder Größe und jedes Formats zu speichern und alle Arten von Verarbeitungen und Analysen über mehrere Plattformen und in verschiedenen Programmiersprachen durchzuführen. Sie kann auch mit bestehenden Lösungen wie Identitätsmanagement und Sicherheitslösungen zusammenarbeiten. Außerdem lässt es sich in andere Data Warehouses und Cloud-Umgebungen integrieren. Es kann für Unternehmen nützlich sein, die Folgendes benötigen:

  • Azure Active Directory:

Azure Active Directory oder AAD ermöglicht es Ihnen, rollenbasierte Zugriffskontrolle (RBAC) oder Identitäten innerhalb der Lösungen bereitzustellen. Diese Identitäten haben mehrere Anwendungen, die vom Dienstprinzipal verwaltet werden können. Der Dienstprinzipal speichert die Anmeldeinformationen des Prinzipals, wenn ein Dienst eine Verbindung zu ihm herstellen möchte, während verwaltete Identitäten direkt mit dem Dienst verbunden sind, so dass die Speicherung von Anmeldeinformationen nicht verwaltet werden muss.

  • Multi-Protokoll-SDK:

Es handelt sich um eine neue Version des Blob Storage SDK, das mit Azure Data Lake verwendet wird, um das Lesen und Schreiben von Daten aus ADLS zu handhaben und einen erneuten Versuch zu starten, wenn ein vorübergehender Fehler auftritt. Es gibt jedoch einige Einschränkungen, da es keine atomare Manipulation durchführen oder den Zugriff kontrollieren kann.

  • Kostengünstige Speicherung:

Azure Storage hat sich als kosteneffiziente Lösung für die Datenspeicherung mit verschiedenen Funktionen herauskristallisiert, wie z. B. Datenmigrationen von Hot Storage zu Cold Storage, Life-Cycle-Management-System, hohe Leistung, Archivspeicher und vieles mehr.

  • Verlässlichkeit:

Mit Azure Storage können Nutzer Kopien ihrer Daten erstellen, um sich auf den Ausfall des Rechenzentrums oder eine Naturkatastrophe vorzubereiten. Außerdem ist das fortschrittliche System zur Erkennung von Bedrohungen in den Datenspeicher integriert und erkennt bösartige Programme oder Software, die die Daten beschädigen oder Ihre Privatsphäre gefährden könnten.

  • Skalierbarkeit:

Azure ist massiv skalierbar mit einer aktuellen Grenze von bis zu 500 Petabyte in verschiedenen Regionen der Welt, außer in den USA und Europa, wo die Grenze bei 2 Petabyte liegt. Es bietet sowohl lineare als auch vertikale Skalierung.

Funktionsweise von Azure Data Lake

Azure Data Lake basiert auf Azure Blob Storage, der Microsoft Objektspeicherlösung für die Cloud. Die Lösungsmatte bietet kostengünstigen, abgestuften Speicher und Hochverfügbarkeits-/Disaster-Recovery-Funktionen. Sie lässt sich mit anderen Azure-Diensten integrieren, darunter Azure Data Factory, ein Tool zum Erstellen und Ausführen von ETL- und ELT-Prozessen (Extrahieren, Transformieren und Laden).

Die Lösung basiert auf der Cluster-Management-Plattform Apache Hadoop YARN (Yet Another Resource Negotiator). Sie kann dynamisch über SQL-Server innerhalb des Data Lake sowie über Server in der Azure SQL Database und dem Azure SQL Data Warehouse skaliert werden.

Um Azure Data Lake nutzen zu können, müssen Sie ein kostenloses Konto auf dem Microsoft Azure-Portal erstellen. Über das Portal können Sie auf alle Azure-Dienste zugreifen.

 

ADLS und Big Data-Verarbeitung

Durch die Verwendung von ADLS können wir Daten von überall her ohne jegliche Datenumwandlung speichern. Es besteht keine Notwendigkeit, vor dem Laden der Daten ein Schema zu definieren. Außerdem können Dateien unterschiedlicher Größe und Formate gespeichert werden. Mit Hilfe von ADLS können strukturierte, unstrukturierte und halbstrukturierte Daten verarbeitet werden, und zwar sowohl in lokalen Legacy-Systemen als auch in bestehenden Cloud-Speichern.

Azure Data Lake-Speicher - GEN2

Kürzlich kündigte Microsoft ADLS Gen2 an, eine Obermenge von ADLS Gen1, die neue Funktionen für Analysen auf der Grundlage von Azure Blob Storage bietet.

ADLS Gen2, von Microsoft als "kompromissloser Data Lake" beschrieben, erweitert die Azure Blob-Storage-Funktionen und ist am besten für Analyse-Workloads optimiert. Benutzer können Daten einmal speichern und über bestehende Blob-Storage- und HDFS-konforme Dateisystemschnittstellen darauf zugreifen, ohne dass bei der Durchführung von Datenbankoperationen Änderungen bei der Programmierung oder beim Kopieren von Daten erforderlich sind.

ADLS Gen2 umfasst die meisten Funktionen von ADLS Gen1 und Azure Blob Storage, einschließlich:

  • Unbegrenzte Speicherkapazität
  • Integration von Azure Active Directory (AAD)
  • Hierarchisches Dateisystem (HFS)
  • Geo-redundanter Speicher mit Lesezugriff
  • 5 TB Dateigrößenbegrenzung
  • Blob-Ebenen (Heiß, Kühl, Archiv)

Azure Data Lake Storage Gen2 ist die neueste Version des Cloud-basierten Big-Data-Speichers von Microsoft. In der vorherigen Version waren die Hot/Cold-Storage-Ebene und der redundante Speicher nicht verfügbar. Obwohl der Blob-Storage in Microsoft Azure die Fähigkeit von Hot- und Cold-Storage hatte, fehlten ihm Funktionen wie ein Verzeichnis und Sicherheit auf Dateiebene usw., die in Gen1 verfügbar sind. Um diesen Unterschied in Bezug auf Speicher und Funktionen zu überwinden, veröffentlichte Microsoft die neueste Version des Cloud-basierten Big-Data-Speichers, Gen 2.

Gen2 baut auf Azure Blob Storage auf. Es enthält mehrere Funktionen von Gen1, wie z. B. Dateisystem-Semantik, Verzeichnis, Sicherheit auf Dateiebene und Skalierbarkeit, zusammen mit Funktionen wie kostengünstiger, abgestufter Speicher und Hochverfügbarkeits-/Disaster-Recovery-Funktionen von Azure Blob Storage.

Azure Data Lake Store Sicherheit

Bei der Implementierung einer Big-Data-Lösung sollte die Sicherheit nicht optional sein. Um die Sicherheitsstandards einzuhalten und die Sichtbarkeit sensibler Informationen zu begrenzen, müssen die Daten während der Übertragung und im Ruhezustand gesichert werden. ADLS bietet umfangreiche Sicherheitsfunktionen, so dass die Benutzer ihre Daten unbesorgt in der ADLS-Infrastruktur speichern können. Benutzer können die Leistung überwachen, die Nutzung prüfen und den Zugriff über das integrierte Azure Active Directory steuern.

Rechnungsprüfung

ADLS erstellt Prüfprotokolle für alle darin durchgeführten Vorgänge. Diese Protokolle können mit U-SQL-Skripten analysiert werden.

Zugangskontrolle

ADLS bietet Zugriffskontrolle durch die Unterstützung von POSIX-konformen Zugriffskontrolllisten (ACL) für Dateien und Ordner, die in seiner Infrastruktur gespeichert sind. Es verwaltet auch die Authentifizierung durch die Integration von AAD auf der Grundlage von OAuth-Tokens von unterstützten Identitätsanbietern. Die Token enthalten die Daten der Sicherheitsgruppe des Benutzers, und diese Informationen werden durch alle ADLS-Microservices geleitet.

Datenverschlüsselung

ADLS verschlüsselt Daten bei der Übertragung und im Ruhezustand und bietet eine serverseitige Verschlüsselung von Daten mit Hilfe von Schlüsseln, einschließlich vom Kunden verwalteter Schlüssel im Azure Key Vault.

Arten von Datenverschlüsselungsschlüsseln

ADLS verwendet einen Master Encryption Key (MEK), der im Azure-Schlüsseltresor gespeichert ist, um Daten zu ver- und entschlüsseln. Benutzer haben die Möglichkeit, diesen Schlüssel selbst zu verwalten, aber es besteht immer das Risiko, die Daten nicht entschlüsseln zu können, wenn der Schlüssel verloren geht. ADLS umfasst auch die folgenden Schlüssel:

  • Blockverschlüsselungsschlüssel (BEK): Dies sind Schlüssel, die für jeden Datenblock erzeugt werden
  • Datenverschlüsselungsschlüssel (DEK): Diese Schlüssel werden vom MEK verschlüsselt und sind für die Erzeugung von BEKs zur Verschlüsselung von Datenblöcken verantwortlich

Azure Data Lake Store Preisgestaltung

Data Lake Store ist derzeit in der Region US-2 verfügbar und bietet eine Preisvorschau (ohne Outbound-Datentransfer):

Verwendung Kosten
Gespeicherte Daten 0,04 US-Dollar pro GB pro Monat
Data Lake-Transaktionen 0,07 US-Dollar pro Million Transaktionen

Im nächsten Abschnitt dieses Azure Data Lake Tutorials lernen Sie, wie Sie mit Analytics beginnen.

Wie fange ich an?

Die ersten Schritte mit Azure Data Lake Analytics sind extrem einfach. Das brauchen Sie dazu:

  • Ein Azure-Abonnement - nutzen Sie eine kostenlose Testversion, wenn Sie noch keines haben.
  • Ein Azure Data Lake Analytics-Konto - erstellen Sie eines in Ihrem Azure-Abonnement
    • In diesem Schritt müssen Sie auch ein Store-Konto erstellen.
  • Einige Daten, mit denen Sie spielen können - beginnen Sie mit Text oder Bildern.

Sie brauchen nichts auf Ihrem Computer zu installieren, um es zu benutzen. Sie können die erforderlichen Aufträge in Ihrem Browser schreiben und übermitteln.

Komponenten von Azure Data Lake

Die Komplettlösung besteht aus drei Komponenten, die Speicher-, Analyse- und Clusterfunktionen bieten.

Azure Data Lake Storage ist ein massiv skalierbarer und sicherer Data Lake für Hochleistungs-Analyse-Workloads. Azure Lake Data Storage war früher bekannt und wird manchmal noch als Azure Data Lake Store bezeichnet. Er wurde entwickelt, um Datensilos zu beseitigen, und bietet eine einzige Speicherplattform, die Unternehmen zur Integration ihrer Daten nutzen können.

Der Speicher kann durch abgestuften Speicher und Richtlinienverwaltung zur Kostenoptimierung beitragen. Außerdem bietet er rollenbasierte Zugriffskontrollen und Single Sign-On-Funktionen über Azure Active Directory. Benutzer können Daten innerhalb des Speichers mithilfe des Hadoop Distributed File System (HDFS) verwalten und darauf zugreifen. Daher funktioniert jedes HDFS-basierte Tool, das Sie verwenden, mit ADLS.

Azure Data Lake Analytics ist eine On-Demand-Analyseplattform für Big Data. Benutzer können parallele Datenumwandlungs- und -verarbeitungsprogramme in U-SQL, R, Python und .NET über Petabytes von Daten entwickeln und ausführen. U-SQL ist eine Big-Data-Abfragesprache, die von Microsoft für den Azure Data Lake Analytics-Dienst entwickelt wurde. Bei Azure Data Lake Analytics zahlen die Nutzer für jeden Job, um Daten nach Bedarf in einer Analytik-as-a-Service-Umgebung zu verarbeiten. Es handelt sich um eine kosteneffiziente Analyselösung, da Sie nur für die genutzte Verarbeitungsleistung bezahlen.

Azure HDInsight ist eine Cluster-Management-Lösung, die einfache, schnelle und kosteneffiziente Möglichkeiten zur Verarbeitung großer Datenmengen bietet. Es handelt sich um eine Cloud-Bereitstellungsinfrastruktur für Apache Hadoop, mit der Benutzer die Vorteile optimierter Open-Source-Analysecluster für Apache Spark, Hive, Map Reduce, HBase, Storm, Kafka und R-Server nutzen können. Mit diesen Frameworks können Sie eine breite Palette von Funktionen unterstützen, wie ETL, Data Warehousing, maschinelles Lernen und IoT. Azure HDInsight lässt sich auch in Azure Active Directory integrieren, um rollenbasierte Zugriffskontrollen und Single Sign-On-Funktionen zu ermöglichen.

Bedarf an Azure Data Lake

Der Azure Data Lake bietet die folgenden Vorteile und Möglichkeiten:

  • Data Warehousing: Da die Lösung jede Art von Daten unterstützt, können Sie damit alle Ihre Unternehmensdaten in ein einziges Data Warehouse integrieren.
  • Funktionen für das Internet der Dinge (IoT): Die Azure-Plattform bietet Tools für die Verarbeitung von Streaming-Daten in Echtzeit von verschiedenen Arten von Geräten.
  • Unterstützung für hybride Cloud-Umgebungen: Sie können die Azure HDInsight-Komponente verwenden, um eine bestehende lokale Big-Data-Infrastruktur auf die Azure-Cloud zu erweitern.
  • Unternehmensfunktionen: Die Umgebung wird von Microsoft verwaltet und unterstützt und umfasst Unternehmensfunktionen für Sicherheit, Verschlüsselung und Governance. Sie können auch Ihre lokalen Sicherheitslösungen und Kontrollen auf die Azure-Cloud-Umgebung ausweiten.
  • Schnelle Bereitstellung: Die Azure Data Lake-Lösung lässt sich leicht einrichten und in Betrieb nehmen. Alle Komponenten sind über das Portal verfügbar und es müssen keine Server installiert oder Infrastrukturen verwaltet werden.

Über Azure Data Lake Store

Laut Microsoft ist der Azure Data Lake-Speicher ein Repository für Big-Data-Analytics-Workloads im großen Maßstab und ein Hadoop Distributed File System für die Cloud. Einige seiner Funktionen umfassen:

  • Es gibt keine festen Grenzen für die Dateigröße
  • Es gibt keine festen Grenzen für die Kontogröße
  • Ermöglicht unstrukturierte und strukturierte Daten in ihren ursprünglichen Formaten
  • Ermöglicht massiven Durchsatz zur Steigerung der Analyseleistung
  • Bietet hohe Haltbarkeit, Verfügbarkeit und Zuverlässigkeit
  • Ist mit Azure Active Directory Zugriffskontrolle integriert

Abgesehen von der Tatsache, dass sowohl Azure Data Lake Store als auch Amazon S3 unbegrenzten Speicherplatz bieten, haben die beiden nicht viel gemeinsam. Wenn Sie S3 mit einem Azure-Dienst vergleichen, werden Sie mit dem Azure Storage Service bessere Ergebnisse erzielen. Der Store hingegen bietet einen integrierten Analysedienst und setzt keine Grenzen für die Dateigröße.

Hier ist eine schöne Illustration:

Azure Data Lake Speicher - Diagramm

Quelle: Microsoft

Er kann alle Daten in ihrem nativen Format verarbeiten, ohne dass vorherige Umwandlungen erforderlich sind. Beim Data Lake-Speicher muss kein Schema definiert werden, bevor die Daten hochgeladen werden, so dass es dem jeweiligen Analysesystem überlassen bleibt, die Daten zu interpretieren und zum Zeitpunkt der Analyse ein Schema zu definieren. Durch die Möglichkeit, Dateien beliebiger Größe und Formate zu speichern, kann ein Data Lake-Speicher strukturierte, halbstrukturierte und sogar unstrukturierte Daten verarbeiten.

Azure Data Lake Dateisystem speichern (adl://)

Auf ihn kann von Hadoop aus (verfügbar mit einem HDInsight-Cluster) über die WebHDFS-kompatiblen REST-APIs zugegriffen werden. Mit dem Azure Data Lake Store wurde jedoch ein neues Dateisystem namens AzureDataLakeFilesystem (ADL://) eingeführt. adl:// ist für die Leistung optimiert und in HDInsight verfügbar. Der Zugriff auf Daten im Data Lake Store erfolgt über:

adl://<data_lake_store_name>.azuredatalakestore.net

Azure Data Lake Store Sicherheit

Es verwendet Azure Active Directory für die Authentifizierung und Zugriffskontrolllisten (ACLs), um den Zugriff auf Ihre Daten zu verwalten. Azure Data Lake nutzt alle AAD-Funktionen, einschließlich Multi-Faktor-Authentifizierung, bedingter Zugriff, rollenbasierte Zugriffskontrolle, Überwachung der Anwendungsnutzung, Sicherheitsüberwachung und Warnmeldungen. Azure Data Lake Store unterstützt das OAuth 2.0-Protokoll für die Authentifizierung innerhalb der REST-Schnittstelle. Ebenso bietet der Data Lake Store eine Zugriffskontrolle durch die Unterstützung von Berechtigungen im POSIX-Stil, die durch das WebHDFS-Protokoll bereitgestellt werden.

Fazit

Azure Data Lake ist ein wichtiger Teil des ambitionierten Cloud-Angebots von Microsoft. Mit Data Lake bietet Microsoft einen Dienst zum Speichern und Analysieren von Daten beliebiger Größe zu erschwinglichen Kosten. In diesem umfassenden Blog haben wir ausführlich über den Azure Data Lake, seine Komponenten und Funktionen, seine Funktionsweise und so weiter gelesen.