Was ist Azure HDInsight?

Azure HDInsight ist ein verwalteter, umfassender Open-Source-Analysedienst in der Cloud für Unternehmen. Mit HDInsight können Sie Open-Source-Frameworks wie Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R und mehr in Ihrer Azure-Umgebung nutzen.

Was ist HDInsight und der Hadoop-Technologie-Stack?

Azure HDInsight ist eine Cloud-Verteilung von Hadoop-Komponenten. Azure HDInsight ermöglicht die einfache, schnelle und kostengünstige Verarbeitung großer Datenmengen in einer anpassbaren Umgebung. Sie können die beliebtesten Open-Source-Frameworks wie Hadoop, Spark, Hive, LLAP, Kafka, Storm, R und andere verwenden. Mit diesen Frameworks können Sie eine breite Palette von Szenarien wie Extrahieren, Transformieren und Laden (ETL), Data Warehousing, maschinelles Lernen und IoT ermöglichen.

Eine Übersicht über die in HDInsight verfügbaren Komponenten des Hadoop-Technologiestacks finden Sie unter Mit HDInsight verfügbare Komponenten und Versionen. Weitere Informationen zu Hadoop in HDInsight finden Sie auf der Azure-Funktionsseite für HDInsight.

Warum sollte ich Azure HDInsight verwenden?

Warum sollte ich Azure HDInsight verwenden?
Fähigkeit Beschreibung
Cloud nativ Mit Azure HDInsight können Sie optimierte Cluster für Hadoop, Spark,interaktive Abfragen (LLAP), Kafka, Storm und HBase auf Azure erstellen. HDInsight bietet auch eine End-to-End-SLA für alle Ihre Produktions-Workloads.
Kostengünstig und skalierbar HDInsight ermöglicht es Ihnen, Arbeitslasten nach oben oder unten zu skalieren.Sie können die Kosten senken, indem Sie Cluster nach Bedarf erstellen und nur für das bezahlen, was Sie nutzen. Sie können auch Datenpipelines erstellen, um Ihre Aufträge zu operationalisieren. Entkoppelte Rechen- und Speicherkapazitäten sorgen für bessere Leistung und Flexibilität.
Sicher und regelkonform HDInsight ermöglicht es Ihnen, Ihre Unternehmensdaten mit Azure Virtual Network, Verschlüsselung und Integration mit Azure Active Directory zu schützen. HDInsight erfüllt außerdem die gängigsten Compliance-Standards der Branche und der Behörden.
Überwachung Azure HDInsight ist mit den Protokollen von Azure Monitor integriert, um eine einzige Schnittstelle zu bieten, mit der Sie alle Ihre Cluster überwachen können.
Globale Verfügbarkeit HDInsight ist in mehr Regionen verfügbar als jedes andere Big Data-Analyseangebot. Azure HDInsight ist auch in Azure Government, China und Deutschland verfügbar, wodurch Sie die Anforderungen Ihres Unternehmens in wichtigen souveränen Gebieten erfüllen können.
Produktivität Azure HDInsight ermöglicht Ihnen die Verwendung umfangreicher produktiver Tools für Hadoop und Spark mit Ihren bevorzugten Entwicklungsumgebungen. Zu diesen Entwicklungsumgebungen gehören Visual Studio, VSCode, Eclipse und IntelliJ für Scala-, Python-, R-, Java- und .NET-Unterstützung. Datenwissenschaftler können auch mit gängigen Notebooks wie Jupyter und Zeppelin zusammenarbeiten.
Erweiterbarkeit Sie können die HDInsight-Cluster mit installierten Komponenten (Hue, Presto usw.) mithilfe von Skriptaktionen, durch Hinzufügen von Edge-Knoten oder durch die Integration mit anderen Big Data-zertifizierten Anwendungen erweitern. HDInsight ermöglicht die nahtlose Integration mit den gängigsten Big-Data-Lösungen mit einer Bereitstellung per Mausklick.

Was ist Big Data?

Big Data wird in immer größeren Mengen, mit höherer Geschwindigkeit und in einer größeren Vielfalt an Formaten als je zuvor gesammelt. Sie können historisch (d. h. gespeichert) oder in Echtzeit (d. h. von der Quelle gestreamt) sein. Unter Szenarien für die Verwendung von HDInsight finden Sie Informationen zu den häufigsten Anwendungsfällen für Big Data.

Cluster-Typen in HDInsight

HDInsight umfasst spezifische Clustertypen und Clusteranpassungsfunktionen, wie z. B. die Möglichkeit, Komponenten, Dienstprogramme und Sprachen hinzuzufügen. HDInsight bietet die folgenden Clustertypen:

Cluster-Typen in HDInsight
Cluster-Typ Beschreibung Los geht's
Apache Hadoop Ein Framework, das HDFS, YARN-Ressourcenmanagement und ein einfaches MapReduce-Programmiermodell zur parallelen Verarbeitung und Analyse von Stapeldaten verwendet. Erstellen eines Apache-Hadoop-Clusters
Apache Spark Ein Open-Source-Framework für die parallele Verarbeitung, das die In-Memory-Verarbeitung unterstützt, um die Leistung von Big-Data-Analyseanwendungen zu steigern. Siehe Was ist Apache Spark in HDInsight? Erstellen eines Apache Spark-Clusters
Apache HBase Eine auf Hadoop aufbauende NoSQL-Datenbank, die zufälligen Zugriff und starke Konsistenz für große Mengen unstrukturierter und halbstrukturierter Daten bietet - potenziell Milliarden von Zeilen mal Millionen von Spalten. Siehe Was ist HBase auf HDInsight? Erstellen eines Apache HBase-Clusters
Apache-Sturm Ein verteiltes Echtzeit-Rechnersystem zur schnellen Verarbeitung großer Datenströme. Storm wird als verwalteter Cluster in HDInsight angeboten. Siehe Analysieren von Echtzeit-Sensordaten mit Storm und Hadoop. Erstellen einer Apache Storm-Topologie
Apache Interaktive Abfrage In-Memory-Caching für interaktive und schnellere Hive-Abfragen. Siehe Interaktive Abfrage in HDInsight verwenden. Ein Cluster für interaktive Abfragen erstellen
Apache Kafka Eine Open-Source-Plattform, die für die Erstellung von Streaming-Daten-Pipelines und -Anwendungen verwendet wird. Kafka bietet auch eine Message-Queue-Funktionalität, mit der Sie Datenströme veröffentlichen und abonnieren können. Siehe Einführung in Apache Kafka auf HDInsight. Erstellen eines Apache Kafka-Clusters

Szenarien für die Verwendung von HDInsight

Azure HDInsight kann für eine Vielzahl von Szenarien in der Big Data-Verarbeitung verwendet werden. Dabei kann es sich um historische Daten (Daten, die bereits gesammelt und gespeichert wurden) oder um Echtzeitdaten (Daten, die direkt von der Quelle gestreamt werden) handeln. Die Szenarien für die Verarbeitung solcher Daten lassen sich in den folgenden Kategorien zusammenfassen:

Stapelverarbeitung (ETL)

Extrahieren, Transformieren und Laden (ETL) ist ein Prozess, bei dem unstrukturierte oder strukturierte Daten aus heterogenen Datenquellen extrahiert werden. Anschließend werden sie in ein strukturiertes Format umgewandelt und in einen Datenspeicher geladen. Sie können die transformierten Daten für Data Science oder Data Warehousing verwenden.

Data Warehousing

Mit HDInsight können Sie interaktive Abfragen im Petabyte-Maßstab über strukturierte oder unstrukturierte Daten in beliebigen Formaten durchführen. Sie können auch Modelle erstellen und sie mit BI-Tools verbinden.

Azure HDInsight-Architektur: Data Warehousing

Internet der Dinge (IoT)

Sie können HDInsight verwenden, um Streaming-Daten zu verarbeiten, die in Echtzeit von verschiedenen Arten von Geräten empfangen werden. Weitere Informationen finden Sie in diesem Blogbeitrag von Azure, in dem die öffentliche Vorschau von Apache Kafka auf HDInsight mit Azure Managed Disks angekündigt wird.

HDInsight-Architektur: Internet der Dinge

Datenwissenschaft

Sie können HDInsight nutzen, um Anwendungen zu erstellen, die wichtige Erkenntnisse aus Daten gewinnen. Darüber hinaus können Sie Azure Machine Learning nutzen, um zukünftige Trends für Ihr Unternehmen vorherzusagen. Weitere Informationen finden Sie in diesem Kundenbericht.

HDInsight-Architektur: Datenwissenschaft

Hybride

Mit HDInsight können Sie Ihre bestehende Big-Data-Infrastruktur vor Ort auf Azure erweitern, um die erweiterten Analysefunktionen der Cloud zu nutzen.

HDInsight-Architektur: Hybrid

Open-Source-Komponenten in HDInsight

Azure HDInsight ermöglicht Ihnen die Erstellung von Clustern mit Open-Source-Frameworks wie Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase und R. Diese Cluster werden standardmäßig mit anderen Open-Source-Komponenten geliefert, die im Cluster enthalten sind, wie Apache Ambari5, Avro5, Apache Hive3, HCatalog2, Apache Mahout2, Apache Hadoop MapReduce3, Apache Hadoop YARN2, Apache Phoenix3, Apache Pig3, Apache Sqoop3, Apache Tez3, Apache Oozie2 und Apache ZooKeeper5.

Programmiersprachen in HDInsight

HDInsight-Cluster, einschließlich Spark, HBase, Kafka, Hadoop und andere, unterstützen viele Programmiersprachen. Einige Programmiersprachen werden nicht standardmäßig installiert. Für Bibliotheken, Module oder Pakete, die nicht standardmäßig installiert werden, verwenden Sie eine Skriptaktion, um die Komponente zu installieren.

Programmiersprachen in HDInsight
Programmiersprache Informationen
Unterstützung von Standard-Programmiersprachen Standardmäßig unterstützen HDInsight-Cluster:

  • Java
  • Python
  • .NET
  • Weiter
Sprachen der virtuellen Java-Maschine (JVM) Viele andere Sprachen als Java können auf einer virtuellen Java-Maschine (JVM) ausgeführt werden. Wenn Sie jedoch einige dieser Sprachen ausführen, müssen Sie möglicherweise zusätzliche Komponenten auf dem Cluster installieren. Die folgenden JVM-basierten Sprachen werden auf HDInsight-Clustern unterstützt:

  • Clojure
  • Jython (Python für Java)
  • Scala
Hadoop-spezifische Sprachen HDInsight-Cluster unterstützen die folgenden Sprachen, die für den Hadoop-Technologie-Stack spezifisch sind:

  • Schweinelatein für Schweinejobs
  • HiveQL für Hive-Aufträge und SparkSQL

Entwicklungswerkzeuge für HDInsight

Sie können HDInsight-Entwicklungstools wie IntelliJ, Eclipse, Visual Studio Code und Visual Studio verwenden, um HDInsight-Datenabfragen und -Aufträge mit nahtloser Integration in Azure zu erstellen und zu übermitteln.

  • Azure-Toolkit für IntelliJ10
  • Azure-Toolkit für Eclipse6
  • Azure HDInsight-Tools für VS Code13
  • Azure Data Lake-Tools für Visual Studio9

Business Intelligence auf HDInsight

Bekannte Business Intelligence (BI)-Tools rufen Daten ab, analysieren sie und erstellen Berichte, die mit HDInsight integriert sind, indem sie entweder das Power Query-Add-In oder den Microsoft Hive ODBC-Treiber verwenden:

Datenaufenthalt innerhalb der Region

Spark, Hadoop, LLAP, Storm und MLService speichern keine Kundendaten, daher erfüllen diese Dienste automatisch die Anforderungen an die Datenresidenz in der Region, einschließlich der im Trust Center festgelegten Anforderungen.

Kafka und HBase speichern Kundendaten. Diese Daten werden von Kafka und HBase automatisch in einer einzigen Region gespeichert, so dass dieser Dienst die Anforderungen an die Datenresidenz in der Region erfüllt, einschließlich derer, die im Trust Center festgelegt sind.

Bekannte Business Intelligence (BI)-Tools rufen Daten ab, analysieren sie und erstellen Berichte, die mit HDInsight integriert sind, indem sie entweder das Power Query-Add-In oder den Microsoft Hive ODBC-Treiber verwenden.