Azure Databricks Bewährte Praktiken

Lernen Sie die besten Praktiken für Azure Databricks von Experten

Azure Databricks ist eine Datenanalyseplattform, die speziell für die Azure Cloud Platform entwickelt wurde. Azure Databricks bietet drei Umgebungen für die Erstellung und Entwicklung datenintensiver Anwendungen: Azure Databricks SQL, Azure Databricks Data Science and Engineering und Azure Databricks Machine Learning.

Lesen Sie weiter unten mehr über die besten Praktiken für Azure Databricks.

Einzelner Satz von Arbeitsbereichen

Während die meisten Nutzer die Aufteilung von Arbeitsbereichen wegen der höheren Effizienz bevorzugen, benötigen einige Azure Databricks-Kunden nur einen einzigen Satz von Arbeitsbereichen. Diese Kunden stellen fest, dass alle ihre Anforderungen von einem einzigen Satz von Arbeitsbereichen erfüllt werden können, insbesondere aufgrund der neu hinzugefügten Funktionen wie Repos, Unity Catalog, Persona-basierte Landing Pages usw.

Die besten Praktiken für einen einzigen Satz von Arbeitsbereichen sind:

  • Da sich alles in derselben Umgebung befindet, besteht keine Gefahr, dass der Arbeitsbereich unübersichtlich wird. Die Assets werden nicht gemischt, so dass Kosten und Nutzung über mehrere Projekte und Teams hinweg nicht verwässert werden.
  • Die Verwaltungskosten werden erheblich gesenkt, da die Verwaltung des Arbeitsbereichs nun eine einfache Aufgabe ist.

Sandbox-Arbeitsbereiche

Ein Sandbox-Arbeitsbereich ist eine Umgebung, in der Benutzer Arbeiten formulieren, entwickeln und ausbrüten können, die möglicherweise noch wertvoll sein könnten. Die Sandbox-Umgebung ermöglicht es den Benutzern, Daten zu untersuchen und mit ihnen zu arbeiten, und bietet gleichzeitig Schutz vor unbeabsichtigten Änderungen und Auswirkungen auf bestehende Workloads. Cluster-Richtlinien können implementiert werden, um die Auswirkungen der Sandbox-Umgebung auf andere Workloads so gering wie möglich zu halten.

Zu den bewährten Verfahren für Sandbox-Arbeitsbereiche gehören:

  • Laden Sie die Sandbox-Umgebung in ein völlig separates Cloud-Konto, das keine Produktions- oder sensiblen Daten enthält.
  • Verwenden Sie Cluster Policies, um Leitplanken einzurichten, so dass die Benutzer ein gewisses Maß an Freiheit in der Umgebung haben, ohne dass eine Verwaltung durch den Administrator erforderlich ist.
  • Es sollte klar kommuniziert werden, dass die Sandbox-Umgebung eine Selbstbedienung ist.
  • Wenn der Benutzer Hadoop-Workloads bevorzugt, kann Azure Databricks als die beste Option angesehen werden.

Datenisolierung und Empfindlichkeit

Daten, die aus einer Vielzahl von Quellen stammen, gelten als äußerst wertvoll. Sie werden verwendet, um Informationen über Kunden zu sammeln und verwertbare Erkenntnisse zu gewinnen, um Strategien für Unternehmen zu entwickeln. Bei diesen Daten besteht ein hohes Risiko, dass eine Datenpanne auftritt. Daher ist es wichtig, dass die Daten getrennt, geschützt und abgesondert werden. Azure Databricks bietet ACLs, Secure Sharing und viele Sicherheitsoptionen, um Daten zu schützen und ein geringes Risiko für das Unternehmen zu schaffen.

Die besten Praktiken für Datenisolierung und -empfindlichkeit sind:

  • Verstehen Sie Data Governance entsprechend Ihrer Organisation. Jedes Unternehmen hat eine andere Strategie und andere Bedürfnisse und muss daher eine entsprechende Data-Governance-Strategie entwickeln.
  • Implementierung von Richtlinien und Kontrollen auf der Metaspeicher- und Speicherebene. Nach dem Prinzip des geringsten Zugriffs sollten S3-Richtlinien und ADLS, ACLs verwendet werden. Als zusätzliche Sicherheits- und Kontrollebene sollte der Leverage Unity Catalog eingesetzt werden.
  • Es ist eine bewährte Praxis, sensible und nicht sensible Daten physisch und virtuell zu trennen. Die meisten Benutzer, die Azure Databricks-Arbeitsbereiche verwenden, trennen bereits ihre sensiblen und nicht sensiblen Daten.

Disaster Recovery und regionale Sicherung

  • Die Wiederherstellung im Katastrophenfall ist unerlässlich, um sicherzustellen, dass sensible Informationen und Produktions-Workloads in keiner Situation verloren gehen. Die beste Methode ist die Erstellung und Pflege eines separaten Arbeitsbereichs in einer anderen Region als dem Standard-Produktionsarbeitsbereich. Die regionale Sicherungsstrategie kann von Unternehmen zu Unternehmen unterschiedlich sein.

Bewährte Praktiken für Azure-DatenbausteineEinige Kunden bevorzugen Echtzeit-Zugriff und Backups zwischen zwei Regionen, weshalb sie eine aktiv-aktive Konfiguration wählen. Dies ist eine der kostspieligsten Konfigurationen für Backups und Disaster Recovery. Andere Kunden bevorzugen nur minimale Backups, um die Geschäftskontinuität zu gewährleisten. Die Daten werden nur gelegentlich gesichert, wodurch die Kosten minimiert werden.

Die besten Praktiken für die Wiederherstellung von Daten und die regionale Datensicherung sind wie folgt:

  • Ein Git-Repository kann verwendet werden, um Code entweder vor Ort oder in der Cloud zu speichern. Repos können verwendet werden, um ihn bei Bedarf mit Azure Databricks zu synchronisieren.
  • Delta Lake sollte zusammen mit Deep Clone verwendet werden, um eine Kopie und Sicherung der Daten zu erstellen.
  • Für Elemente, die nicht in Delta Lake gespeichert sind, sollten die systemeigenen Tools der Cloud-Anbieter verwendet werden, um Backups zu erstellen.
  • Terraform sollte für die Sicherung von Objekten wie Jobs, Clustern, Secrets, Notebooks und anderen Workspace-Objekten verwendet werden.

Die Henson Group ist einer der besten Managed Service Provider (MSP) für Microsoft Azure und verfügt über ein starkes globales Netzwerk. Wenn Sie den Einsatz von Azure Databricks in Erwägung ziehen, dann setzen Sie sich mit uns in Verbindung. Wir können Ihnen helfen, mit Azure Databricks in kürzester Zeit zu starten.