Conozca las mejores prácticas de Azure Databricks de la mano de expertos
Azure Databricks es una plataforma de análisis de datos creada específicamente para Azure Cloud Platform. Azure Databricks proporciona tres entornos para crear y desarrollar aplicaciones de uso intensivo de datos: Azure Databricks SQL, Azure Databricks Data Science and Engineering y Azure Databricks Machine Learning.
Lea más abajo sobre las mejores prácticas para Azure Databricks.
Conjunto único de espacios de trabajo
Mientras que la mayoría de los usuarios prefieren dividir los espacios de trabajo debido a una mayor eficiencia, algunos clientes de Azure Databricks sólo necesitan un único conjunto de espacios de trabajo. Estos clientes encuentran que todas sus necesidades pueden ser satisfechas por un solo conjunto de espacios de trabajo, especialmente debido a las características recientemente añadidas como Repos, Unity Catalog, páginas de destino basadas en Persona, etc.
Las mejores prácticas para un conjunto único de espacios de trabajo son:
- Como todo está en el mismo entorno, no hay que preocuparse por el desorden del espacio de trabajo. Los activos no se mezclan, por lo que el coste y el uso en múltiples proyectos y equipos no se diluyen.
- Los gastos generales de administración se reducen considerablemente, ya que la gestión del espacio de trabajo es ahora una tarea sencilla.
Espacios de trabajo en la arena
Un espacio de trabajo "sandbox" es un entorno que permite a los usuarios formular, desarrollar e incubar un trabajo que aún podría ser potencialmente valioso. El entorno de caja de arena permitirá a los usuarios explorar y trabajar con los datos al tiempo que ofrece protección contra los cambios involuntarios y la afectación de las cargas de trabajo existentes. Se pueden implementar políticas de cluster para mantener al mínimo los efectos del entorno sandbox en otras cargas de trabajo.
Las mejores prácticas para los espacios de trabajo sandbox incluyen:
- Cargue el entorno de la caja de arena en una cuenta en la nube completamente separada que no tenga datos de producción o sensibles.
- Utiliza las Políticas de Cluster para establecer barreras de seguridad para que los usuarios puedan tener cierto grado de libertad en el entorno sin requerir la gestión del administrador.
- Se debe comunicar claramente que el entorno del sandbox es de autoservicio.
- Si el usuario prefiere las cargas de trabajo de Hadoop, entonces Azure Databricks puede considerarse la mejor opción.
Aislamiento y sensibilidad de los datos
Los datos procedentes de diversas fuentes se consideran muy valiosos. Se utilizan para agregar información sobre los clientes y formar perspectivas procesables para impulsar las estrategias de las organizaciones. Estos datos tienen un alto riesgo de sufrir una violación de datos. Por lo tanto, es esencial mantener los datos separados, protegidos y segregados. Azure Databricks ofrece ACLs, Secure Sharing y muchas opciones de seguridad para proteger los datos y hacerlos de bajo riesgo para la organización.
Las mejores prácticas para el aislamiento y la sensibilidad de los datos son:
- Comprender la gobernanza de los datos en función de su organización. Cada organización tiene una estrategia diferente, y diferentes necesidades y por lo tanto necesita desarrollar una estrategia de gobierno de datos en consecuencia.
- Implantar políticas y controles en los niveles de metastore y almacenamiento. Utilizando el principio de mínimo acceso, las políticas de S3 y ADLS, deberían utilizarse ACLs. Como capa adicional de seguridad y control, debería aplicarse Leverage Unity Catalog.
- Es una buena práctica separar física y virtualmente los datos sensibles y no sensibles. La mayoría de los usuarios que utilizan los espacios de trabajo de Azure Databricks ya segregan y separan sus datos sensibles y no sensibles.
Recuperación de desastres y copia de seguridad regional
- La recuperación de desastres es esencial para garantizar que la información sensible y las cargas de trabajo de producción no se pierdan en ninguna situación. La mejor práctica es crear y mantener un espacio de trabajo por separado en una región diferente a la del espacio de trabajo de producción estándar. La estrategia de copia de seguridad regional puede variar entre las organizaciones.
Algunos clientes prefieren el acceso en tiempo real y las copias de seguridad entre dos regiones, por lo que adoptan una configuración activo-activo. Esta es una de las configuraciones de copia de seguridad y recuperación de desastres más costosas. Otros clientes prefieren realizar las copias de seguridad mínimas necesarias para garantizar la continuidad del negocio. Los datos se copian ocasionalmente y, por tanto, el coste se minimiza.
Las mejores prácticas para la recuperación de datos y las copias de seguridad regionales son las siguientes:
- Se puede utilizar un repositorio Git para almacenar el código en el sitio o en la nube. Los repositorios se pueden utilizar para sincronizarlos con Azure Databricks cuando sea necesario.
- Delta Lake debe utilizarse junto con Deep Clone para realizar una copia y un backup de los datos.
- Para los elementos que no se almacenan en Delta Lake, se deben utilizar las herramientas nativas de los proveedores de la nube para mantener las copias de seguridad.
- Terraform debería utilizarse para hacer copias de seguridad de objetos como trabajos, clusters, secretos, cuadernos y otros objetos del espacio de trabajo.
Henson Group es uno de los mejores proveedores de servicios gestionados (MSP) para Microsoft Azure y cuenta con una sólida red mundial. Si está considerando utilizar Azure Databricks, póngase en contacto con nosotros. Podemos ayudarle a empezar con Azure Databricks en poco tiempo.