¿Qué es Azure HDInsight?

Azure HDInsight es un servicio de análisis de código abierto, gestionado y de amplio espectro en la nube para empresas. Con HDInsight, puede utilizar marcos de trabajo de código abierto como Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm y R, entre otros, en su entorno Azure.

¿Qué es HDInsight y la pila tecnológica Hadoop?

Azure HDInsight es una distribución en la nube de componentes Hadoop. Azure HDInsight hace que sea fácil, rápido y rentable procesar cantidades masivas de datos en un entorno personalizable. Puede utilizar los marcos de trabajo de código abierto más populares, como Hadoop, Spark, Hive, LLAP, Kafka, Storm y R, entre otros. Con estos marcos, puede habilitar una amplia gama de escenarios como la extracción, transformación y carga (ETL), el almacenamiento de datos, el aprendizaje automático y el IoT.

Para ver los componentes de la pila tecnológica de Hadoop disponibles en HDInsight, consulte Componentes y versiones disponibles con HDInsight. Para leer más sobre Hadoop en HDInsight, consulte la página de características de Azure para HDInsight.

¿Por qué debería utilizar Azure HDInsight?

¿Por qué debería utilizar Azure HDInsight?
Capacidad Descripción
Nativo de la nube Azure HDInsight le permite crear clústeres optimizados para Hadoop, Spark,Interactive query (LLAP), Kafka, Storm, HBase en Azure. HDInsight también proporciona un SLA de extremo a extremo en todas sus cargas de trabajo de producción.
Bajo coste y escalable HDInsight le permite ampliar o reducir las cargas de trabajo.Puede reducir los costes creando clústeres bajo demanda y pagando solo por lo que utiliza. También puede crear pipelines de datos para hacer operativos sus trabajos. La computación y el almacenamiento desacoplados proporcionan un mejor rendimiento y flexibilidad.
Seguro y conforme a las normas HDInsight le permite proteger los activos de datos de su empresa con Azure Virtual Network, el cifrado y la integración con Azure Active Directory. HDInsight también cumple con los estándares de cumplimiento más populares de la industria y del gobierno.
Monitorización Azure HDInsight se integra con los registros de Azure Monitor para proporcionar una única interfaz con la que puedes supervisar todos tus clústeres.
Disponibilidad mundial HDInsight está disponible en más regiones que cualquier otra oferta de análisis de big data. Azure HDInsight también está disponible en Azure Government, China y Alemania, lo que le permite satisfacer las necesidades de su empresa en áreas soberanas clave.
Productividad Azure HDInsight le permite utilizar herramientas productivas enriquecidas para Hadoop y Spark con sus entornos de desarrollo preferidos. Estos entornos de desarrollo incluyen Visual Studio, VSCode, Eclipse e IntelliJ para soporte de Scala, Python, R, Java y .NET. Los científicos de datos también pueden colaborar utilizando cuadernos populares como Jupyter y Zeppelin.
Extensibilidad Puede ampliar los clústeres de HDInsight con componentes instalados (Hue, Presto, etc.) mediante acciones de script, añadiendo nodos de borde o integrándose con otras aplicaciones certificadas de big data. HDInsight permite una integración perfecta con las soluciones de big data más populares con un despliegue de un solo clic.

¿Qué es el big data?

Los grandes datos se recogen en volúmenes cada vez mayores, a mayor velocidad y en una mayor variedad de formatos que nunca. Pueden ser históricos (es decir, almacenados) o en tiempo real (es decir, transmitidos desde la fuente). Consulte Escenarios de uso de HDInsight para conocer los casos de uso más comunes de los big data.

Tipos de cluster en HDInsight

HDInsight incluye tipos de clústeres específicos y capacidades de personalización de clústeres, como la capacidad de añadir componentes, utilidades e idiomas. HDInsight ofrece los siguientes tipos de clúster:

Tipos de cluster en HDInsight
Tipo de clúster Descripción Empezar a trabajar
Apache Hadoop Un marco de trabajo que utiliza HDFS, la gestión de recursos YARN y un sencillo modelo de programación MapReduce para procesar y analizar datos por lotes en paralelo. Crear un clúster Apache Hadoop
Apache Spark Un marco de procesamiento paralelo de código abierto que admite el procesamiento en memoria para aumentar el rendimiento de las aplicaciones de análisis de big data. Consulte ¿Qué es Apache Spark en HDInsight? Crear un clúster de Apache Spark
Apache HBase Una base de datos NoSQL construida sobre Hadoop que proporciona acceso aleatorio y una fuerte consistencia para grandes cantidades de datos no estructurados y semiestructurados, potencialmente miles de millones de filas por millones de columnas. Consulte ¿Qué es HBase en HDInsight? Crear un cluster de Apache HBase
Tormenta Apache Un sistema de computación distribuido y en tiempo real para procesar rápidamente grandes flujos de datos. Storm se ofrece como un clúster gestionado en HDInsight. Véase Analizar datos de sensores en tiempo real con Storm y Hadoop. Crear una topología Apache Storm
Consulta interactiva de Apache Caché en memoria para consultas interactivas y más rápidas en Hive. Consulte Uso de consultas interactivas en HDInsight. Crear un clúster de consulta interactiva
Apache Kafka Es una plataforma de código abierto que se utiliza para la creación de aplicaciones y canales de datos en flujo. Kafka también proporciona una funcionalidad de cola de mensajes que le permite publicar y suscribirse a flujos de datos. Consulte Introducción a Apache Kafka en HDInsight. Crear un clúster de Apache Kafka

Escenarios de uso de HDInsight

Azure HDInsight puede utilizarse para una variedad de escenarios en el procesamiento de big data. Puede tratarse de datos históricos (datos ya recogidos y almacenados) o de datos en tiempo real (datos que se transmiten directamente desde la fuente). Los escenarios para el procesamiento de estos datos se pueden resumir en las siguientes categorías:

Procesamiento por lotes (ETL)

La extracción, transformación y carga (ETL) es un proceso en el que se extraen datos no estructurados o estructurados de fuentes de datos heterogéneas. A continuación, se transforman en un formato estructurado y se cargan en un almacén de datos. Los datos transformados se pueden utilizar para la ciencia de datos o el almacenamiento de datos.

Almacenamiento de datos

Puede utilizar HDInsight para realizar consultas interactivas a escala de petabytes sobre datos estructurados o no estructurados en cualquier formato. También puede construir modelos que los conecten con herramientas de BI.

Arquitectura de Azure HDInsight: Almacenamiento de datos

Internet de los objetos (IoT)

Puedes utilizar HDInsight para procesar datos de streaming que se reciben en tiempo real desde diferentes tipos de dispositivos. Para obtener más información, lea esta publicación del blog de Azure en la que se anuncia la vista previa pública de Apache Kafka en HDInsight con discos gestionados de Azure.

Arquitectura de HDInsight: Internet de las cosas

Ciencia de los datos

Puede utilizar HDInsight para crear aplicaciones que extraigan información crítica de los datos. También puede utilizar Azure Machine Learning para predecir las tendencias futuras de su negocio. Para obtener más información, lea esta historia de cliente.

Arquitectura de HDInsight: Ciencia de los datos

Híbrido

Puede utilizar HDInsight para ampliar su infraestructura de big data local existente a Azure y aprovechar las capacidades de análisis avanzado de la nube.

Arquitectura HDInsight: Híbrido

Componentes de código abierto en HDInsight

Azure HDInsight permite crear clústeres con marcos de trabajo de código abierto como Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase y R. Estos clústeres, por defecto, vienen con otros componentes de código abierto que se incluyen en el clúster como Apache Ambari5, Avro5, Apache Hive3, HCatalog2, Apache Mahout2, Apache Hadoop MapReduce3, Apache Hadoop YARN2, Apache Phoenix3, Apache Pig3, Apache Sqoop3, Apache Tez3, Apache Oozie2 y Apache ZooKeeper5.

Lenguajes de programación en HDInsight

Los clústeres de HDInsight, incluidos Spark, HBase, Kafka, Hadoop y otros, admiten muchos lenguajes de programación. Algunos lenguajes de programación no se instalan por defecto. Para las bibliotecas, módulos o paquetes que no se instalan por defecto, utilice una acción de script para instalar el componente.

Lenguajes de programación en HDInsight
Lenguaje de programación Información
Soporte de lenguaje de programación por defecto Por defecto, los clusters de HDInsight soportan:

  • Java
  • Python
  • .NET
  • Ir a
Lenguajes de la máquina virtual Java (JVM) Muchos lenguajes distintos de Java pueden ejecutarse en una máquina virtual Java (JVM). Sin embargo, si ejecuta algunos de estos lenguajes, es posible que tenga que instalar componentes adicionales en el clúster. Los siguientes lenguajes basados en JVM son compatibles con los clústeres de HDInsight:

  • Clojure
  • Jython (Python para Java)
  • Scala
Lenguajes específicos de Hadoop Los clusters HDInsight soportan los siguientes lenguajes específicos de la pila tecnológica Hadoop:

  • Trabajos en latín para cerdos
  • HiveQL para trabajos de Hive y SparkSQL

Herramientas de desarrollo para HDInsight

Puede utilizar las herramientas de desarrollo de HDInsight, como IntelliJ, Eclipse, Visual Studio Code y Visual Studio, para crear y enviar consultas de datos y trabajos de HDInsight con una integración perfecta con Azure.

  • Kit de herramientas Azure para IntelliJ10
  • Kit de herramientas Azure para Eclipse6
  • Herramientas Azure HDInsight para VS Code13
  • Herramientas de Azure Data Lake para Visual Studio9

Inteligencia empresarial en HDInsight

Las herramientas conocidas de inteligencia empresarial (BI) recuperan, analizan y elaboran informes de datos que se integran con HDInsight mediante el complemento Power Query o el controlador ODBC de Microsoft Hive:

Residencia de datos en la región

Spark, Hadoop, LLAP, Storm y MLService no almacenan datos de clientes, por lo que estos servicios satisfacen automáticamente los requisitos de residencia de datos en la región, incluidos los especificados en el Centro de Confianza.

Kafka y HBase almacenan los datos de los clientes. Estos datos son almacenados automáticamente por Kafka y HBase en una sola región, por lo que este servicio satisface los requisitos de residencia de datos en la región, incluidos los especificados en el Centro de Confianza.

Las herramientas conocidas de inteligencia empresarial (BI) recuperan, analizan y elaboran informes de datos que se integran con HDInsight mediante el complemento Power Query o el controlador ODBC de Microsoft Hive.