Amazon EMR Studio

¿Por qué EMR Studio?

EMR Studio es un entorno de desarrollo integrado (IDE) que facilita a los científicos e ingenieros de datos el desarrollo, la visualización y la depuración de aplicaciones de ingeniería de datos y ciencia de datos escritas en R, Python, Scala y PySpark.

EMR Studio proporciona blocs de notas Jupyter completamente administrados y herramientas como Spark UI y YARN Timeline Service para simplificar la depuración. Los científicos de datos y los analistas pueden instalar kernels y bibliotecas personalizados, colaborar con compañeros mediante repositorios de código, como GitHub y BitBucket, así como ejecutar blocs de notas parametrizados como parte de flujos de trabajo programados con servicios de orquestación, como Apache Airflow o Amazon Managed Workflows for Apache Airflow.

Los kernels y las aplicaciones de EMR Studio se ejecutan en clústeres de EMR, por lo que se obtiene el beneficio del procesamiento de datos distribuidos a través del Entorno de ejecución de Amazon EMR para Apache Spark optimizado. Los administradores pueden configurar EMR Studio de manera que los analistas puedan ejecutar las aplicaciones en clústeres de EMR existentes o crear nuevos clústeres con plantillas predefinidas de AWS Cloud Formation para EMR.

Facilidad de uso

EMR Studio facilita la interacción con las aplicaciones en un clúster de EMR. Puede obtener acceso a EMR Studio desde la Consola de AWS mediante la autenticación de AWS IAM o sin iniciar sesión en la Consola de AWS al habilitar el acceso federado desde su proveedor de identidades (IdP) mediante el Centro de identidades de AWS IAM (sucesor de AWS SSO). Puede explorar, procesar y visualizar datos de forma interactiva mediante cuadernos, crear y programar canalizaciones y depurar aplicaciones sin necesidad de iniciar sesión en los clústeres de EMR.

Blocs de notas de Jupyter completamente administrados

Blocs de notas de Jupyter completamente administrados

Gracias a EMR Studio, puede iniciar blocs de notas en cuestión de segundos, incorporarse a los blocs de notas de muestra y explorar los datos. Puede trabajar con compañeros a través de la colaboración en tiempo real incorporada y realizar un seguimiento de los cambios en las versiones de los blocs de notas por medio de los repositorios Git. También puede personalizar el entorno al cargar kernels personalizados y bibliotecas Python desde blocs de notas.

Blocs de notas de Jupyter completamente administrados

Aplicaciones fáciles de crear

Gracias a EMR Studio, podrá pasar fácilmente de la creación de prototipos a la producción. Puede desencadenar canalizaciones a partir de repositorios de código, sencillamente ejecutar blocs de notas como canalizaciones mediante herramientas de orquestación, como Apache Airflow o Amazon Managed Workflows for Apache Airflow, o bien asociar los blocs de notas a un clúster más grande con tan solo un clic.

Aplicaciones fáciles de crear

Depuración simplificada

Gracias a EMR Studio, puede depurar trabajos y consultar los registros sin necesidad de iniciar sesión en el clúster, tanto para los clústeres activos como para los terminados. Puede utilizar interfaces de aplicaciones nativas, como Spark UI y el servicio de línea de tiempo de YARN, directamente desde EMR Studio. EMR Studio también permite localizar rápidamente el clúster o el trabajo a depurar mediante filtros, como el estado del clúster, la hora de creación y el ID del clúster.

Blocs de notas de Jupyter completamente administrados

Blocs de notas colaborativos en tiempo real

Gracias a EMR Studio, los científicos, ingenieros y analistas de datos tienen la posibilidad de colaborar en tiempo real con todos los equipos. Puede invitar a otros compañeros a ver y editar los blocs de notas. Esto permite crear conjuntamente, depurar y revisar el código de los blocs de notas de Jupyter en tiempo real.

SQL Explorer

EMR Studio incluye SQL Explorer, una característica del espacio de trabajo que permite examinar el catálogo de datos y ejecutar consultas SQL en clústeres de EMR directamente desde EMR Studio. En SQL Explorer, se puede conectar a Amazon EMR en clústeres EC2 con Presto para ver y explorar el catálogo de datos. SQL Explorer también proporciona un editor para ejecutar consultas de SQL, ver los resultados de las consultas en una tabla y descargarlos en un formato csv.

Blocs de notas en varios lenguajes

EMR Studio permite utilizar varios lenguajes dentro de un único bloc de notas de Jupyter. Puede alternar entre Python, Scala, SparkSQL y R dentro del mismo bloc de notas Jupyter y compartir datos entre celdas mediante tablas temporales. Gracias a esta característica, puede escribir el código en los lenguajes más adecuados para los diferentes componentes del flujo de trabajo.

Blocs de notas de Jupyter completamente administrados

Casos de uso

Gracias a EMR Studio, puede iniciar blocs de notas en cuestión de segundos, incorporarse a los blocs de notas de muestra y explorar los datos. Puede colaborar con compañeros gracias a la colaboración en tiempo real incorporada y realizar un seguimiento de los cambios en las versiones de los blocs de notas a través de los repositorios Git. También puede personalizar el entorno al cargar kernels personalizados y bibliotecas Python desde blocs de notas.

Al utilizar EMR Studio, se puede recurrir al repositorio de código para desencadenar canalizaciones. También es posible parametrizar y encadenar blocs de notas para crear canalizaciones. Puede integrar blocs de notas en flujos de trabajo programados mediante servicios de orquestación de flujos de trabajo como Apache Airflow o Amazon Managed Workflows for Apache Airflow. EMR Studio también permite volver a asociar los blocs de notas a un clúster más grande para ejecutar un trabajo.

En EMR Studio, puede depurar aplicaciones de bloc de notas desde la interfaz de usuario del bloc de notas. También puede depurar canalizaciones al localizar en primer lugar los clústeres mediante filtros, como el estado del clúster, y diagnosticar trabajos tanto en clústeres activos como en clústeres terminados con el menor número de clics posible para abrir las interfaces de depuración nativas, como Spark UI, Tez UI y Yarn Timeline Service.