Amazon EMR Studio

Por que usar o EMR Studio?

O EMR Studio é um ambiente de desenvolvimento integrado (IDE) que torna fácil para os cientistas e engenheiros de dados desenvolverem, visualizarem e depurarem aplicações de engenharia de dados e ciência de dados escritas em R, Python, Scala e PySpark.

O EMR Studio oferece blocos de anotações Jupyter totalmente gerenciados e ferramentas, como Spark UI e YARN Timeline Service para simplificar a depuração. Cientistas e analistas de dados podem instalar kernels e bibliotecas personalizadas, colaborar com colegas usando repositórios de código como GitHub e BitBucket ou executar blocos de anotações parametrizados como parte de fluxos de trabalho programados usando serviços de orquestração como Apache Airflow ou Amazon Managed Workflows for Apache Airflow.

Os kernels e aplicações do EMR Studio são executados em clusters do EMR de forma que você obtenha o benefício do processamento distribuído de dados usando a performance otimizada do Ambiente de Tempo de Execução do Amazon EMR para Apache Spark. Os administradores podem configurar o EMR Studio para que os analistas possam executar suas aplicações em clusters EMR existentes ou criar novos clusters usando modelos predefinidos do AWS Cloud Formation for EMR.

Simples de usar

O EMR Studio simplifica a interação com aplicações em um cluster EMR. Você pode acessar o EMR Studio no Console AWS usando o AWS IAM Authentication ou sem fazer login no Console da AWS, habilitando o acesso federado de seu provedor de identidades (IdP) por meio do AWS Identity Center (sucessor do AWS SSO). Você pode explorar, processar e visualizar dados interativamente usando notebooks, criar e agendar pipelines e depurar aplicações sem fazer login em clusters do EMR.

Blocos de anotações Jupyter totalmente gerenciados

Blocos de anotações Jupyter totalmente gerenciados

Com o EMR Studio, você pode iniciar notebooks em segundos, integrar notebooks de amostra e realizar sua exploração de dados. Você pode colaborar com colegas por meio da colaboração interna em tempo real e acompanhar as alterações nas versões do notebook por meio de repositórios Git. Você também pode personalizar o ambiente carregando kernels personalizados e bibliotecas Python a partir de notebooks.

Blocos de anotações Jupyter totalmente gerenciados

Aplicações fáceis de construir

O EMR Studio facilita a transição da prototipagem para a produção. Você pode acionar pipelines a partir de repositórios de código, simplesmente executar Notebooks como pipelines usando ferramentas de orquestração como o Apache Airflow ou o Amazon Managed Workflows for Apache Airflow ou anexar notebooks a um cluster maior com um único clique.

Aplicações fáceis de construir

Depuração simplificada

Com o EMR Studio, você pode depurar trabalhos e acessar logs sem fazer login no cluster para clusters ativos e encerrados. Você pode usar interfaces de aplicações nativas, como Spark UI e o serviço de linha do tempo YARN diretamente do EMR Studio. O EMR Studio também permite localizar rapidamente o cluster ou o trabalho a ser depurado usando filtros como estado do cluster, tempo de criação e ID do cluster.

Blocos de anotações Jupyter totalmente gerenciados

Notebooks colaborativos em tempo real

Com o EMR Studio, cientistas de dados, engenheiros e analistas podem colaborar entre equipes em tempo real. Você pode convidar seus colegas para visualizar e editar blocos de anotações. Isso permite coautoria em tempo real, depuração de código e revisões de código de notebooks Jupyter.

SQL Explorer

O EMR Studio vem com o SQL Explorer, um recurso no seu Workspace que permite navegar no catálogo de dados e executar consultas SQL em clusters do EMR diretamente do EMR Studio. No SQL Explorer, você pode se conectar ao Amazon EMR em clusters do EC2 com o Presto para visualizar e navegar no catálogo de dados. O SQL Explorer também fornece um Editor para executar consultas SQL, visualizar os resultados da consulta em uma tabela e baixá-los em um formato csv.

Notebooks em várias linguagens

O EMR Studio permite que você use várias linguagens em um único notebook Jupyter. Você pode alternar entre Python, Scala, SparkSQL e R no mesmo notebook Jupyter e compartilhar dados entre células por meio de tabelas temporárias. Com esse recurso, você pode escrever código nas linguagens mais adequadas para diferentes componentes do seu fluxo de trabalho.

Blocos de anotações Jupyter totalmente gerenciados

Casos de uso

Com o EMR Studio, você pode iniciar notebooks em segundos, integrar notebooks de amostra e realizar sua exploração de dados. Você pode colaborar com colegas por meio da colaboração interna em tempo real e acompanhar as alterações nas versões do notebook por meio de repositórios Git. Você também pode personalizar o ambiente carregando kernels personalizados e bibliotecas Python a partir de notebooks.

No EMR Studio, você pode usar o repositório de código para acionar pipelines. Você também pode parametrizar e encadear notebooks para criar pipelines. Você pode integrar notebooks em fluxos de trabalho agendados usando serviços de orquestração de fluxo de trabalho, como o Apache Airflow ou o Amazon Managed Workflows for Apache Airflow. O EMR Studio também permite que você reconecte notebooks a um cluster maior para executar um trabalho.

No EMR Studio, você pode depurar aplicações de notebook a partir da interface do usuário do notebook. Você também pode depurar pipelines, limitando primeiro os clusters usando filtros como o estado do cluster e diagnosticar trabalhos em clusters ativos e encerrados com o mínimo de cliques possível para abrir UIs de depuração nativas, como Spark UI, Tez UI e Yarn Timeline Service.