Amazon EMR Studio
Por que usar o EMR Studio?
O EMR Studio é um ambiente de desenvolvimento integrado (IDE) que torna fácil para os cientistas e engenheiros de dados desenvolverem, visualizarem e depurarem aplicações de engenharia de dados e ciência de dados escritas em R, Python, Scala e PySpark.
O EMR Studio oferece blocos de anotações Jupyter totalmente gerenciados e ferramentas, como Spark UI e YARN Timeline Service para simplificar a depuração. Cientistas e analistas de dados podem instalar kernels e bibliotecas personalizadas, colaborar com colegas usando repositórios de código como GitHub e BitBucket ou executar blocos de anotações parametrizados como parte de fluxos de trabalho programados usando serviços de orquestração como Apache Airflow ou Amazon Managed Workflows for Apache Airflow.
Os kernels e aplicações do EMR Studio são executados em clusters do EMR de forma que você obtenha o benefício do processamento distribuído de dados usando a performance otimizada do Ambiente de Tempo de Execução do Amazon EMR para Apache Spark. Os administradores podem configurar o EMR Studio para que os analistas possam executar suas aplicações em clusters EMR existentes ou criar novos clusters usando modelos predefinidos do AWS Cloud Formation for EMR.
Simples de usar
O EMR Studio simplifica a interação com aplicações em um cluster EMR. Você pode acessar o EMR Studio no Console AWS usando o AWS IAM Authentication ou sem fazer login no Console da AWS, habilitando o acesso federado de seu provedor de identidades (IdP) por meio do AWS Identity Center (sucessor do AWS SSO). Você pode explorar, processar e visualizar dados interativamente usando notebooks, criar e agendar pipelines e depurar aplicações sem fazer login em clusters do EMR.
Blocos de anotações Jupyter totalmente gerenciados
Com o EMR Studio, você pode iniciar notebooks em segundos, integrar notebooks de amostra e realizar sua exploração de dados. Você pode colaborar com colegas por meio da colaboração interna em tempo real e acompanhar as alterações nas versões do notebook por meio de repositórios Git. Você também pode personalizar o ambiente carregando kernels personalizados e bibliotecas Python a partir de notebooks.
Aplicações fáceis de construir
O EMR Studio facilita a transição da prototipagem para a produção. Você pode acionar pipelines a partir de repositórios de código, simplesmente executar Notebooks como pipelines usando ferramentas de orquestração como o Apache Airflow ou o Amazon Managed Workflows for Apache Airflow ou anexar notebooks a um cluster maior com um único clique.
Depuração simplificada
Com o EMR Studio, você pode depurar trabalhos e acessar logs sem fazer login no cluster para clusters ativos e encerrados. Você pode usar interfaces de aplicações nativas, como Spark UI e o serviço de linha do tempo YARN diretamente do EMR Studio. O EMR Studio também permite localizar rapidamente o cluster ou o trabalho a ser depurado usando filtros como estado do cluster, tempo de criação e ID do cluster.
Notebooks colaborativos em tempo real
Com o EMR Studio, cientistas de dados, engenheiros e analistas podem colaborar entre equipes em tempo real. Você pode convidar seus colegas para visualizar e editar blocos de anotações. Isso permite coautoria em tempo real, depuração de código e revisões de código de notebooks Jupyter.
SQL Explorer
O EMR Studio vem com o SQL Explorer, um recurso no seu Workspace que permite navegar no catálogo de dados e executar consultas SQL em clusters do EMR diretamente do EMR Studio. No SQL Explorer, você pode se conectar ao Amazon EMR em clusters do EC2 com o Presto para visualizar e navegar no catálogo de dados. O SQL Explorer também fornece um Editor para executar consultas SQL, visualizar os resultados da consulta em uma tabela e baixá-los em um formato csv.
Notebooks em várias linguagens
O EMR Studio permite que você use várias linguagens em um único notebook Jupyter. Você pode alternar entre Python, Scala, SparkSQL e R no mesmo notebook Jupyter e compartilhar dados entre células por meio de tabelas temporárias. Com esse recurso, você pode escrever código nas linguagens mais adequadas para diferentes componentes do seu fluxo de trabalho.