Conceitos básicos do Amazon EMR

Como usar o EMR

1

Desenvolva sua aplicação de processamento de dados

Você pode usar Java, Hive (uma linguagem similar a SQL), Pig (uma linguagem de processamento de dados), Cascading, Ruby, Perl, Python, R, PHP, C++ ou Node.js. O Amazon EMR oferece exemplos de código e tutoriais para que você comece rapidamente.

2

Faça upload da sua aplicação e dados no Amazon S3

Se você precisa fazer upload de uma grande quantidade de dados, considere o uso do AWS Import/Export Snowball, fazer upload dos dados usando dispositivos de armazenamento físico ou o AWS Direct Connect para estabelecer uma conexão de rede dedicada do seu data center com a AWS. Se preferir, você também pode gravar seus dados diretamente em um cluster em execução.

3

Configure e execute seu cluster

Usando o Console de Gerenciamento da AWS, a AWS CLI, os SDKs, ou as APIs da AWS, especifique o número de instâncias do Amazon EC2 para provisionar no seu cluster, os tipos de instância a usar (padrão, alta memória, CPU de alto desempenho, E/S elevada, etc.), as aplicações a instalar (Apache Spark, Apache Hive, Apache HBase, Presto, etc.) e o local das suas aplicações e dados. Você pode recorrer a ações de bootstrap para instalar software adicional ou alterar configurações padrão.

4

Monitore o cluster

Você pode monitorar a saúde e o progresso do cluster usando o console de gerenciamento, Command Line Interface, SDKs ou APIs. O EMR integra-se ao Amazon CloudWatch para monitorar/gerar alarmes e oferece suporte a ferramentas de monitoramento populares como a Ganglia. Você pode add/remove capacidade para o cluster a qualquer momento para lidar com mais ou menos dados. Para solucionar problemas, você pode usar a GUI de depuração simples do console.

5

Recupere a saída

Recupere a saída do Amazon S3 ou HDFS no cluster. Visualize os dados com ferramentas como Amazon QuickSight, Tableau e MicroStrategy. O Amazon EMR encerrará automaticamente o cluster quando o processamento estiver concluído. Alternativamente, você pode deixar o cluster em execução e dar a ele mais trabalho para fazer.

Você está pronto para executar o seu primeiro cluster?

Clique aqui para executar um cluster usando o Console de Gerenciamento do Amazon EMR. Na página Create Cluster, acesse Advanced cluster configuration e clique no botão cinza "Configure Sample Application" no lado superior direito se desejar executar uma aplicação de exemplo com dados de exemplo.

Treinamento e ajuda

Você precisa de ajuda para criar uma prova de conceito ou ajustar seus aplicativos do EMR? A AWS tem uma equipe de suporte global especializada em EMR. Entre em contato conosco se tiver interesse em saber mais sobre compromissos de suporte pago de curto prazo (2-6 semanas).

O curso de Big Data na AWS foi projetado para ensinar na prática como utilizar a Amazon Web Services para workloads de big data. A AWS demonstrará como executar tarefas do Amazon EMR para processar dados utilizando o amplo ecossistema de ferramentas do Hadoop, como o Pig e o Hive. Além disso, a AWS também ensinará a criar ambientes de big data na nuvem com o Amazon DynamoDB e o Amazon Redshift, entender os benefícios do Amazon Kinesis e aproveitar as melhores práticas no projeto de ambientes de big data para obter análises, segurança e economia. Para saber mais sobre o curso sobre big data, clique aqui.

A Scale Unlimited oferece treinamento personalizado no local para empresas que precisam conhecer rapidamente o uso do EMR e outras tecnologias de big data. Para saber mais, clique aqui.