Conceitos básicos do Amazon EMR
Como usar o EMR
Desenvolva sua aplicação de processamento de dados
Você pode usar Java, Hive (uma linguagem similar a SQL), Pig (uma linguagem de processamento de dados), Cascading, Ruby, Perl, Python, R, PHP, C++ ou Node.js. O Amazon EMR oferece exemplos de código e tutoriais para que você comece rapidamente.
Faça upload da sua aplicação e dados no Amazon S3
Se você precisa fazer upload de uma grande quantidade de dados, considere o uso do AWS Import/Export Snowball, fazer upload dos dados usando dispositivos de armazenamento físico ou o AWS Direct Connect para estabelecer uma conexão de rede dedicada do seu data center com a AWS. Se preferir, você também pode gravar seus dados diretamente em um cluster em execução.
Configure e execute seu cluster
Usando o Console de Gerenciamento da AWS, a AWS CLI, os SDKs, ou as APIs da AWS, especifique o número de instâncias do Amazon EC2 para provisionar no seu cluster, os tipos de instância a usar (padrão, alta memória, CPU de alto desempenho, E/S elevada, etc.), as aplicações a instalar (Apache Spark, Apache Hive, Apache HBase, Presto, etc.) e o local das suas aplicações e dados. Você pode recorrer a ações de bootstrap para instalar software adicional ou alterar configurações padrão.
Monitore o cluster
Você pode monitorar a saúde e o progresso do cluster usando o console de gerenciamento, Command Line Interface, SDKs ou APIs. O EMR integra-se ao Amazon CloudWatch para monitorar/gerar alarmes e oferece suporte a ferramentas de monitoramento populares como a Ganglia. Você pode add/remove capacidade para o cluster a qualquer momento para lidar com mais ou menos dados. Para solucionar problemas, você pode usar a GUI de depuração simples do console.
Recupere a saída
Recupere a saída do Amazon S3 ou HDFS no cluster. Visualize os dados com ferramentas como Amazon QuickSight, Tableau e MicroStrategy. O Amazon EMR encerrará automaticamente o cluster quando o processamento estiver concluído. Alternativamente, você pode deixar o cluster em execução e dar a ele mais trabalho para fazer.
Você está pronto para executar o seu primeiro cluster?
Clique aqui para executar um cluster usando o Console de Gerenciamento do Amazon EMR. Na página Create Cluster, acesse Advanced cluster configuration e clique no botão cinza "Configure Sample Application" no lado superior direito se desejar executar uma aplicação de exemplo com dados de exemplo.