Apache Hadoop no Amazon EMR
Por que usar o Apache Hadoop no EMR?
O Apache™ Hadoop® é um projeto de software de código aberto que pode ser usado para processar de modo eficiente grandes conjuntos de dados. Em vez de usar um computador de grande porte para processar e armazenar os dados, o Hadoop permite o agrupamento de hardware padrão em clusters para analisar em paralelo grandes conjuntos de dados.
Existem vários aplicativos e mecanismos de execução no ecossistema do Hadoop, o que disponibiliza várias ferramentas compatíveis com as necessidades das suas cargas de trabalho de análise. O Amazon EMR facilita a criação e o gerenciamento de clusters elásticos totalmente configurados de instâncias do Amazon EC2 executando o Hadoop e outras aplicações no ecossistema do Hadoop.
Qual é a relação entre o Hadoop e o big data?
Mais comumente, o Hadoop é usado para processar workloads de big data por ser altamente escalável. Para aumentar a capacidade de processamento do cluster do Hadoop, adicione mais servidores com os recursos de CPU e memória de que você precisa para atender às suas necessidades.
O Hadoop proporciona um alto nível de resiliência e disponibilidade, enquanto continua processando em paralelo cargas de trabalho analíticas computacionais. A combinação de disponibilidade, resiliência e escalabilidade de processamento torna o Hadoop a escolha ideal para cargas de trabalho de big data. É possível usar o Amazon EMR para criar e configurar um cluster de instâncias do Amazon EC2 em execução no Hadoop em minutos, e começar a derivar valor dos seus dados.