Amazon EMR 기반 아파치 하둡
Apache Hadoop on EMR을 선택해야 하는 이유
Apache™ Hadoop®은 대규모 데이터 세트를 효율적으로 처리하는 데 사용할 수 있는 오픈 소스 소프트웨어 프로젝트입니다. 하나의 대형 컴퓨터를 사용하여 데이터를 처리 및 저장하는 대신 하둡을 사용하면 상용 하드웨어를 함께 클러스터링하여 대량의 데이터 세트를 병렬로 분석할 수 있습니다.
하둡 에코시스템에는 많은 애플리케이션과 실행 엔진이 있어 분석 워크로드의 요구에 맞는 다양한 도구를 제공합니다. Amazon EMR은 Hadoop 에코시스템에서 Hadoop과 기타 애플리케이션을 실행하는 Amazon EC2 인스턴스의 완전하게 구성된 탄력적인 클러스터를 손쉽게 생성하고 관리할 수 있게 해줍니다.
하둡과 빅 데이터는 어떤 관계가 있나요?
Hadoop은 대량으로 확장 가능하기 때문에 빅 데이터 워크로드를 처리하는 데 주로 사용됩니다. 하둡 클러스터의 처리 성능을 향상하려면, 요구에 맞춰 필요한 CPU 및 메모리 리소스가 있는 서버를 추가하십시오.
하둡은 컴퓨팅 분석 워크로드를 병렬로 처리하면서 동시에 높은 수준의 내구성과 가용성을 제공합니다. 처리의 가용성, 내구성 및 확장성이 조합된 하둡은 빅 데이터 워크로드에 아주 적합합니다. Amazon EMR을 사용하여 몇 분 내에 Hadoop을 실행하는 Amazon EC2 인스턴스 클러스터를 생성 및 구성하고 데이터에서 가치를 창출할 수 있습니다.