Amazon EMR Studio
EMR Studio를 선택해야 하는 이유
노트북을 사용해 작업을 제출할 수 있도록 EMR Studio가 통합 개발 환경(IDE)을 제공하므로 데이터 사이언티스트와 데이터 엔지니어는 R, Python, Scala 및 PySpark에서 작성한 데이터 엔지니어링 및 데이터 사이언스 애플리케이션을 쉽게 개발, 시각화 및 디버깅할 수 있습니다.
EMR Studio는 완전관리형 Jupyter 노트북과 Spark UI 및 YARN Timeline Service 같은 도구를 제공하여 디버깅을 간소화합니다. 데이터 사이언티스트와 분석가들은 사용자 지정 커널 및 라이브러리를 설치하고, GitHub 및 BitBucket과 같은 코드 리포지토리를 사용하여 동료와 협업하거나 Apache Airflow 또는 Amazon Managed Workflows for Apache Airflow와 같은 오케스트레이션 서비스를 사용하여 파라미터 노트북을 예약된 워크플로의 일부로 실행할 수 있습니다.
EMR Studio 커널 및 애플리케이션은 EMR 클러스터에서 실행되므로 성능을 최적화한 Apache Spark용 EMR 런타임을 사용하는 분산 데이터 처리의 이점을 누릴 수 있습니다. 관리자가 EMR Studio를 설정함으로써 분석가는 기존 EMR 클러스터에서 애플리케이션을 실행하거나 EMR용으로 사전 정의된 AWS Cloud Formation 템플릿을 사용하여 새 클러스터를 생성할 수 있습니다.
간편한 사용
EMR Studio를 사용하면 EMR 클러스터에서 애플리케이션과 간편하게 상호 작용할 수 있습니다. EMR Studio에는 AWS Console에서 AWS IAM 인증을 사용하여 액세스하거나 사용하는 ID 제공업체(IdP)에서 AWS IAM Identity Center(AWS SSO의 후속 서비스)를 통해 페더레이션 액세스를 사용하도록 설정하여 AWS Console에 로그인하지 않고 액세스할 수 있습니다. EMR 클러스터에 로그인하지 않고도 노트북을 사용하여 대화식으로 데이터를 탐색, 처리 및 시각화하고 파이프라인을 구축 및 예약하고 애플리케이션을 디버깅할 수 있습니다.
완전관리형 Jupyter 노트북
EMR Studio를 사용하면 몇 초 만에 노트북을 시작하고 샘플 노트북에 온보딩하고 데이터 탐색을 수행할 수 있습니다. 내장된 실시간 협업을 통해 동료와 협업하고 Git 리포지토리를 통해 노트북 버전 전반에 걸쳐 변경 사항을 추적할 수 있습니다. 또한, 노트북에서 사용자 지정 커널 및 Python 라이브러리를 로드해 환경을 사용자 지정할 수 있습니다.
손쉬운 애플리케이션 구축
EMR Studio를 사용하면 프로토타입 제작에서 프로덕션으로 손쉽게 이동할 수 있습니다. 코드 리포지토리에서 파이프라인을 트리거하거나 Apache Airflow 또는 Amazon Managed Workflows for Apache Airflow와 같은 오케스트레이션 도구를 사용하여 파이프라인으로 노트북을 실행하거나 클릭 한 번으로 더 큰 클러스터에 노트북을 연결할 수 있습니다.
간소화된 디버깅
EMR Studio를 사용하면 활성 및 종료된 클러스터 모두에 대해 클러스터에 로그인하지 않고도 작업을 디버깅하고 로그에 액세스할 수 있습니다. Spark UI 및 YARN 타임라인 서비스와 같은 네이티브 애플리케이션 인터페이스를 EMR Studio에서 직접 사용할 수 있습니다. 또한 EMR Studio를 사용하면 클러스터 상태, 생성 시간 및 클러스터 ID와 같은 필터를 사용하여 디버깅할 클러스터 또는 작업을 빠르게 찾을 수 있습니다.
실시간 협업 노트북
EMR Studio를 사용하면 데이터 사이언티스트, 엔지니어 및 분석가가 실시간으로 팀 간에 협업할 수 있습니다. 동료를 초대하여 노트북을 보고 편집할 수 있습니다. 이를 통해 Jupyter 노트북의 실시간 공동 작성, 코드 디버깅 및 코드 검토가 가능합니다.
SQL Explorer
EMR Studio는 데이터 카탈로그를 탐색하고 EMR Studio에서 직접 EMR 클러스터에 대한 SQL 쿼리를 실행할 수 있는 WorkSpace의 기능인 SQL Explorer와 함께 제공됩니다. SQL Explorer에서는 Presto를 EC2 클러스터의 Amazon EMR에 연결하여 데이터 카탈로그를 표시하고 찾아볼 수 있습니다. 또한 SQL Explorer는 SQL 쿼리를 실행하고, 테이블에서 조회 결과를 보고, 조회 결과를 csv 형식으로 다운로드할 수 있는 편집기를 제공합니다.
다중 언어 노트북
EMR Studio를 통해 단일 Jupyter 노트북 내에서 다중 언어를 사용할 수 있습니다. 동일한 Jupyter 노트북 내에서 Python, Scala, SparkSQL 및 R 사이를 전환하고 임시 테이블을 통해 셀 사이에서 데이터를 공유할 수 있습니다. 이 기능을 사용하면 워크플로의 다양한 구성 요소에 가장 적합한 언어로 코드를 작성할 수 있습니다.