Amazon SageMaker Lakehouse

統一されたオープンで安全なデータレイクハウスで分析と AI を簡素化

SageMaker Lakehouse とは

Amazon SageMaker Lakehouse は、Amazon Simple Storage Service (Amazon S3) データレイクと Amazon Redshift データウェアハウスにわたるすべてのデータを統合します。これは、データの 1 つのコピーで強力な分析と AI/ML アプリケーションを構築するのに役立ちます。SageMaker Lakehouse では、Apache Iceberg と互換性のあるすべてのツールとエンジンを使用して、インプレースでデータにアクセスしてクエリする柔軟性が得られます。すべての分析および機械学習 (ML) ツールとエンジンに適用されるきめ細かなアクセス許可を定義して、レイクハウス内のデータを保護します。ゼロ ETL 統合により、運用データベースやアプリケーションからのデータをほぼリアルタイムでレイクハウスに取り込むことができます。さらに、サードパーティーのデータソース全体にわたるフェデレーテッドクエリ機能を使用して、インプレースでデータにアクセスし、クエリを実行できます。

利点

SageMaker Lakehouse を使用すると、Amazon S3 データレイクと Amazon Redshift データウェアハウスにわたるすべてのデータを統合できます。ゼロ ETL 統合を通じて、運用データベースやアプリケーションからデータをほぼリアルタイムでレイクハウスに持ち込むことができます。何百ものコネクタを使用して、さまざまなソースからのデータを統合できます。さらに、サードパーティーのデータソース全体にわたるフェデレーテッドクエリ機能を使用して、その場でデータにアクセスしてクエリを実行できます。
データの単一のコピーで Apache Iceberg 互換のすべてのツールを使用して、インプレースでデータにアクセスおよびクエリする柔軟性が得られます。SQL、Apache Spark、ビジネスインテリジェンス (BI)、AI/ML ツールなど、お好みの分析ツールとエンジンを使用し、Amazon S3 データレイクと Amazon Redshift データウェアハウスにわたって保存されているデータを連携させることができます。SageMaker Lakehouse を既存のデータアーキテクチャと併用することで、Apache Iceberg と互換性のある、お好みのストレージ形式とクエリエンジンを使用できます。
すべての分析ツールとエンジンのすべてのデータに適用される、統合されたきめ細かなアクセス制御によってデータを保護しましょう。アクセス許可を一度定義すれば、組織全体でデータを確実に共有できます。

ユースケース

Amazon S3 データレイクと Amazon Redshift データウェアハウスにまたがるすべてのデータを 1 つのコピーで統合し、分析と AI の取り組みに役立てることができます。統合されたアクセス制御により、SageMaker Lakehouse ではきめ細かなアクセス許可を定義し、組織全体でデータの単一コピーを安全に共有できます。
ゼロ ETL 統合により、SageMaker Lakehouse の運用データベースとアプリケーション全体のデータにほぼリアルタイムでアクセスできます。さまざまな AWS サービス、Apache Iceberg をサポートするオープンソースおよびサードパーティーのツールやエンジンから、その場でデータにアクセスし、クエリを実行できます。
複数の Amazon Redshift データウェアハウスから既存のデータを SageMaker Lakehouse に取り込んで、Redshift クラスターとワークグループに保存されているデータをクエリしたり結合したりできます。ワークロードをスケールして、複数のデータ共有を管理することなく、抽出、変換、ロード (ETL) プロセスや BI レポートを扱い、必要に応じた分析を行えるようにしましょう。