Preise von Amazon SageMaker Lakehouse

Amazon SageMaker Lakehouse vereinheitlicht all Ihre Daten aus Data Lakes von Amazon Simple Storage Service (Amazon S3) und Amazon Redshift Data Warehouses und hilft Ihnen so, leistungsstarke Analytik- und KI/ML-Anwendungen auf einer einzigen Datenkopie zu erstellen. SageMaker Lakehouse bietet Ihnen die Flexibilität, mit allen Apache-Iceberg-kompatiblen Tools und Engines auf Ihre Daten zuzugreifen und diese abzufragen. Es sichert Ihre Daten im Lakehouse, indem es differenzierte Berechtigungen definiert, die konsistent auf alle Tools und Engines für Analytik und Machine Learning (ML) angewendet werden. Neben diesen Vorteilen können Sie über Null-ETL-Integrationen auf Ihre Daten aus operativen Datenbanken und Anwendungen zugreifen und über Verbund-Abfragefunktionen im Lakehouse auf Daten aus Drittquellen zugreifen.

Auf SageMaker Lakehouse kann direkt über Amazon SageMaker Unified Studio (Vorschau) zugegriffen werden. Daten aus verschiedenen Quellen sind in logischen Containern organisiert, die in SageMaker Lakehouse als Kataloge bezeichnet werden. Jeder Katalog stellt Daten dar, die entweder aus vorhandenen Datenquellen wie Data Warehouses und Datenbanken von Drittanbietern stammen oder direkt im Lakehouse erstellt wurden, um Daten in Amazon S3 oder Amazon Redshift Managed Storage (RMS) zu speichern. Abfrage-Engines können eine Verbindung zu diesen Katalogen herstellen und mit Apache-Iceberg-APIs direkt auf Daten zugreifen. Sie können jede Apache Iceberg-kompatible Engine wie Apache Spark, Trino, Amazon Athena oder Amazon EMR verwenden, um auf die Daten als Apache Iceberg-Tabellen zuzugreifen und die Daten von ihren Erst- und Drittanbieter-Abfrage-Engines abzufragen. In ähnlicher Weise werden die Kataloge in Abfrage-Engines von Erstanbietern wie Amazon Redshift-Clustern und Arbeitsgruppen als Datenbanken eingebunden. Stellen Sie eine Verbindung zu den Datenbanken der Abfrage-Tools über Java Database Connectivity (JDBC) oder Amazon Redshift Query Editor V2 her, um Abfragen mit SQL durchzuführen.

Preise für SageMaker Lakehouse

SageMaker Lakehouse verfügt über die folgenden zugrunde liegenden Komponenten. Sie bezahlen für die Komponenten, die Sie im Lakehouse verwenden.

SageMaker-Lakehouse-Metadaten: Datendefinitionen werden mithilfe des AWS-Glue-Datenkatalogs in einer logischen Hierarchie aus Katalogen, Datenbanken und Tabellen organisiert.

  • Katalog: Ein logischer Container, der Objekte aus einem Datenspeicher wie Schemata, Tabellen, Ansichten oder materialisierte Ansichten von Amazon Redshift enthält. Sie können Kataloge unter einem Katalog verschachteln, um die Hierarchieebenen der Datenquelle, die Sie in das Lakehouse übertragen, übereinstimmend darzustellen.
  • Datenbank: Datenbanken können verwendet werden, um die Datenobjekte wie Tabellen und Ansichten im Lakehouse zu organisieren.
  • Tabellen und Ansichten: Tabellen und Ansichten sind Datenobjekte in einer Datenbank, die beschreiben, wie auf die zugrunde liegenden Daten zugegriffen werden kann, z. B. Schema, Partitionen, Speicherort, Speicherformat und SQL-Abfrage für den Zugriff auf die Daten.

Der Zugriff auf SageMaker-Lakehouse-Metadaten erfolgt über AWS-Glue-APIs. Für Metadatenspeicherung und API-Anfragen gelten die Preise für Metadaten des AWS-Glue-Datenkatalogs, einschließlich des kostenlosen AWS-Kontingents. Weitere Informationen finden Sie unter AWS Glue – Preise.

Datenspeicher und Zugriff: Mit SageMaker Lakehouse können Sie Daten in Amazon S3 oder RMS lesen und schreiben. Abhängig vom Speichertyp, den Sie zum Speichern von Daten im Lakehouse auswählen, fallen für den Zugriff auf den zugrunde liegenden Speicher zusätzliche Speicher- und Rechenkosten an. Weitere Informationen zu den Speicher- und Rechenpreisen für die einzelnen Speichertypen finden Sie in der Preisübersicht zu AWS Glue.

Statistiken und Wartung von Apache-Iceberg-Tabellen: In SageMaker Lakehouse können Sie die Statistikerfassung für Data-Lake-Tabellen in Amazon S3 automatisieren, um eine schnellere Abfrageausführung und die Wartung von Apache-Iceberg-Tabellen, z. B. Komprimierung, zu ermöglichen und so das Speicher-Layout Ihrer Apache-Iceberg-Tabellen zu optimieren. Wenn Sie diese Features aktivieren, fallen zusätzliche Gebühren an. Weitere Informationen finden Sie unter AWS Glue – Preise.

Berechtigungen: Differenzierte Berechtigungen in SageMaker Lakehouse werden von AWS Lake Formation bereitgestellt. Berechtigungen für SageMaker Lakehouse sind kostenlos. Weitere Informationen finden Sie unter Lake Formation – Preise.

Null-ETL-Integration – Kosten

SageMaker verfügt über Zero-ETL-Integrationen mit Anwendungen, wodurch die Notwendigkeit entfällt, ETL-Pipelines (Extrahieren, Transformieren und Laden) zu erstellen und zu verwalten. Zu den unterstützten Anwendungen gehören Salesforce, ServiceNow, Zendesk und mehr.

Diese Integrationen bieten Ihnen Flexibilität, sodass Sie bestimmte Datentabellen in einer Anwendung auswählen können, die automatisch auf Amazon Redshift repliziert werden sollen. Diese Flexibilität ermöglicht es Ihnen, einheitliche Analytik für mehrere Anwendungen und Datenquellen durchzuführen. AWS erhebt keine zusätzliche Gebühr für die Null-ETL-Integration. Sie zahlen für vorhandene Ressourcen, die zur Erstellung und Verarbeitung der im Rahmen einer Null-ETL-Integration erstellten Änderungsdaten verwendet werden. Dazu gehören zusätzlicher Amazon Redshift-Speicher zum Speichern replizierter Daten, Rechen-Ressourcen zur Verarbeitung der Datenreplikation (oder RPUs in Amazon Redshift Serverless) und AZ-übergreifende Datenübertragungskosten zum Verschieben von Daten von der Quelle zum Ziel. Die fortlaufende Verarbeitung von Datenänderungen durch die Null-ETL-Integration wird ohne zusätzliche Kosten angeboten. Weitere Informationen finden Sie unter Amazon Aurora – Preise, Amazon Relational Database (Amazon RDS) für MySQL – Preise, Amazon DynamoDB – Preise und AWS Glue – Preise.