Warum AWS Glue?
Der erste Schritt bei einem Analyse- oder ML-Projekt ist die Vorbereitung Ihrer Daten, um qualitativ hochwertige Ergebnisse zu erhalten. AWS Glue ist ein Serverless-Datenintegrationsservice, der die Datenaufbereitung einfacher, schneller und kostengünstiger macht. Sie können über 100 verschiedene Datenquellen entdecken und eine Verbindung dazu herstellen, Ihre Daten in einem zentralen Datenkatalog verwalten und ETL-Pipelines visuell erstellen, ausführen und überwachen, um Daten in Ihre Data Lakes zu laden. Mit den integrierten generativen KI-Funktionen können Sie Spark-Aufträge modernisieren und dank intelligenter Unterstützung für ETL-Authoring und Spark-Fehlerbehebung schneller entwickeln.
Einführung in AWS Glue (01:54)

Vorteile von AWS Glue

Flexible Unterstützung für ETL, ELT, Batch, Streaming und mehr, ohne Lock-In
Petabyte-Skala, nutzungsbasierte Abrechnung, beliebige Datengröße
Alle Datennutzer, von Entwicklern bis hin zu Geschäftsanwendern unterstützen
Holen Sie sich KI-gestützte Hilfe während Ihrer gesamten Datenintegration — von der automatischen Generierung von ETL-Code bis hin zur Modernisierung Ihrer Spark-Jobs. AWS Glue bietet intelligente Codegenerierung, KI-gestützte Spark-Upgrades (Vorschau) und integrierte Spark-Fehlerbehebung (Vorschau).
Vollständige Datenintegrationsfunktionen in einem serverlosen Service

Funktionsweise

AWS Glue ist ein Serverless-Datenintegrationsservice, der das Erkennen, Aufbereiten, Verschieben und Integrieren von Daten aus verschiedenen Quellen für Analysen, Machine Learning (ML) und Anwendungsentwicklung erleichtert.

  • Datenintegrations-Engine-Optionen
  • Wählen Sie Ihre bevorzugte Datenintegrations-Engine in AWS Glue, um Ihre Benutzer und Workloads zu unterstützen.

    Das Diagramm zeigt mehrere Optionen für die Datenverarbeitungs-Engine von AWS Glue.
  • Ereignisgesteuertes ETL
  • AWS Glue kann Ihre Extraktions-, Transformations- und Ladeaufträge (ETL) ausführen, sobald neue Daten eintreffen. Sie können AWS Glue zum Beispiel so konfigurieren, dass Ihre ETL-Aufträge ausgeführt werden, sobald neue Daten im Amazon Simple Storage Service (S3) verfügbar sind.

    Diagramm, das anzeigt, wie AWS Glue Ihre ETL-Jobs ausführen kann, sobald neue Daten eintreffen.
  • AWS-Glue-Datenkatalog
  • Sie können mithilfe des Datenkatalogs schnell mehrere AWS-Datensätze durchsuchen, ohne die Daten zu verschieben. Die Daten sind nach der Katalogisierung sofort zum Durchsuchen und Abfragen mit Amazon Athena, Amazon EMR und Amazon Redshift Spectrum bereit.

    Das Diagramm zeigt, wie der Datenkatalog Datensätze entdeckt und durchsucht, ohne die Daten zu verschieben.
  • Codefreie ETL-Aufträge
  • AWS Glue Studio macht es einfacher, AWS-Glue-ETL-Aufgaben visuell zu erstellen, auszuführen und zu überwachen. Sie können in einem Drag-and-Drop-Editor ETL-Aufgaben erstellen, die Daten verschieben und transformieren, und AWS Glue erzeugt den Code automatisch.

    Diagramm, das zeigt, wie Benutzer ETL-Aufgaben zusammenstellen können, die Daten mithilfe eines Drag-and-Drop-Editors verschieben und umwandeln.
  • Datenqualität verwalten und überwachen
  • AWS Glue Data Quality automatisiert die Erstellung, Verwaltung und Überwachung von Datenqualitätsregeln, um eine hohe Datenqualität in Ihren Data Lakes und Pipelines zu gewährleisten.

    Das Diagramm zeigt, wie AWS Glue Data Quality automatisch die Datenqualität in Data Lakes und Datenpipelines misst, überwacht und verwaltet.
  • Datenaufbereitung
  • Mit AWS Glue DataBrew können Sie Daten direkt aus Ihrem Data Lake, Data Warehouses und Datenbanken, einschließlich Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora und Amazon Relational Database Service (RDS), untersuchen und mit ihnen experimentieren. Sie können aus über 250 vorgefertigten Transformationen in DataBrew wählen, um Datenaufbereitungsaufgaben wie das Filtern von Anomalien, die Standardisierung von Formaten und die Korrektur ungültiger Werte zu automatisieren.

    Darüber hinaus bietet AWS Glue Studio ein Datenvorbereitungstool, mit dem Sie Daten mit einer interaktiven visuellen Point-and-Click-Oberfläche vorbereiten können, ohne Code schreiben zu müssen.

    Diagramm, das zeigt, wie DataBrew Datenaufbereitungsaufgaben für Benutzer automatisiert.

Anwendungsfälle

Interaktives Erkunden, Experimentieren und Verarbeiten von Daten

Mit interaktiven AWS-Glue-Sitzungen können Dateningenieure Daten interaktiv erkunden und vorbereiten, indem sie die integrierte Entwicklungsumgebung (IDE) oder das Notebook ihrer Wahl verwenden.

Daten effizient entdecken

Identifizieren Sie schnell Daten in AWS, lokalen und anderen Clouds und stellen Sie sie dann sofort für Abfragen und Transformationen zur Verfügung.

Unterstützung verschiedener Verarbeitungs-Frameworks und Workloads

Einfachere Unterstützung verschiedener Datenverarbeitungs-Frameworks wie ETL und ELT sowie verschiedener Workloads, einschließlich Batch, Micro-Batch und Streaming.

Die Verwaltung von ETL-Pipelines vereinfachen

Beseitigen Sie das Infrastrukturmanagement mit automatischer Bereitstellung und Worker-Management und konsolidieren Sie all Ihre Datenintegrationsanforderungen in einem einzigen Service.

Mehr von AWS erkunden