Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Forschungsseminar SoSe04

Forschungsseminar
"Neue Entwicklungen in der Bioinformatik und Informationsintegration"

- Donnerstag, 1. Juli 2004, 10.15 Uhr. RUD 25, Raum III.113 -


ETL -- Anspruch und Realität

Ramzi Musa
Oracle Corp.

Die Bedeutung von ETL-Tools im Rahmen von Data Warehouse Projekten hat in den letzten Jahren deutlich zugenommen. Heute werden kaum noch große DW Projekte ohne Einsatz solcher Tools realisiert. Die Komplexität der erforderlichen ETL-Prozesse, sowie die enorme Aufwandsreduzierung gegenüber selbst programmierten individuellen Lösungen, haben dies inzwischen notwendig gemacht. Im Rahmen eines Data Warehouse und Business Intelligence Projektes entfallen ca. 60% - 70% des Gesamtaufwandes auf die ETL-Prozesse. So ist dieses Segment inzwischen ein umkämpfter Markt mit einer Reihe von Anbietern.

Mit Hilfe moderner ETL-Tools lässt sich inzwischen auf nahezu jede relevante Plattform (Betriebssysteme + Datenbanken und ERP-Systeme) zugreifen. Die Technik ist ausgereift und ermöglicht es schnelle Ergebnisse zu liefern. Die Transformationsmöglichkeiten und Funktionalitäten sind groß und erlauben durch integrierte Transformationssprachen (Programmiersprachen) nahezu jede Operation durchzuführen.

Allerdings blieben bei dieser Entwicklung einige Aspekte unberücksichtigt. Aktuelle ETL-Tools haben kaum Plausibilitätsüberprüfungen und unterstützen den Anwender nicht bei der korrekten Erstellung eines Data Warehouses / Data Marts und der dazugehörigen ETL-Prozesse. Die Daten Mappings müssen manuell erstellt werden, und die durch die Daten- und Schemaintegration auftauchenden Konflikte müssen zum überwiegenden Teil auch manuell aufgelöst werden.