Halbkurs Data Warehousing und Data Mining
Halbkurs Data Warehousing und Data Mining
Professor Ulf Leser, Sommersemester 2007
Mit Data Warehouses (DWH) werden sehr große, integrierte und auf die Datenanalyse ausgerichtete Datenbanken bezeichnet. Die Vorlesung behandelt diese Thematik in zwei Blöcken. Im ersten Block werden Methoden zum Aufbau und Management von DWH in relationalen Datenbanken vorgestellt (Architekturen, ETL-Prozess, das multidimensionale Datenmodell, OLAP Operationen, Bitmap-Indexe, materialisierte Sichten etc.). Im zweiten Block besprechen wir Algorithmen, die auf den gesammelten Daten Analysen vornehmen (Data Mining), wie zum Beispiel Klassifikationsverfahren, Clustering und Recommendation-Algorithmen. Der Schwerpunkt liegt auf der performanten Implementierung solcher Algorithmen in Datenbanken. In der vorlesungsbegleitende Übung werden ausgewählte Verfahren anhand aktueller kommerzieller relationaler Datenbanken (Oracle) erprobt.
Voraussetzungen
Voraussetzung für den Besuch sind gute Kenntnisse in relationalen Datenbanken (z.B. durch DBS-I).
Prüfungen
Prüfungen sind mündlich. Die Vorlesung ist als Halbkurs der praktischen Informatik anrechenbar. Voraussetzung für die Prüfung ist das Bestehen der Übung.
Themen
Folien sind hier jeweils vor der Vorlesung als PDF verfügbar. Änderungen möglich.
- Vorstellung der Vorlesung und Administratives
- Einführung und Abgrenzung
- Wiederholung RDBMS
- Architektur und Prozesse
- Das multidimensionale Datenmodell
- OLAP Operationen und graphische Modellierung mit M-ER
- Speicherung multidimensionaler Daten: ROLAP versus MOLAP
- OLAP mit SQL, OLAP mit MDX (Korrigierte Version, 22.5.2007)
- Der ETL Prozess
- Indexstrukturen für Data Warehouses
- Multidimensionale
Indexstrukturen
- Logische Optimierung: Star Joins und Partitionierung
- Optimierung von OLAP Operationen (Koorigierte Version, 28.6.2007 - PipeSort ist wegen Unklarheiten nicht prüfungsrelevant)
- Gastvorlesung Hr. Eberl-Koschny, PSI AG: Data Warehouse Projekte in der Praxis
- Materialisierte Sichten: Ableitbarkeit und Optimierung
- Materialisierte Sichten: Auswahl und
Aktualisierung
- Einführung in Data Mining und KDD
- Clustering: Hierarchisches Cluster, k-Means, DBSCAN
- Klassifikation: Naive Bayes, Decision Trees, SPRINT
- Assoziationsregeln: A-Priori Algorithmus (kein Prüfungsstoff)
- Abschluss
Literatur
- Lehner: Datenbanktechnologie für Data Warehouse Systeme, dpunkt.verlag, 2003.
- Bauer/Günzel: Data Warehouse Systeme, dpunkt.verlag, 2004
- Han/Kamber: Data Mining, Morgan Kaufmann, 2006