Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Masterseminar: Landnutzungsklassifikation - als Wettbewerb

Dr. Patrick Schäfer

Die Erde wird in periodischen Abständen von Satelliten beobachtet, die hochaufgelöste Bildern in mehreren Spektren (Infra-Rot, Ultra Violett, sichtbares Licht) aufnehmen. Diese Bilder können unter anderem zur Landnutzungsklassifikation eingesetzt werden, bei der einzelnen Pixeln (automatisiert) eine Klasse zugeordnet wird, um Trends wie Urbanisierung, Entwaldung oder Wüstenbildung frühzeitig zu erkennen. Für die Lösung dieses Problems existiert eine Vielzahl verschiedener Ansätze. In diesem Seminar werden Gruppen von Studierenden jeweils einen Ansatz in Vortrag und Ausarbeitung darstellen, sowie ihn auf eine Menge vorgegebener Klassifizierungsprobleme auf echten Satellitenbildern anwenden. Der Schwerpunkt liegt auf zeitreihenbasierten Verfahren und Maschinellen Lernmethoden. Das Seminar hat das übergeordnete Ziel, die Eigenheiten der verschiedenen Verfahren kennenzulernen und vergleichen zu können.

Am Freitag, den 26.10.2018 findet die Einführungsveranstaltung in RUD 25 4.113 statt, die für alle Teilnehmenden verpflichtend ist. Dort wird der Seminarablauf erläutert und die Themen vergeben.

Das Seminar findet im wesentlichen als Blockseminar am Ende des Semesters statt. Vorher sind aber Einführungstermine und individuelle Themenbesprechungen zu besuchen. Für die Themen werden eventuell Teams von zwei Studierenden gebildet.

Einführende Literatur

  • Gómez, Cristina, Joanne C. White, and Michael A. Wulder. "Optical remotely sensed time series data for land cover classification: A review." ISPRS Journal of Photogrammetry and Remote Sensing 116 (2016): 55-72. PAPER
  • Bagnall, Anthony, et al. "The great time series classification bake off: a review and experimental evaluation of recent algorithmic advances." Data Mining and Knowledge Discovery 31.3 (2017): 606-660. Paper
  • Fawaz, Hassan Ismail, et al. "Deep learning for time series classification: a review." arXiv preprint arXiv:1809.04356 (2018). Paper
  • TiSeLaC: Time Series Land Cover Classification Challenge
  • AALTD'16 Challenge on multivariate time series data
  • https://scholar.google.de for searching scientific papers
  • http://timeseriesclassification.com a website dedicated to univariate time series classifiers

Voraussetzungen

  • Gute Kenntnisse in Algorithmen und Datenstrukturen (z.B. gleichnamige Vorlesung)
  • Kenntnisse in Statistik und/oder Machine Learning (oder die Bereitschaft sich einzuarbeiten)

Anmeldung

Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über AGNES.

Alle Termine in der Übersicht:

Datensatz

Ein Auszug aus dem Trainingsdatensatz (16MB) mit 1.000, 10.000 und 100.000 Pixel-Zeitreihen und der komplette Trainingsdatensatz (>800mb) mit 6.091.037 Pixel-Zeitreihen wurden auf HU-BOX veröffentlicht. Der Testdatensatz mit 20.000 Pixelzeitreihen wurde auf Kaggle veröffentlicht. Die Passwörter und den Link zu Kaggle erhaltet ihr per Mail oder per Nachfrage.

Themen

Thema Vortragende(r) (maximal zwei) Flash-Slides Blockseminar-Slides
(non-time-series-based) Classifiers
(SVM, logistic regression, random forests/decision trees, gradient boosting trees, XGBoost, Bayesian methods, ...)
Alexej PDF PDF
Whole-Series-based Classifiers
(Dynamic Time Warping, Euclidean Distance, Proximity Forests, ...)
Sedir und Darko PDF
Univariate Shapelet-based Classifiers
(Fast Shapelets (FS), Learning Shapelets (LS), Shapelet Transform (ST), ...)
Martin und Tim PDF
Univariate Dictionary-based Classifiers
(BoP, SAX VSM, TSBF, BOSS, BOSS VS, WEASEL, ...)
Erik und David PDF PDF
Multivariate Dictionary-based Classifiers
(SMTS, WEASEL+MUSE, LPS, ...)
Arik und Markus PDF PDF
Deep Learning Classifiers
(ResNet, FCN, Encoder, MLP, Time-CNN, TWIESN, MCDCNN, MCNN, t-LeNet, ...)
Melina und Michael PDF
Multivariate Shapelet-based Classifiers
(gRSF, ...)
- -
Ensembles of Core Classifiers
(EE PROP, COTE, ...)
- -

Ablauf

Im Oktober/November wird es 1-2 Vorlesungen zu einführenden Themen geben (Time Series; Deep Learning; Land Cover Classification; Scientific writing/presentations).

Das Seminar wird als Blockseminar am Ende des Semesters abgehalten.

  • Jede Gruppe muss dort einen ca. 30-40 minütigen Vortrag über das zugewiesene Thema und den beschrittenen Weg im Wettbewerb (siehe unten) halten.
  • Vorher finden mindestens zwei Treffen mit dem/der Betreuer(in) statt, einmal zur Vorbesprechung des Themas und einmal zur Besprechung der Folien.
  • Außerdem wird es in der Mitte des Semesters einen Termin geben, in dem alle Gruppen in einer 5-minütigen Flash-Präsentation ihr Thema vorstellen, um Querverbindungen zu erkennen und die rechtzeitige Beschäftigung mit dem Thema sicherzustellen.
  • Schließlich muss zu jedem Thema eine ca. 20 seitige Seminararbeit verfasst werden /Darstellung des bearbeiteten Klassifikationsverfahren sowie der implementierten Pipeline).
  • Parallel zur konzeptionellen Durchdringung des Themas müssen alle Gruppen ein konkretes Klassifikationsverfahren implementieren und im Rahmen eines Wettbewerbs evaluieren. Hierzu geben wir in der Mitte des Semesters verschiedene Trainingsdatensätze aus (Zeitreihen von Satellitenbildern mit zugewiesenen Labeln).
  • Jede Gruppe implementiert und trainiert damit einen Klassifikator (Preprocessing, feature selection, classifier etc.). Die Klassifikatoren werden im Rahmen eines Wettbewerbs am Semesterende bzgl. ihrer Genauigkeit auf geheimen Test-Daten evaluiert. Der implementierte Weg wird in Seminarvortrag und -ausarbeitung beschrieben.

Schein und Anrechenbarkeit

Das Seminar ist anrechenbar für

  • Diplom Informatik
  • Master Informatik
  • Master Wirtschaftsinformatik

Voraussetzungen für den Schein sind:

  • der Besuch der Einführungsveranstaltungen zur Themenvergabe,
  • die regelmäßige Kommunikation mit dem Betreuer,
  • eine Kurzpräsentation des Themas (etwa in der Mitte des Semesters),
  • das Halten eines wissenschaftlichen Vortrags im Blockseminar am Ende des Semesters,
  • die Teilnahme am Wettbewerb inkl. Präsentation der Ergebnisse, und
  • das Erstellen einer schriftlichen Ausarbeitung (Seminararbeit).

Vorlagen