Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Masterseminar: Text Classification - ein Wettbewerb

Prof. Dr. Ulf Leser

Textklassifikation, als Teilgebiet des Maschinellen Lernens, bezeichnet die Aufgabe, Texte automatisch vorgegebenen Klassen zuzuordnen - Beschwerdebriefe zu Sacharbeitern, News zu Themenbereichen, Mails zu spam/ham. Zu diesem Problem gibt es eine Vielzahl verschiedener Ansätze und Verfahren, von Bayes'schen Methoden über Neuronale Netze bis zu Support Vector Machines. In diesem Seminar werden Studierende jeweils einen Ansatz in Vortrag und Ausarbeitung genau darstellen sowie ihn auf eine Menge vorgegebener Klassifikationsprobleme anwenden. Das Seminar hat das übergeordnete Ziel, die Eigenheiten der verschiedenen Verfahren kennenzulernen und vergleichen zu können.

Das Seminar findet im wesentlichen als Blockseminar am Ende des Semesters statt. Vorher sind aber Einführungstermine und individuelle Themenbesprechungen zu besuchen. Für die Themen werden eventuell Teams von zwei Studierenden gebildet.

Voraussetzungen

  • Gute Kenntnisse in Algorithmen und Datenstrukturen (z.B. gleichnamige Vorlesung)
  • Kenntnisse in Statistik und/oder Machine Learning

Schein und Anrechenbarkeit

Das Seminar ist anrechenbar für

  • Diplom Informatik
  • Master Informatik
  • Master Wirtschaftsinformatik

Voraussetzungen für den Schein sind:

  • der Besuch der Einführungsveranstaltungen zur Themenvergabe,
  • die regelmäßige Kommunikation mit dem Betreuer,
  • eine Kurzpräsentation des Themas (etwa in der Mitte des Semesters),
  • das Halten eines wissenschaftlichen Vortrags im Blockseminar am Ende des Semesters,
  • die Teilnahme am Wettbewerb inkl. Präsentation der Ergebnisse, und
  • das Erstellen einer schriftlichen Ausarbeitung (Seminararbeit).

Anmeldung

Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über AGNES.

Termine und Ablauf

Am Freitag, den 21.4.2017 findet die Einführungsveranstaltung statt, die für alle Teilnehmenden verpflichtend ist. Dort wird der Seminarablauf erläutert und die Themen vergeben.

Im April/Mai wird es 1-2 Vorlesungen zu einführenden Themen geben (Text Processing; Scientific writing/presentations).

Das Seminar wird als Blockseminar am Ende des Semesters abgehalten. Jede Gruppe muss dort einen ca. 30-40 minütigen Vortrag über das zugewiesene Thema und den beschrittenen Weg im Wettbewerb (siehe unten) halten. Vorher finden mindestens zwei Treffen mit dem/der Betreuer(in) statt, einmal zur Vorbesprechung des Themas und einmal zur Besprechung der Folien. Außerdem wird es in der Mitte des Semesters einen Termin geben, in dem alle Gruppen in einer 5-minütigen Flash-Präsentation ihr Thema vorstellen, um Querverbindungen zu erkennen und die rechtzeitige Beschäftigung mit dem Thema sicherzustellen. Schließlich muss zu jedem Thema eine ca. 20 seitige Seminararbeit verfasst werden /Darstellung des bearbeiteten Klassifikationsverfahren sowie der implementierten Pipeline)..

Parallel zur konzeptionellen Durchdringung des Themas müssen alle Gruppen ein konkretes Textklassifikationsverfahren implementieren und im Rahmen eines Wettbewerbs evaluieren. Hierzu geben wir in der Mitte des Semesters verschiedene Trainingsdatensätze aus (Texte mit zugewiesenen Labeln). Jede Gruppe implementiert und trainiert damit einen Klassifikator (Text processing, feature selection, classifier etc.). Die Klassifikatoren müssen eine Standard-API implementieren und werden am Semesterende von den Betreuern bzgl. ihrer Genauigkeit auf Held-Back Daten evaluiert. Der implementierte Weg wird in Seminarvortrag and -ausarbeitung beschrieben.

Alle Termine in der Übersicht:

  • 21.4.17, 13-15 Uhr: Einführung und Themenvergabe, Raum: RUD 25, 3.113
  • Bis 12.5.2017: Treffen mit dem Betreuer zur Themenbesprechung und -eingrenzung
  • 19.5.2017: 5-min Präsentationen pro Gruppe
  • Bis 30.6.2017: Treffen mit Betreuer zur Besprechung der Folien
  • 3.7.17 - 9.7.17: Einsendung von Lösungen über Kaggle
  • 11+12.7.2017: Blockseminar, Raum TBA
  • Bis 30.8.2017: Abgabe Seminararbeit

Vorlagen


Zeitplan Blockseminar

Zeit: tba; Raum: tba
UhrzeitVortragendeThema


Themen

Einführende Literatur für alle Teilnehmer: F Sebastiani: Machine learning in automated text categorization, ACM computing surveys, 2002

Topic Vortragende(r) Betreuer Vortragstermin
21.4.17: Einführung Seminar Ulf Leser, Jurica Seva
28.4.17: Text Preprocessing Ulf Leser
Support Vector Machines Gudd, Wegge, Nguyen Jurica Seva 11.7.2017
k-Nearest Neighbors Tang, Stolte, Abegg Ulf Leser 12.7.2017
Decision Trees and Random Forests Heemann, Gastegger, Velinova Ulf Leser 11.7.2017
Artificial Neural Networks Zambelli, Köhn, Menzel Jurica Seva 11.7.2017
(Naive) Bayesian methods Wagner, Bauer, Löffler Ulf Leser 12.7.2017
(Logistic) Regression Meyer-Eschenbach, Herholz Ulf Leser 12.7.2017
Maximum Entropy Classifier