Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Klassifikation Biomedizinischer Texte

Mario Sänger

Textklassifikation, als Teilgebiet des Maschinellen Lernens, bezeichnet die Aufgabe, Texte automatisch vorgegebenen Klassen zuzuordnen - Beschwerdebriefe zu Sacharbeitern, News zu Themenbereichen, Mails zu spam/ham. Zu diesem Problem gibt es eine Vielzahl verschiedener Ansätze und Verfahren, von Bayes'schen Methoden über Support Vector Machines bis zu Neuronalen Netzen. In diesem Seminar werden Studierende jeweils einen Ansatz in Vortrag und Ausarbeitung genau darstellen sowie ihn auf eine Menge vorgegebener biomedizinischer Klassifikationsprobleme anwenden. Das Seminar hat das übergeordnete Ziel, die Eigenheiten der verschiedenen Verfahren kennenzulernen und im Rahmen eines Wettbewerbs zu vergleichen.

Das Seminar findet im wesentlichen als Blockseminar am Ende des Semesters statt. Im Vorfeld sind aber Einführungstermine und individuelle Themenbesprechungen zu besuchen sowie ein Zwischenstand in der Mitte des Semesters zu präsentieren. Für die Themen werden Teams von 2-3 Studierenden gebildet.

Die Einführungsveranstaltung findet am Donnerstag, den 23.04.2020, ab 13 Uhr c.t. statt. Die Veranstaltung wird im Rahmen einer Zoom-Webkonferenz durchgeführt. Die genaue Veranstaltungsinformationen und Zugangsdaten werden vorab per Email versendet. Die Einführungsveranstaltung ist für alle Teilnehmenden verpflichtend.

Voraussetzungen

  • Gute Kenntnisse in Algorithmen und Datenstrukturen (z.B. gleichnamige Vorlesung)
  • Gute Programmierkenntnisse
  • Erste Kenntnisse in Statistik und/oder Machine Learning (oder die Bereitschaft sich einzuarbeiten)

Anmeldung und Anrechenbarkeit

Das Seminar ist anrechenbar für

  • M.Sc. Informatik

Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über AGNES.

Voraussetzung für den Schein ist:

  • der Besuch der Einführungsveranstaltungen zur Themenvergabe,
  • die regelmäßige Kommunikation mit dem Betreuer,
  • eine Kurzpräsentation des Themas (etwa in der Mitte des Semesters),
  • das Halten eines wissenschaftlichen Vortrags im Blockseminar am Ende des Semesters,
  • Umsetzung eines Klassifikationsverfahrens inkl. Präsentation der Ergebnisse, und das Erstellen einer schriftlichen Ausarbeitung (Seminararbeit).

Termine

  • 23.04.2020 (13-15 Uhr): Einführungsveranstaltung (Online, Folien)
  • 30.04.2020 (13-15 Uhr): Vorlesung: Textverarbeitung und -repräsentation (Online, Folien (v2020-05-06))
  • 07.05.2020 (13-15 Uhr): Vorlesung: Grundlagen Maschinelles Lernen für NLP (Online, Folien (v2020-05-19))
  • KW26/27 (22.06.2020-03.07.2020): Test- und Evaluationsphase
  • KW28 (06.07.2020-10.07.2020): Blockseminar - Präsentation der Lösungen (Folien I,Folien II)
  • Bis 30.09.2020: Abgabe Seminararbeit

Vorträge

Das Blockseminar findet am 09.07. und 10.07.2020 im Rahmen einer Zoom-Onlinekonferenz statt.
Tag Uhrzeit Thema Gruppe
09.07.2020 10-12 Uhr Einführung ins Blockseminar
Support Vector Machine Ermshaus, Purzel, Eberlein
Naive Bayes Pannier, Tutak, Tichauer
14-16 Uhr Multi-Layer Feedforward Networks Fritze, Herrmann, Geisler
Convolutional Neural Networks Wang, Chen, Ring
Recurrent Neural Networks Sadullaev, Nguyen, Grushetskaya
10.07.2020 10-12 Uhr Pre-trained language models: Flair Truong, Le Thanh
Pre-trained language models: BERT Barth, Golde, Haller
Pre-trained language models: GPT-2 Kiesewetter, Muminovic

Themen

Nr. Bereich Thema Komplexität Gruppe
1 ML k-Nearest Neighbors (kNN) Niedrig
2 ML Support Vector Machines (SVM) Mittel Ermshaus, Purzel, Eberlein
3 ML (Naive) Bayesian methods (NB) Mittel/Hoch Pannier, Tutak, Tichauer
4 ML Decision Trees and Random Forests (DT/RF) Mittel
5 DL Neural networks: Feed Forward Networks (MLPs) Mittel Fritze, Herrmann, Geisler
6 DL Neural networks: Convolutional Neural Networks (CNNs) Mittel Wang, Chen, Ring
7 DL Neural networks: Recurrent Neural Networks (RNNs) Mittel Sadullaev, Nguyen, Grushetskaya
8 DL Neural networks: Pre-trained language models FLAIR Hoch Truong, Le Thanh
9 DL Neural networks: Pre-trained language models BERT Hoch Barth, Golde, Haller
10 DL Neural networks: Pre-trained language models GPT-2 Hoch Kiesewetter, Muminovic

Allgemeine Literaturhinweise:

  • Manning, Schütze: "Foundations of Statistical Natural Language Processing", MIT Press, 1999 (Online)
  • Manning, Raghavan, Schütze: "Introduction to Information Retrieval", Cambridge University Press, 2008. (Online)
  • Bishop: "Pattern recognition and machine learning", Springer, 2006 (Online)
  • Hastie, Tibshirani, Friedman: "The Elements of Statistical Learning", Springer, 2017, (Online)
  • Goodfellow, Bengio, Courville: "Deep learning", MIT press, 2016 (Online)

Ablauf

Im April/Mai wird es 2-3 Vorlesungen zu einführenden Themen geben (Grundlagen Textverarbeitung und -repräsentation, Grundlagen Klassifikationsverfahren).

Das Seminar wird als Blockseminar am Ende des Semesters abgehalten.

  • Jede Gruppe muss dort einen ca. 15-20 minütigen Vortrag über das zugewiesene Thema und das implementierte Verfahren (siehe unten) halten.
  • Vorher finden mindestens Treffen mit dem/der Betreuer(in) statt, einmal zur Vorbesprechung des Themas und einmal zur Besprechung der Folien.
  • Außerdem wird es in der Mitte des Semesters einen Termin geben, in dem alle Gruppen in einer 3-5-minütigen Flash-Präsentation ihr Thema vorstellen, um Querverbindungen zu erkennen und die rechtzeitige Beschäftigung mit dem Thema sicherzustellen.
  • Schließlich muss zu jedem Thema eine ca. 10-15 seitige Seminararbeit verfasst werden (u.a. Darstellung des bearbeiteten Klassifikationsverfahrens sowie der implementierten Verarbeitungspipeline).
  • Parallel zur konzeptionellen Durchdringung des Themas müssen alle Gruppen ein konkretes Klassifikationsverfahren implementieren und evaluieren. Hierzu geben wir in der Mitte des Semesters Trainingsdatensätze aus verschiedenen biomedizinischen Domänen aus.
  • Jede Gruppe implementiert und trainiert damit einen Klassifikationsverfahren (inkl. Preprocessing, Feature selection, Classifier etc.). Die Klassifikationsverfahren werden am Semesterende bzgl. ihrer Genauigkeit auf hold-out Test-Daten evaluiert. Das implementierte Verfahren wird in Seminarvortrag und -ausarbeitung beschrieben.