Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Maschinelle Sprachverarbeitung

Professor Dr. Ulf Leser

Das Modul "Maschinelle Sprachverarbeitung" behandelt Methoden zur computergestützten Analyse von Texten. Nach einer kurzen Zusammenfassung grundlegender Techniken des Information Retrieval (Textrepräsentation, Suchalgorithmen, Indexierung) fokussiert es auf statistische Methoden zur Verarbeitung von Sätzen (Part-of-Speech Tagging, Disambiguierung, Parsing, Informationsextraktion) und von Texten (Dokumentklassifikation und -clustering). Teil der Vorlesung ist auch eine Einführung in grundlegende Methoden des maschinellen Lernens.

Erste Vorlesung ist am Montag, den 19.10.15.

Die Vorlesung wird durch eine Übung begleitet. Diese vertieft die gelernten Methoden durch praktische Umsetzung. In Gruppen werden verschiedene Probleme der maschinellen Sprachverarbeitung, teilweise unter Benutzung existierende Frameworks, gelöst.

Voraussetzungen

Voraussetzung für den Besuch sind gute Kenntnisse in "Algorithmen und Datenstrukturen" und in der Programmierung mit Java. Kenntnisse im Information Retrieval sind ebenfalls von Vorteil.

Prüfungen

Prüfungen sind mündlich oder schriftlich (je nach Teilnehmerzahl).

Anrechnung

Das Modul (Vorlesung + Übung) kann angerechnet werden für
  • Master Informatik, 5 SP
  • Master Wirtschaftsinformatik, 5 SP

Literatur zur Vorlesung

  • Manning, Schütze: "Foundations of Statistical Natural Language Processing", MIT Press, 1999

Themen und Termine im Einzelnen

Folien sind hier jeweils nach der Vorlesung als PDF verfügbar. Änderungen möglich. All slides are English, but the course will be held in German.


Weitere Materialien

Ergänzende Literatur

  • Feldmann, Sanger: "The Text Mining Handbook", Cambridge University Press, 1006
  • Heyer, Quasthoff, Wittig: "Text Mining: Wissensrohstoff Text", W3L-Verlag, 2006