Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Text Analytics

Halbkurs im Wintersemester 2010/2011
Professor Ulf Leser

Der Halbkurs "Text Analytics" behandelt Methoden zur computergestützten Analyse von Texten. Themen reichen vom Information Retrieval (Suchmaschinen, Anfragesprachen, Indexierung, PageRank) über statistische Sprachverarbeitung / Computerlinguistik (Kollokationen, Sprachmodelle, Part-of-Speech Tagging, Disambiguierung) bis zum Text Mining (Dokumentklassifikation und -clustering, Informationsextraktion, Plagiaterkennung). Dabei werden sowohl algorithmische Grundlagen als auch konkrete Anwendungen behandelt.

Der Halbkurs wird durch ein Praktikum begleitet. Dieses vertieft die im Halbkurs gelernten Methoden durch praktische Umsetzung. In Gruppen werden verschiedene Probleme des Text Mining, oftmals unter Benutzung existierende Frameworks, gelöst.

Voraussetzungen

Voraussetzung für den Besuch sind grundlegende Kenntnisse in Algorithmen und gute Kenntnisse in Java.

Prüfungen

Prüfungen sind mündlich.

Anrechnung

Der Kurs (Vorlesung + Praktikum) kann angerechnet werden für
  • Diplominformatik, Halbkurs, 8SP

Literatur zur Vorlesung

  • Manning / Schütze: „Foundations of Statistical Natural Language Processing”, MIT Press, 1999. (At google books)
  • Baezo-Yates / Ribeiro-Neto: "Modern Information Retrieval", Addison-Wesley, 1999.
  • Weitere Literatur und Links

Themen und Termine im Einzelnen

(Folien sind hier jeweils vor der Vorlesung als PDF verfügbar. Änderungen möglich. All slides are English, but the course will be held in German).

Weitere Materialien

Ergänzende Literatur