Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Vorlesung Text Analytics

Wintersemester 2012/2013
Professor Ulf Leser

Das Modul "Text Analytics" behandelt Methoden zur computergestützten Analyse von Texten. Themen reichen vom Information Retrieval (Suchmaschinen, Anfragesprachen, Indexierung, PageRank) über statistische Sprachverarbeitung / Computerlinguistik (Kollokationen, Sprachmodelle, Part-of-Speech Tagging, Disambiguierung) bis zum Text Mining (Dokumentklassifikation und -clustering, Informationsextraktion, Plagiaterkennung). Dabei werden sowohl algorithmische Grundlagen als auch konkrete Anwendungen behandelt.

Die Vorlesung wird durch eine Übung begleitet. Diese vertieft die im Halbkurs gelernten Methoden durch praktische Umsetzung. In Gruppen werden verschiedene Probleme des Text Mining, oftmals unter Benutzung existierende Frameworks, gelöst.

Voraussetzungen

Voraussetzung für den Besuch sind gute Kenntnisse in Algorithmen und in Java.

Prüfungen

Prüfungen sind mündlich.

Anrechnung

Der Kurs (Vorlesung + Praktikum) kann angerechnet werden für
  • Diplominformatik, Halbkurs, 8 SP
  • Master Informatik, 10 SP

Literatur zur Vorlesung


Themen und Termine im Einzelnen

Folien sind hier jeweils nach der Vorlesung als PDF verfügbar. Änderungen möglich. All slides are English, but the course will be held in German.


Beiträge von Studierenden


Weitere Materialien

Ergänzende Literatur

  • Wilcock, G. (2009): "Introduction to Linguistic Annotation and Text Analytics". Innerhalb der HU als PDF beziehbar.
  • Baezo-Yates, Ribeiro-Neto: "Modern Information Retrieval", Addison-Wesley, 1999.
  • Feldman, Sanger: "The Text Mining Handbook", Cambridge Press, 2007
  • Grossmann, Frieder: "Information Retrieval", Springer, 2004 (in parts at ).
  • Online-Lehrbuch Information Retrieval 1 (Grundlagen, Modelle und Anwendungen), Prof. Henrich, Universität Bamberg.