Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Information Retrieval

Professor Dr. Ulf Leser

 

Das Modul "Information Retrieval" behandelt grundlegende Methoden zur Suche in (sehr grossen) Textsammlungen, insbesondere im Web. Vorgestellt werden Algorithmen und Verfahren zur Textvorverarbeitung, Anfragesprachen, Relevanzmodelle, Idexierung, und spezielle Probleme bei Web-Suchmaschinen. Am Ende der Vorlesung werden auch kleinere Ausflüge in die Computergestützte Sprachverarbeitung unternommen (Language Models, Word Sense Disambiguation). Immer werden sowohl algorithmische Grundlagen als auch konkrete Anwendungen behandelt.

Die Vorlesung wird durch eine Übung begleitet. Diese vertieft die gelernten Methoden durch praktische Umsetzung, teilweise unter Benutzung existierende Frameworks.

Voraussetzungen

Voraussetzung für den Besuch sind gute Kenntnisse in "Algorithmen und Datenstrukturen" und der Programmierung mit Java.

Prüfungen und Anrechenbarkeit

Die erste Prüfung erfolgt in Form einer Klausur. Der zweite Prüdungstermin wird mündlich erfolgen. Termine stehen noch nicht fest. Voraussetzung für die Anmeldung zur Klausur ist das Bestehen der Übung.

Literatur zur Vorlesung


Themen und Termine im Einzelnen

Zur Kommunikation und zur Veröffentlichung der Folien verwenden wir Moodle. Der Kursschlüssel wird in der Vorlesung und Übung bekanntgegeben.

Weitere Materialien

  • Apache Lucene, an open source full text search engine
  • Snowball is a small string processing language designed for creating stemming algorithms for use in Information Retrieval
  • Lists of stop words
  • Google's n-gram viewer

Ergänzende Literatur