Maschinelle Sprachverarbeitung
Das Modul "Maschinelle Sprachverarbeitung" behandelt Methoden zur computergestützten Analyse von Texten. Nach einer kurzen Zusammenfassung grundlegender Techniken des Information Retrieval (Textrepräsentation, Suchalgorithmen, Indexierung) fokussiert es auf statistische Methoden zur Verarbeitung von Sätzen (Part-of-Speech Tagging, Disambiguierung, Parsing, Informationsextraktion) und von Texten (Dokumentklassifikation und -clustering). Teil der Vorlesung ist auch eine Einführung in grundlegende Methoden des maschinellen Lernens.
Erste Vorlesung ist am Montag, den 19.10.15.
Die Vorlesung wird durch eine Übung begleitet. Diese vertieft die gelernten Methoden durch praktische Umsetzung. In Gruppen werden verschiedene Probleme der maschinellen Sprachverarbeitung, teilweise unter Benutzung existierende Frameworks, gelöst.
Voraussetzungen
Voraussetzung für den Besuch sind gute Kenntnisse in "Algorithmen und Datenstrukturen" und in der Programmierung mit Java. Kenntnisse im Information Retrieval sind ebenfalls von Vorteil.
Prüfungen
Prüfungen sind mündlich oder schriftlich (je nach Teilnehmerzahl).
Anrechnung
Das Modul (Vorlesung + Übung) kann angerechnet werden für- Master Informatik, 5 SP
- Master Wirtschaftsinformatik, 5 SP
Literatur zur Vorlesung
- Manning, Schütze: "Foundations of Statistical Natural Language Processing", MIT Press, 1999
Themen und Termine im Einzelnen
Folien sind hier jeweils nach der Vorlesung als PDF verfügbar. Änderungen möglich. All slides are English, but the course will be held in German.
- Overview
- Introduction to Information Retrieval
- Retrieval Models and Inverted Files
- Language Models (and IR)
- Part-of-Speech Tagging with HMMs
- Syntax-Parsing with PCFGs
- Text Classification: kNN, Naive Bayes, Maximum entropy, SVM
- Text Clustering: Hierarchical, k-Means, k-Medoid
- Named Entity Recognition (Update: 18.1.2016)
- Relationship Extraction
Weitere Materialien
- Apache Lucene, an open source full text search engine
- Lists of stop words
Ergänzende Literatur
- Feldmann, Sanger: "The Text Mining Handbook", Cambridge University Press, 1006
- Heyer, Quasthoff, Wittig: "Text Mining: Wissensrohstoff Text", W3L-Verlag, 2006