Praktikum Text Analytics
- Das Praktikum begleitet den Halbkurs Text Analytics
- Donnerstags, 13.00 c.t. - 15.00 Uhr
- RUD 26, 1.306
Erster Praktikumstermin ist der 17.4.2008. Dieser Termin ist Pflicht für alle Praktikumsteilnehmer.
In dem Praktikum werden ca. 5 verschiedene Aufgaben im Bereich des Information Retrieval bzw. des Text Minings zu lösen sein. Dazu werden wir eine Reihe öffentlich verfügbarer Tools (UIMA, OpenNLP etc.) benutzten und auf verschiedenen, teilweise recht großen Textsammlungen (Medline, Genia etc.) arbeiten. Die Arbeit erfolgt in Gruppen a 3 Studierenden.
Daneben müssen alle Teilnehmer einen 30-minütigen Vortrag halten. Die Vorträge werden an vier über das ganze Semester verteilten Terminen gehalten. Es gibt ca. 15 Themen; ggf. werden sie daher zu zweit bearbeitet. Die Themen sind praktisch orientiert und stellen Tools, Methoden, Ressourcen etc. dar; das Verfassen einer Ausarbeitung ist nicht notwendig.
Das Praktikum in einzelne Teilaufgaben gegliedert, die alle von jeder Gruppe bearbeitet werden müssen, allerdings oftmals auf unterschiedlichen Wegen (es wird Ausnahmen geben ...). Die Aufgaben werden an einem Praktikumstermin ausgegeben, und die Lösungen müssen 1-3 Wochen später von einem der Gruppenmitglieder im Rahmen eines kurzen Vortrags dargestellt werden. In dem Vortrag geht es vor allem auch darum, seine Erfahrungen mit den verwendeten Methoden und Werkzeugen zu kommunizieren.
Die einzelnen Aufgaben und Termine
Diese Liste "lebt" und ist in keiner Weise vollständig. Folien zu den Aufgaben und notwendige Daten werden hier veröffentlicht.- 17.4.2008: Erste Aufgabe ("googlen")
- 24.4.2008: Zweite Aufgabe (Fulltext-Retrieval)
-
- Link zum Testcorpus
- 15.5.2008: Dritte Aufgabe: Gen-Name
Tagging mit Dictionary und einem NLP-Tool
- Wir verwenden den Medline Korpus aus Assignment 2
- Stop-word-Liste
- Liste der Gennamen
- 5.6.2008: Vierte Aufgabe:
Part-Of-Speech Tagging und NER
- Neue Liste von Gennamen (mit Multi-Token-Namen)
- Trainingsdaten: annotiert, nicht annotiert
- Testdaten: nicht annotiert
- 3.7.2008: Fünfte Aufgabe: Sentence Pre-classification
- 17.7.2008: Abschluss
Vortragsthemen, Vortragende und Termine
- Details zu allen Themen
- 24.4.2008: Lucene (Jahn)
- 08.5.2008: OpenNLP, Beispiele (Starlinger, Rheinländer)
- 08.5.2008: GATE (Diessler, Hein)
- 08.5.2008: UIMA, Code-beispiele (Höfer, Grathwohl)
- 08.5.2008: LingPipe (Kibanow, Lange)
- 29.5.2008: The Deep Web (Bux, Mühl)
- 29.5.2008: Keyword Suche in RDBMS (Fechner, MüllerChristian)
- 29.5.2008: TREC (MüllerM, Neumann)
- 05.6.2008: Genia (Losem, Schirmann)
- 19.6.2008: Persistente Suffix Arrays (Eicher, Alberti)
- 19.6.2008: Biocreative 1+2 (Bicking)
- 10.7.2008: Indexierung regulärer Ausdrücke (Unger, Le)
- 10.7.2008: WordNet (Soyka, Berkholz)
- 17.7.2008: PubMed's "Related Articles" Funktionalität (Skelton, Rycko)