Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Seminar Angewandtes Text Mining

Philippe Thomas

 

Das Seminar behandelt verschiedene Anwendungen von Techniken des Text Mining. Der Fokus liegt auf konkreten Lösungsansätzen für aktuelle Probleme und umfasst Themen wie Relationsextraktion, Sentimentanalyse, Question Answering, Topic Models und Open Information Extraction. Angewandt werden die Verfahren auf klassischen (Zeitungs-)texten, wissenschaftlichen Veröffentlichungen, Blogs und Social Media, Twitter, etc.


Voraussetzungen

Das Seminar setzt Grundkenntnisse in Methoden des Maschinellen Lernens voraus (z.B. Modul Text Analytics)..


Schein und Anrechenbarkeit

Voraussetzung für den Schein ist:

  • das Halten eines wissenschaftlichen Vortrags,
  • das Erstellen einer schriftlichen Ausarbeitung (Seminararbeit)
  • die einmalige Übernahme der "Opponentenrolle" (siehe unten)

 

Anmeldung

Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über Goya.

 

Termine und Ablauf

Am Mittwoch, den 17.04.2013, findet von 15.00-17.00 Uhr die Einführungsveranstaltung statt, die für alle Teilnehmer verpflichtend ist. Dort werden die Themen erläutert und vergeben.

Das Seminar wird als Blockseminar am Ende des Semesters abgehalten. Jeder Student muss einen ca. 30+10 minütigen Vortrag über das zugewiesene Thema halten. Vorher muss der Betreuer mindestens zweimal getroffen werden, einmal zur Vorbesprechung des Themas und einmal zur Besprechung der Folien. Außerdem wird es einen Termin (TBA) geben, in dem alle Studenten in einer 5-minütigen Flash-Präsentation ihr Thema vorstellen, um Querverbindungen zu erkennen und die rechtzeitige Beschäftigung mit dem Thema sicherzustellen. Schließlich muss zu jedem Thema eine Seminararbeit verfasst werden.

Zu jedem Thema wird ein(e) Studierende(r) vorab als Opponent(in) ausgewählt. Der/Die Opponent(in) liest ebenfalls die zum Thema ausgegebene Literatur und bereitet für den Vortragstermin kritische Fragen zu deren Inhalt vor, die dann im Seminar diskutiert werden. Ziel ist nicht das Aufdecken von Verständnisproblemen beim Vortragenden, sondern die kritische Auseinandersetzung mit dem Thema.

Zusätzlich zu der speziellen Literatur, über die die Vorträge gehalten werden, gibt es für alle Teilnehmer verpflichtende Einführungslektüre.

Alle Pflichttermine in der Übersicht:

  • Mittwoch 17.04.2013, 15.15-17.00 Uhr, Rudower Chaussee 26, 1'307: Einführung und Themenvergabe
  • Bis spätestens 15.5 erstes Treffen mit Betreuer
  • 15.5, 15.00-17.00 Uhr, Rudower Chaussee 26, 1'307: Flash-Präsentationen
  • Spätestens 28.6, Individuelle Folienbesprechung mit dem Betreuer
  • 3.7, 10.00-17.00 Uhr, Rudower Chaussee 26, 1'307: : Blockseminar I (Vorträge)
  • TBA, 15.00-17.00 Uhr, Blockseminar II (Vorträge)
  • 24.7.2013: Abgabe der Seminararbeit

Folien

13.3.2013 Teil1.pdf
13.3.2013 Teil2.pdf

Vorlagen

 

Geplante Vortragsreihenfolge

3.7, 11.00 (s. t.!) - 18.00 Uhr, Rudower Chaussee 25, 3.113:
Thema Vortragende/r Time slot
Voynich ManuscriptValencia11:15-12:00
Sarcasm DetectionSänger12:00-12:45
Rapid Pattern MiningSchulze12:45-13:30
Transfer Learning for REMatzker14:30-15:15
Distant SupervisionBärhold15:15-16:00
Sentence SimplificationManthey16:00-16:45
Open REBinder16:45-17:30

Themengebiete (Einführungslektüre)

Ereignisentdeckung mit Twitter Vortragende/r Opponent Betreuer
1 Tetsuro Takahashi, Shuya Abe, and Nobuyuki Igata. 2011. Can twitter be an alternative of real-world sensors?. In Proceedings of the 14th international conference on Human-computer interaction: towards mobile and intelligent interaction environments - Volume Part III (HCII'11), Julie A. Jacko (Ed.), Vol. Part III. Springer-Verlag, Berlin, Heidelberg, 240-249. (aus dem HU-Netz abrufbar) Lars Döhling
Georeferenzierung in Flickr      
2 Maarten Clements, Pavel Serdyukov, Arjen P. de Vries, and Marcel J.T. Reinders. 2010. Using flickr geotags to predict user travel behaviour. In Proceeding of the 33rd international ACM SIGIR conference on Research and development in information retrieval (SIGIR '10). ACM, New York, NY, USA, 851-852.
Maarten Clements, Pavel Serdyukov, Arjen P. de Vries, and Marcel J. T. Reinders. 2010. Finding Wormholes with Flickr Geotags. In Proceedings of the 32nd European Conference on Information Retrieval (ECIR'2010), Milton Keynes, UK, pp.658-661.
Lars Döhling
Sarcasm      
3 Carvalho, P., Sarmento, L., Silva, M. J. and de Oliveira, E. 2009 Clues for detecting irony in user-generated contents: oh...!! it's so easy. In Proceeding of the 1st international CIKM workshop on Topic-sentiment analysis for mass opinion 2009, 53-56.
Reyes, A., Rosso, P. and Buscaldi, D. 2012 From humor recognition to irony detection: The figurative language of social media. Data Knowl. Eng., Elsevier Science Publishers B. V., *2012*, Vol. 74, pp. 1-12
Tsur, O., Davidov, D. and Rappoport, A. 2010 ICWSM – A Great Catchy Name: Semi-Supervised Recognition of Sarcastic Sentences in Online Product Reviews. In Proceeding of AAAI 2010
Sänger Matzker Philippe Thomas
Semi Supervised Learning      
4 Pan, Sinno Jialin, and Qiang Yang. 2010 A Survey on Transfer Learning . Knowledge and Data Engineering, IEEE Transactions on 22.10 (2010): 1345-1359.
David McClosky, Eugene Charniak, and Mark Johnson. 2006 Effective Self-Training for Parsing . Proceedings of the Conference on Human Language Technology and North American chapter of the Association for Computational Linguistics (HLT-NAACL 2006)
David McClosky, Eugene Charniak, and Mark Johnson 2010 Reranking and Self-Training for Parser Adaptation. Proceedings of the Association for Computational Linguistics (COLING-ACL 2006)
Philippe Thomas and Tim Rocktäschel
5 Pan, Sinno Jialin, and Qiang Yang. 2010 A Survey on Transfer Learning . Knowledge and Data Engineering, IEEE Transactions on 22.10 (2010): 1345-1359.
David McClosky, Eugene Charniak, and Mark Johnson 2010 Automatic Domain Adapatation for Parsing.. Proceedings of the NAACL 2010
    Philippe Thomas
6 M. Mintz, S. Bills, R. Snow, and D. Jurafsky. 2009. Distant supervision for relation extraction without labeled data.. In Proceedings of ACL/AFNLP 2009: 1003-1011
R. Hoffmann, C. Zhang, and D. Weld. 2010 Learning 5000 relational extractors. . In Proceedings of ACL’10
Bärhold Schulze Philippe Thomas
Named Entity Recognition      
7 Caporaso JG, Baumgartner WA, Randolph DA, Cohen KB, Hunter L. 2007 Rapid pattern development for concept recognition systems: application to point mutations. . In J Bioinform Comput Biol. 2007 Dec;5(6):1233-59.
Schulze Bärhold Philippe Thomas
8 Roman Klinger, Corinna Kolářik, Juliane Fluck, Martin Hofmann-Apitius, and Christoph M. Friedrich. 2008 Detection of IUPAC and IUPAC-like Chemical Names. Bioinformatics, 24(13):i268-i276, 2008.
R. Leaman and G. Gonzales BANNER: an executable survey of advances in biomedical named entity recognition. In Proceedings of Pac Symp Biocomput. 2008:652-63.
    Philippe Thomas and Tim Rocktäschel
Relationship Extraction      
17 Antti Airola*, Sampo Pyysalo, Jari Björne, Tapio Pahikkala, Filip Ginter and Tapio Salakoski 2008 All-paths graph kernel for protein-protein interaction extraction with evaluation of cross-corpus learning. BMC Bioinformtics
    Philippe Thomas
9 Ekaterina Buyko, Erik Faessler, Joachim Wermter and Udo Hahn 2011 Syntactic Simplification and Semantic Enrichment - Trimming Dependency Graphs for Event Extraction . In Computational Intelligence, Vol. 27, Issue 4, pages 610 - 644
Manthey Binder Philippe Thomas
10 Haibin Liu, Vlado Keselj, and Christian Blouin 2013 Biological Event Extraction using Subgraph Matching. Computational Intelligence, in press.
Haibin Liu, Vlado Keselj, Christian Blouin and Karin Verspoor, 2012 Subgraph Matching-based Literature Mining for Biomedical Relations and Events. n Proceedings of AAAI 2012 Fall Symposium on Information Retrieval and Knowledge Discovery in Biomedical Text, Arlington, VA, USA, November 2012.
Philippe Thomas
11 Pan, Sinno Jialin, and Qiang Yang. 2010 A Survey on Transfer Learning . Knowledge and Data Engineering, IEEE Transactions on 22.10 (2010): 1345-1359.
Makoto Miwa, Rune Sætre, Yusuke Miyao, Jun'ichi Tsujii 2009 A Rich Feature Vector for Protein-Protein Interaction Extraction from Multiple Corpora. . In Proceedings of EMNLP 2009: 121-130
Matzker Valencia Philippe Thomas
12 Oren Etzioni, Anthony Fader, Janara Christensen, Stephen Soderland and Mausam 2011 Open Information Extraction: the Second Generation. International Joint Conference on Artificial Intelligence, 2011
Mausam, Michael D Schmitz, Robert E. Bart, Stephen Soderland and Oren Etzioni 20122011 Open Language Learning for Information Extraction . Conference on Empirical Methods in Natural Language Processing, 2012.
Binder Manthey Philippe Thomas and Tim Rocktäschel
Other topics      
13 Sujith Ravi and Kevin Knight 2011 Bayesian Inference for Zodiac and Other Homophonic Ciphers. In Proceedings of ACL 2011
Sujith Ravi and Kevin Knight 2012 Decoding Running Key Ciphers In Proceedings of ACL 2012
    Philippe Thomas and Tim Rocktäschel
14 Sravana Reddy and Kevin Knight 2011 What We Know About The Voynich Manuscript. In Proceedings of ACL 2011
K. Bretonnel Cohen, Helen L. Johnson, Karin Verspoor, Christophe Roeder, and Lawrence E. Hunter (2010)The structural and content aspects of abstracts versus bodies of full text journal articles are different BMC Bioinformatics 11:492.
Valencia Sänger Philippe Thomas
15 Alon Halevy, Peter Norvig, and Fernando Pereira, 2009The Unreasonable Effectiveness of Data. In ntelligent Systems, IEEE, 2009
Shane Bergsma, Emily Pitler, and Dekang Lin 2010 Creating Robust Supervised Classifiers via Web-Scale N-Gram Data . In Proceedings of ACL 2010
    Philippe Thomas
16 M. Marchetti-Bowick et al. (2012). Learning for Microblogs with Distant Supervision: Political Forecasting with Twitter. In Proceedings of ACL 2012
Philippe Thomas