Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Seminar Moderne Methoden der Informationsintegration

Wintersemester 2009/2010
Prof. Dr. Ulf Leser

In dem Seminar werden aktuelle Themen aus dem Bereich der Informationsintegration behandelt. Diese zielen vor allem auf eine Reduktion der „Upfront“-Kosten, also auf eine schnellere und einfachere Realisierung von Integrationslösungen, deren eventuell zunächst mangelhafte Qualität Stück für Stück verbessert werden kann („Pay as you go“). Weitere Schwerpunkte sind die Integration von unstrukturierten Daten (Text, Informationsextraktion), Systeme zum Personal Information Management sowie die Einbeziehung von Web-Quellen.

Die Veranstaltung ist als Seminar in der praktischen Informatik anrechenbar. Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über Goya.

Termine und Ablauf

Am Mittwoch, den 21. Oktober 2009, findet von 15.00 c.t. bis 17.00 Uhr (Raum: 3.101) die Einführungsveranstaltung statt, die für alle Teilnehmer verpflichtend ist. Dort werden die Themen erläutert und an die interessierten Studenten vergeben.

Das Seminar wird als Blockseminar am Ende des Semesters abgehalten. Jeder Student (oder jede Gruppe von Studenten) muss einen ca. 30 minütigen Vortrag über das zugewiesene Thema halten. Außerdem wird es vor Weihnachten einen Termin geben, in dem alle Studenten in einer 5-minütigen Flash-Präsentation Ihr Thema vorstellen müssen, um Querverbindungen zu erkennen und die rechtzeitige Beschäftigung mit dem Thema sicherzustellen. Schließlich muss zu jedem Thema eine Seminararbeit verfasst werden. Zusätzlich zu der speziellen Literatur, über die die Vorträge gehalten werden, gibt es für alle Teilnehmer verpflichtende Einführungslektüre. Am Termin vor Weihnachten werden die dort vermittelten Kenntnisse im Rahmen einer kurzen Klausur überprüft. Das Bestehen der Klausur ist Voraussetzung für die weitere Teilnahme.

Alle Pflichttermine in der Übersicht:

  • 21.10.2009, 15.00-17.00 Uhr: Einführungstermin (Raum 3.101)
  • 15.11.2009 - 30.11.2009: Individuelle Themenbesprechung mit dem Betreuer
  • 18.12.2009, 10-12 Uhr, R 4.112: Flash-Präsentationen aller Themen sowie Klausur
  • 15.01.2010 - 31.01.2010: Individuelle Folienbesprechung mit dem Betreuer
  • 05.02.2010, 10.00 - 16.00 Uhr: Blockseminar, Raum 4.112
  • Bis 31.3.2010: Abgabe der Seminararbeit

Voraussetzungen für die Teilnahme

  • Abgeschlossenes Grundstudium
  • Grundkenntnisse in Informationsintegration
  • Gute Kenntnisse in Datenbanken
  • Lesen englischer Texte

Voraussetzungen für den Schein

  • Bestehen der Klausur über die Einführungstexte
  • Teilnahme an allen Terminen (Einführung, Kurzpräsentationen, Blockseminar)
  • Wahrnehmung der individuellen Termine mit dem Betreuer.
  • Ca. 30 min. Vortrag über das abgesprochene Thema
  • Selbständiges Erstellung einer Seminararbeit im Umfang von 10-20 Seiten; Abgabe mit unterschriebener Selbständigkeitserklärung (siehe unten)

Vorlagen

Themen


8 9
Thema
Literatur
Vortragende/r
Einführungslektüre (Pflicht)
  • [HFM06] Halevy, A., Franklin, M. and Maier, D. (2006). "Principles of Dataspace Systems". PODS, Chicago, USA.
  • [Wei07] Weikum, G. (2007). "DB&IR: both sides now". SIGMOD Beijing, China. pp 25-30.
Alle
Einführungslektüre (Empfohlen)
  • [HRO06] Halevy, A., Rajaraman, A. and Ordille, J. (2006). "Data Integration: The Teenage Years". Int. Conf. on Very Large Databases (VLDB), Seoul, South Korea.
  • [HAB+05] Halevy, A., Ashish, N., Bitton, D., Carey, M., Draper, D., Pollock, J., Rosenthal, A. and Sikka, V. (2005). "Enterprise Information Integration: Successes, Challenges, Controversies". SIGMOD, Baltimore, USA.
Alle
Einführungsveranstaltung
Folien Ulf Leser

Deep Web

Introduction
  • [CHL+04] Chang, K. C.-C., He, B., Li, C., Patel, M. and Zhang, Z. (2004). "Structured databases on the web: observations and implications." SIGMOD Record 33(3): 61-70.
 
Visual interface reconstruction
  • [ZHC04] Zhang, Z., He, B. and Chang, K. C.-C. (2004). "Understanding Web query interfaces: best-effort parsing with hidden syntax". SIGMOD Record, Paris, France.
 
Deep web integraton
  • [WYDM04] Wu, W., Yu, C., Doan, A. and Meng, W. (2004). "An interactive clustering-based approach to integrating source query interfaces on the deep Web". SIGMOD Paris, France.
 

Web Information Extraction

Declarative approaches
  • [SDNR07] Shen, W., Doan, A., Naughton, J. F. and Ramakrishnan, R. (2007). "Declarative Information Extraction Using Datalog with Embedded Extraction Predicates". Int Conf. on Very Large Databases, Vienna, Austria. pp 1033-1044.
Przewozny
Web-Scale IE
  • [ECD+04] Etzioni, O., Cafarella, M., Downey, D., Kok, S., Popescu, A.-M., Shaked, T., Soderland, S., Weld, D. S. and Yates, A. (2004). "Web-scale information extraction in knowitall". World Wide Web Conference, New York, USA. pp 100-110.
  • [BCS+07] Banko, M., Cafarella, M. J., Soderland, S., Broadhead, M. and Etzioni, O. (2007). "Open information extraction from the web". IJCAI, Hyderabad, India. pp 2670-2676."
Fiedler
HTML-to-records
  • [BGZ03] Bing, L., Grossman, R. and Zhai, Y. (2003). "Mining data records from Web pages". KDD.
Scheidereiter

Data Spaces

Introduction
  • [DBF+07] Dittrich, J.-P., Blunschi, L., Färber, M., René, O., Shant, G., Karakashian, K. and Vaz Salles, M. A. (2007). "From Personal Desktops to Personal Dataspaces: A Report on Building the iMeMex Personal Dataspace". BTW.
 
iTrails
  • [VSD+07] Vaz Salles, M. A., Dittrich, J.-P., Karakashian, S. K., Girard, O. R. and Blunschi, L. (2007). "iTrails: pay-as-you-go information integration in dataspaces". 33rd international conference on Very large data bases. pp 663-674.
Warmuth
Integration with User Feedback
  • [JFH08] Jeffery, S. R., Franklin, M. J. and Halevy, A. Y. (2008). "Pay-as-you-go user feedback for dataspace systems". SIGMOD Vancouver, Canada. pp 847-860
 

Semantic Web: SparQL, Linked Data, Ontologies

Linked Ontologies
  • [SKW08] Suchanek, F. M., Kasnecia, G. and Weikuma, G. (2008). "YAGO: A Large Ontology from Wikipedia and WordNet." Web Semantics 6(3): 203-217.
 
Linked Data
  • "[ABK+08] Auer, S., Bizer, C., Kobilarov, G., Lehmann, J., Cyganiak, R. and Ives, Z. G. (2007). ""DBpedia: A Nucleus for a Web of Open Data"". Int. Semantic Web Conference. pp 722-735.
  • [HBF09] Hartig, O., Bizer, C. and Freytag, J.-C. (2009). ""Executing SPARQL Queries over the Web of Linked Data"". Int. Semantic Web Conference, Washington, DC, USA. "
 

Structured and Unstructured Data

Entity Search
  • [CYC07] Cheng, T., Yan, X. and Chang, K. C. C. (2007). "EntityRank: searching entities directly and holistically". 33rd International Conference on Very Large Data Bases, Vienna, Austria. pp 387-398.
Kibanov
Entity Recognition structured/unstructured
  • [CGPM06] Chakaravarthy, V. T., Gupta, H., Prasan, R. and Mohania, M. (2006). "Efficiently linking text documents with relevant structured information". 32nd Int. Conf. on Very Large Data Bbases, Seoul, Korea. pp 667 - 678.
Krause

Schema Matching

Introduction
  • [Gal06] Gal, A. (2006). "Why is schema matching tough and what can we do about it?" SIGMOD Record 35(4): 2-5.
 
COMA++
  • [ADMR05] Aumueller, D., Do, H., Massmann, S. and Rahm, E. (2005). "Schema and ontology matching with COMA++". SIGMOD.
Zheng