Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Forschungsseminar WS 06/07

Arbeitsgruppe Datenbanken und Informationssysteme | Arbeitsgruppe Wissensmanagement in der Bioinformatik

Neue Entwicklungen im Datenbankbereich und in der Bioinformatik

Prof. Johann-Christoph Freytag und Prof. Ulf Leser

Die Planung für das Sommersemester 2007 finden Sie hier.
  • wann? Dienstags, 13-15 Uhr
  • wo? RUD25, 3.101

Dieses Seminar wird von den Mitgliedern der beiden Arbeitsgruppen als Forum der Diskussion und des Austauschs genutzt. Studenten und Gäste sind herzlich eingeladen.

Folgende Termine und Vorträge sind bisher vorgesehen:

Datum Thema Vortragende(r)
17.10.06 DARQ: Federated Queries with SPARQL Bastian Quilitz
24.10.06 An Architecture for Emergent Semantics
(Probevortrag)
Sven Herschel, Ralf Heese, Jens Bleiholder
26.10.06 (Donnerstag)
14.00 Uhr,
Humboldt-Kabinett
Visuelle Graphanfragen für biologische Netzwerke
(Diplomarbeit)
Stephan Ahl
31.10.06 Query Graph Model for SPARQL
(Probevortrag)
Ralf Heese
02.11.06 (Donnerstag)
15.00 Uhr
RUD 26, 0'307
Describing Differences between Databases
(Probevortrag)
Heiko Müller
7.11.06 Konservierte Cluster in Protein-Protein-Interaktionsnetzwerken
(Masterarbeit)
Samira Jaeger
14.11.06 Phylogenie von Graphen - Ähnlichkeit metabolischer Netzwerke Christian Brandt
28.11.06 Indexstrukturen für Graphen zur Unterstützung von Erreichbarkeits- und Distanzanfragen in Datenbanken
(Diplomarbeit)
Christoph Wagner
30.11.06
14.00 c t
Humboldt-Kabinett
Analyse und Visualisierung biologischer Netzwerke Falk Schreiber
12.12.2006 Disambiguierung von biomedizinischen Termen mit Unterstützung maschineller Lernverfahren
(Diplomarbeit)
Torsten Schiemann
09.01.2007 Ausführung und Visualisierung von Workflows aus Semantic-Web-Diensten in OWL-S Jan Hegewald
16.01.2007 DESWAP - Development Environment for Semantic Web Application Martin Kost
18.01.2007
15.00 c.t.
Humboldt-Kabinett
Iterative Algorithmen zur Duplikaterkennung in Bäumen und Graphen und deren Anwendung auf XML Melanie Weiss
23.01.2007 Projektmanagement für Nachwuchswissenschaftler Artin Avanes
06.02.2007 Fence Monitoring - An Experimental Evaluation of a Use Case for Wireless Sensor Networks Kirsten Terfloth
13.02.2007
15.00 c.t.
Humboldt-Kabinett
Extracting Protein-Protein-Interactions from Text Joerg Hakenberg
27.02.2007 Fully automatic extraction of protein-protein interaction from all of Medline Quang Long Nguyen
09.03.2007
15.00 Uhr
RUD25 3.113
Clustering phenotypes - an ongoing challenge Philip Groth
20.03.2007
15:00 Uhr
RUD25 3.113
Data-Warehouse- und Mapping-basierte Datenintegrationsplattformen in der Bioinformatik Toralf Kirsten
27.03.2007
15.00 Uhr
RUD25 3.113
Modellierung und Lernen von Web-Interface-Patterns Thomas Kabisch

Zusammenfassungen

DARQ - Federated Queries with SPARQL (Bastian Quilitz)

Ergebnisse der Arbeit als Praktikant in den Hewlett-Packard Labs:
Many semantic web applications require integration of data from diverse sources. With SPARQL, a W3C Candidate Recommendation for an RDF query language and protocol, it becomes possible to make RDF data available through a service and query it using a standard interface. The data does not have to be stored in RDF but can be created on the fly, e.g. from an SQL database or other non-RDF datastores with tools such as D2R Server or SquirrelRDF. However, it is difficult to integrate and query data from multiple services.
In this talk, we present DARQ, a query engine for federated SPARQL queries. DARQ provides transparent query access to distributed SPARQL services as if querying a single RDF graph. We introduce service descriptions that describe the capabilities of a SPARQL service and a basic query optimization algorithm that builds a feasible and cost-effective query plan considering limitations on access patterns.

An Architecture for Emergent Semantics (Sven Herschel, Ralf Heese, and Jens Bleiholder)

Emergent Semantics is a new paradigm for inferring semantic meaning from implicit feedback by a sufficiently large number of users of an object retrieval system. In this paper, we introduce a universal architecture for emergent semantics using a central repository within a multi-user environment, based on solid linguistic theories. Based on this architecture, we have implemented an information retrieval system supporting keyword queries on standard information retrieval corpora. Contrary to existing query refinement strategies, feedback on the retrieval results is incorporated directly into the actual document representations improving future retrievals.
An evaluation yields higher precision values at the standard recall levels and thus demonstrates the effectiveness of the emergent semantics approach for typical information retrieval problems.

Visuelle Graphanfragen für biologische Netzwerke (Stephan Ahl)

In der modernen Biologie sind die Signalübertragungen innerhalb und zwischen Zellen, die Regulationen von Genexpressionen oder die generellen Interaktionen zwischen Molekülen wichtige Forschungsgebiete. Deren untersuchte Inhalte werden als Netzwerke oder Graphen modelliert. Viele Fragestellungen der Biologie lassen sich auf das Finden von Untermengen dieser Graphen zurückführen. Eine Analyse und Wissensgenerierung anhand dieser Netzwerke ist aufgrund der hohen Datenaufkommen ohne visuelle Hilfsmittel nur schwer möglich.
Eine einfache Sprache ist erforderlich, die es dem Biologen unabhängig von seiner speziellen Anwendung erlaubt, visuell nach eingeschränkten Untermengen eines Graphen zu suchen.

Query Graph Model for SPARQL (Ralf Heese)

Several query language for RDF have been proposed before the World Wide Web Consortium started to standardize SPARQL. Due to the declarative nature of the proposed query languages, a query engine is responsible to choose an efficient evaluation strategy. Although all of the RDF repositories provide query capabilities, some of them disregard declarativeness during query evaluation.
In this paper, we propose a query graph model (QGM) for SPARQL supporting all phases of query processing. On top of the QGM we defined transformations rules to simplify the query specification as a preliminary step of query execution plan generation. Furthermore, the query graph model can easily extended to represent new concepts.

Describing Differences between Databases (Heiko Müller)

We study the novel problem of efficiently computing the update distance for a pair of relational databases. In analogy to the edit distance of strings, we define the update distance of two databases as the minimal number of set-oriented insert, delete and modification operations necessary to transform one database into the other. We show how this distance can be computed by traversing a search space of database instances connected by update operations. This insight leads to a family of algorithms that compute the update distance or approximations of it. In our experiments we observed that a simple heuristic performs surprisingly well in most considered cases. Our motivation for studying distance measures for databases stems from the field of scientific databases. There, replicas of a single database are often maintained at different sites, which typically leads to (accidental or planned) divergence of their content. To re-create a consistent view, these differences must be resolved. Such an effort requires an understanding of the process that produced them. We found that minimal update sequences of set-oriented update operations are a proper and concise representation of systematic errors, thus giving valuable clues to domain experts responsible for conflict resolution.

Konservierte Cluster in Protein-Protein-Interaktionsnetzwerken (Samira Jaeger)

Eine der bedeutendsten Herausforderungen in der postgenomischen Biologie ist das Verständnis komplexer Netzwerke interagierender Proteine, Gene und kleiner Moleküle. Diese Netzwerke geben Aufschluss über biologische Strukturen und Funktionen. Neueste Entwicklungen in der molekularen Biologie liefern eine neue Art von experimentellen Daten, die die Beziehung und Interaktion von Biomolekülen beschreiben. Diese biomolekularen Interaktionsdaten werden auch als biologische oder zelluläre Netzwerke bezeichnet. Protein-Protein-Interaktionen (PPIs) bilden die Grundlage für alle biologischen Prozesse und sind speziell in Signaltransduktionskaskaden, Metabolismen und im Aufbau funktioneller Proteinkomplexe entscheidend für die Funktion von Zellen. Anhand von PPI-Netzwerken verschiedener Spezies können Vergleiche durchgeführt werden, mit deren Hilfe evolutionäre Verwandtschaften und Differenzen zwischen Netzwerkstrukturen verschiedener Spezies und spezifische Genregulationsmuster untersucht sowie die biologische Funktion bestimmter Proteine vorhergesagt werden können. Im Rahmen dieser Masterarbeit wird ein Algorithmus vorgestellt, der die Identifizierung konservierter Interaktionen und Subgraphen zwischen PPI Netzwerken verschiedener Spezies ermöglicht. Detektierte konservierte Cluster werden anschließend mit Hilfe funktionaler Annotationen evaluiert. Anhand ausgewählter Cluster wird die Möglichkeit der Übertragung funktionaler Annotationen untersucht.

Phylogenie von Graphen - Ähnlichkeit metabolischer Netzwerke (Christian Brandt)

Es gibt verschiedene Methoden zur Rekonstruktion der Abstammungsgeschichte einer Menge von Arten. Sie basieren bespielsweise auf unterschiedlichen Ausprägungen von Merkmalen, auf Genomvergleichen oder Vergleichen der Proteinsequenz. Da auch die metabolischen Netzwerke evolutionären Veränderungen unterliegen, sollte es möglich sein, durch den Vergleich der Netzwerke untereinander, phylogenetische Bäume abzuleiten. Die verwendete phylogenentische Methode Neighbor-Joining ist distanzbasiert. Benötigt wird also ein Abstandsmaß zwischen Netzwerken. In der Studienarbeit wurden drei verschiedene Abstandsmaße implementiert. Anhand einer Auswahl metabolischer Netzwerke verschiedener Organismen aus der Kyoto Encyclopedia of Genes and Genomes (KEGG) wurde die Leistungsfähigkeit der Distanzmaße in Bezug auf die generierten phylogenetischen Bäume untersucht. Dafür wurde als Vergleichsbaum die biologische Systematik gewählt.

Indexstrukturen für Graphen zur Unterstützung von Erreichbarkeits- und Distanzanfragen in Datenbanken (Christoph Wagner)

Aufgrund immer größer werdender und besser aufgeklärter metabolischer Netzwerke kommt dem effizienten Zugriff auf graphstrukturierte Daten und entsprechenden Anfragealgorithmen eine gesteigerte Bedeutung in der Biologie zu. Bislang werden Anfragen an graphstrukturierte Daten von existierenden Datenbankmanagementsystemen nur unzureichend unterstützt. In der Diplomarbeit wird eine neue Indexstruktur namens "Tree 2-Hop Cover" entwickelt, mit der die Erreichbarkeit von Knoten in einem gerichteten Graphen ermittelt werden kann. Diese baut auf "2-Hop Cover", einem Ansatz von Cohen et al., auf und verknüpft diesen mit den bekannten Konzepten der starken Zusammenhangskomponenten und der spannenden Bäume. Mit dieser Indexstruktur kann ein Index erzeugt werden, der einen theoretisch sehr viel geringeren Platzbedarf hat als das ursprüngliche 2-Hop Cover. Die neue Indexstruktur wird anhand von Experimenten getestet und mit 2-Hop Cover verglichen. Mit dem ursprünglichen 2-Hop Cover Algorithmus können auch Distanzen indiziert werden. Die Berechnung dieser Indexstruktur kann durch Partitionierung des Graphen wesentlich erleichtert werden. Zum Erzeugen der Partitionen wird ein Partitionierungsalgorithmus verwendet, der auf Simulated Annealing beruht. Der Einfluß der Partitionierung auf die Indexgröße und die Berechnungszeit wird systematisch ausgewertet. Des weiteren wird in dieser Arbeit gezeigt, dass die Anfragezeiten in relationalen Datenbanken sowohl für das 2-Hop Cover als auch für das in der Arbeit entwickelte Tree 2-Hop Cover von der Graphengröße relativ unabhängig und damit näherungsweise konstant sind.

Analyse und Visualisierung biologischer Netzwerke (Falk Schreiber)

Biologische Daten (z.B. Expressions- und Metabolit-Daten) stehen oft in Beziehung zu Netzwerken (z. B. Stoffwechselwege, Regulations- und Interaktionsnetze) oder lassen sich durch Netzwerke repräsentieren. Visuelle Analyse- und Explorationsmethoden helfen Wissenschaftlern,neue Erkenntnisse aus diesen Daten zu gewinnen und sind damit Grundlage entsprechender Forschungswerkzeuge. Entsprechende Ansätze haben in den letzten Jahren an Bedeutung gewonnen, da heutzutage experimentelle Daten in großem Umfang erhoben werden können. Biologische Netzwerke können als Graphen modelliert und mittels Netzwerkanalysemethoden und Graphzeichenverfahren untersucht und dargestellt werden. Fragestellungen der Analyse und Visualisierung biologischer Netzwerke führen damit oft zu konkreten algorithmischen Problemen. Der Vortrag gibt eine Einführung in die netzwerkbezogene Auswertung biologischer Daten und präsentiert Beispiele zur Analyse und Visualisierung biologischer Netzwerke. Exemplarisch werden algorithmische Fragestellungen beim Vergleich von Netzwerken detailliert betrachtet. Dabei geht es um die anschauliche Darstellung von Gemeinsamkeiten und Unterschieden in verwandten Netzwerken, beispielsweise in Stoffwechselwegen verschiedener Organismen.

Disambiguierung von biomedizinischen Termen mit Unterstützung maschineller Lernverfahren (Torsten Schiemann)

Bei der automatischen Identifizierung von Eigennamen in Publikationen der Lebenswissenschaften treten häufig Mehrdeutigkeiten auf, die zu einer erheblichen Verringerung der Erkennungsgenauigkeit führen. Diese Diplomarbeit beschäftigt sich mit der Erkennung von mehrdeutigen Termen und der Zuordnung dieser Terme nach biologischen Klassen mithilfe eines Disambiguierungsverfahrens. Für die Zusammenstellung von potentiell mehrdeutigen Termen werden klassenspezifische Wortlisten herangezogen. Besonders schwierig sind dabei die Terme zu finden, die zugleich eine biologische Entität und ein Konzept der üblichen englischen Sprache benennen. Daher ist die Analyse und die Korrektur der resultierenden Ergebnismenge notwendig. Der eigentliche Kern der Disambiguierung beinhaltet ein korpusbasiertes maschinelles Lernverfahren, das ein Term mithilfe des Kontextes einer Entitätsklasse zuordnet. Für das Verfahren ist eine ausreichende Anzahl von Trainingsbeispielen notwendig. Die automatische Zusammenstellung dieser Beispiele ist ein weiterer wesentlicher Aspekt dieser Diplomarbeit. Da jeder Term ein Disambiguierungsproblem darstellt, ergibt sich für jeden ein Parameter zur Beschreibung der Güte. Der arithmetische Mittelwert der einzelnen Treffergenauigkeiten ist 0,87 und für 50\% der Fälle größer als 0,93.

Ausführung und Visualisierung von Workflows aus Semantic-Web-Diensten in OWL-S (Jan Hegewald)

Ziel dieser Diplomarbeit ist es aus elementaren Diensten komponierte Workflows auszuführen und zu visualisieren. Die Workflow-Beschreibungen werden aktuell beispielsweise im Projekt DESWAP erzeugt. Dort können Anwendungen des Semantic Web formal aus elementaren Diensten zusammengestellt, aber noch nicht tatsächlich ausgeführt werden. Diese Zusammenstellungen als Workflows bestehen aus OWL-S-Diensten, die ein WSDL-Grounding besitzen und mit den aus der Geschäftsprozessmodellierung bekannten Konstrukten in OWL-S komponiert sind. Neben der Ausführung der Serviceaufrufe soll der gesamte Workflow visualisiert und dabei der aktuelle Zustand hervorgehoben werden. Zunächst sollen bestehende Ansätze recherchiert und bewertet werden. Diese sind auch daraufhin zu überprüfen, ob sie als Grundlage für eine eigene Umsetzung dienen können. Anschließend soll eine geeignete Lösung implementiert werden.

DESWAP - Development Environment for Semantic Web Application (Martin Kost)

Im Rahmen der W3C-Initiative "Semantic Web" wird die Entwicklung von Technologien gemeinsam von Wissenschaft und Wirtschaft vorangetrieben. Viele Software-Bausteine wie Reasoner, Ontologie-Matcher sind schon entwickelt, noch mehr werden folgen. Mit dem Technologie-Stack (Berners-Lee 2001) wurde gezeigt, welche Technologien für das Semantic Web benötigt werden. Heutzutage werden viele Semantic-Web-Anwendungen entwickelt, welche auf diesen Bausteinen aufbauen, wobei sie meist geschlossene Intranet-Anwendungen darstellen. Diese Bausteine lösen verschiedenste Teilprobleme. Ihre Vielfalt, welche weiter steigen wird, ist schwer zu durchdringen. Mit der webbasierten Entwicklungsumgebung DESWAP (Development Environment for Semantic Web APplications) soll der Ent-wicklungsprozess für Semantic-Web-Anwendungen effizient unterstützt werden. Dabei müssen die unterschiedlichen Bausteine zusammen mit einer eigenen Anwendungslogik kombiniert werden. Als Community-Projekt ist es vorgesehen, dass Entwicklerinnen und Entwickler von Software (-Bausteinen) Informationen dazu über eine Web-Schnittstelle in DESWAP einstellen. Zur Unterstützung des Entwicklungsprozesses von Semantic-Web-Anwendungen sind drei Hauptfunktionalitäten in DESWAP vorgesehen: (1) Es werden Informationen zu Software-Bausteinen gesammelt, die insbesondere von den Entwicklern der Software über eine Web-Oberfläche eingegeben werden sollen, und per Suchfunktionen zur Verfügung gestellt. (2) Zu konzipierten Anwendungen können geeignete und zusammenpassende Bausteine, die die semantischen Probleme lösen können, bestimmt und fehlende bzw. noch zu entwickelnde Komponenten identifiziert werden. (3) Ausgewählten Bausteine können als Web Services gekapselt und zusammen mit der Anwendungslogik zur Anwendung integriert werden. DESWAP basiert auf mehreren Ontologien: beschreibende Informationen zu Software inkl. Klassifikation in verschiedene Kategorien sowie semantische Beschreibungen der angebotenen Funktionalitäten und ihrer Eigenschaften. Dadurch wird ein intelligentes Suchen und Finden zusammenpassender Software-Bausteine ermöglicht.

Iterative Algorithmen zur Duplikaterkennung in Bäumen und Graphen und deren Anwendung auf XML (Melanie Weiss)

Das Problem der Duplikaterkennung besteht darin, Datensätze in einer Datenquelle zu erkennen, die trotz unterschiedlicher Repräsentation das gleiche Objekt der realen Welt beschreiben. Verschiedene Repräsentationen entstehen zum Beispiel durch Rechtschreibfehler, Synonyme, etc. Die Erkennung von Duplikaten ist ein wichtiger Schritt der Datenintegration und in Datenreinigungsprozessen. Für relationale Daten, die in einer Tabelle gespeichert sind, wurden bereits zahlreiche Algorithmen zur automatischen Duplikaterkennung entwickelt. Jedoch liegt eine Vielzahl an Daten in komplexeren Schemata vor, die aus mehr als einer Relation bestehen und die Objekte nicht zwangsläufig durch immer gleich strukturierte Tupel beschreiben. Insbesondere gilt dies für Daten, die in XML hierarchisch und semi-strukturiert vorliegen. Für solche Daten existieren nur wenige Duplikaterkennungsansätze. Der Vortrag beschreibt von uns entwickelte Ansätze zur Duplikaterkennung in Daten, die in Form eines Baumes (z.B. hierarchische Daten in einem Data Warehouse) oder eines Graphen (z.B. XML mit key/keyref constraints) vorliegen. Zunächst gehen wir auf die Definition eines Ähnlichkeitsmaßes für Baum- und Graphdaten näher ein. Danach werden drei verschiedene Algorithmen vorgestellt, die Effizienz, Effektivität und Skalierbarkeit bei der Duplikaterkennung optimieren. Im letzten Teil wird das XClean System vorgestellt, das die vorgestellten Verfahren in einen XML Datenreinigungsprozess einbettet.

Projektmanagement für Nachwuchswissenschaftler (Artin Avanes)

Die heutige Arbeitswelt zeichnet sich vor allem durch das Arbeiten in zeitlich begrenzten, komplexen und zielgerichteten Projekten aus. Strukturiertes Projektmanagement – beginnend mit der Planung bis hin zur detaillierten Evaluation am Ende eines Projektes – ist daher unverzichtbar geworden, um den Erfolg solcher Projektarbeiten sicherzustellen. Nicht nur im außeruniversitären Bereich wird man mit Projekten konfrontiert, auch als Nachwuchswissenschaftler arbeitet man an verschiedenen "Projekt-Fronten". Nicht zuletzt die angestrebte Promotion stellt ein Projekt mit den oben genannten Eigenschaften dar. In diesem Vortrag werden die Ergebnisse des Golin-Workshops "Projektmanagement für Nachwuchswissenschaftler" zusammengefasst, welcher im Rahmen des Graduiertenkollegs "METRIK" stattfand. Dabei werden wichtige Methoden und Instrumente des Projektmanagements angesprochen, die nicht nur helfen sollen, die richtige Zielsetzung und Priorisierung von Projekten zu finden, sondern auch Strategien beinhalten wie man mit unvorhersehbaren Schwierigkeiten umgehen könnte.

Fence Monitoring - An Experimental Evaluation of a Use Case for Wireless Sensor Networks (Kirsten Terfloth)

In-network data processing and event detection on resource-constrained devices are widely regarded as distinctive and novel features of wireless sensor networks. The vision is that through cooperation of many sensor nodes the accuracy of event detection can be greatly improved. On the practical side however, little real-world experience exists in how far these goals can be achieved. In this talk, a small deployment of sensor nodes attached to a fence with the goal to collaborativly detect and report security relevant incidents is presented and obtained results will be discussed.

Extracting Protein-Protein-Interactions from Text (Joerg Hakenberg)

Aktuelle Erkenntnisse in den Lebenswissenschaften finden sich in Fachpublikationen wieder, weniger in strukturierten Datenbanken. Wir wollen solche Erkenntnisse automatisch aus Texten extrahieren und zu Netzwerken kombinieren. Um Texte zu "verstehen", verwenden wir Sprachmuster, welche eine Vielzahl möglicher textueller Beschreibungen einzelner Fakten abdecken. Durch den Vergleich von Mustern mit beliebigen Texten können wir die Bedeutung von Textstellen ableiten. Im Vortrag wird erläutert, wie wir derartige Sprachmuster automatisch finden und optimieren können, indem wir Informationen aus bereits existierenden, hochwertigen Annotationsdatenbanken ausnutzen. Der Vortrag zeigt anhand des Beispiels von Protein-Protein-Interaktionen die Komponenten und Evaluierungsergebnisse des implementierten Systems auf.

Fully automatic extraction of protein-protein interaction from all of Medline (Quang Long Nguyen)

Most information about interactions of proteins is hidden in millions of research articles published over the years, and the number is rapidly growing. Automaticlly extracting protein-protein interaction from literature is a challenging bioinformatics task. The group has developed a protein-protein interaction pipeline that automaticlly extracting a large sample of senteces from unannotated text, using them to generate consensus patterns and apply patterns to extract protein-protein interaction. It starts by gathering example sentences from all of MEDLINE using protein tokens extracted from the IntAct database. We are able to extract almost 180.000 examples for sentences that discuss protein-protein interactions. These sentences are transformed into an initial set of highly specific patterns that alone would form an extraction system with high precision but low recall. We refine a set of patterns into more general consensus patterns using multiple sentence alignment after hierarchical clustering. Last, we apply these patterns to arbitrary text, again using sentencens alignment. In the talk I report latest developments and the many difficulties one faces during the processing of large amounts of text.

Clustering phenotypes - an ongoing challenge (Philip Groth)

Phenotypes have received an increasing amount of attention in biomedical research. This is due to the fact that Phenotypes have been made available in high-througput screens like RNAi and are a valuable resource to identify gene functions which may lead to novel therapeutic approaches. In 2006, we have enhanced PhenomicDB, a multi-species genotype-phenotype resource, to hold phenotype data from high-throughput screens like RNAi and also added specialized ontolgies, like the Mammalian Phenotype Ontology. We are currently working on systems to directly compare phenotypes. We can show that phenotypes associated with the same gene are highly similar to one another. Enhancing this approach with data-mining technologies, we are currently working on groups of genes that derive from clusters of highly similar phenotypes. High-ranking gene groups yield a high coverage of pairwise interactions and highly similar annotations from the Gene Ontologies (GO). Currently, we can predict correct GO-Terms for genes from such groups with 43.1% recall and 33.9% precision. This is an ongoing work and we are currently working on improving clustering techniques and exploring new technologies for phenotype comparison.

Data-Warehouse- und Mapping-basierte Datenintegrationsplattformen in der Bioinformatik (Toralf Kirsten)

Im Fokus des Vortrages steht die Konzeption von zwei Plattformen zur Integration von Daten im Bereich der Bioinformatik, um eine effiziente und zielgerichtete Datenanalyse zu unter-stützen. Umfangreiche experimentelle Daten werden zentral in einer neuen Datenquelle, dem so genannten Genetic Data Warehouse (GeWare), zusammen mit experimentellen Metadaten und Daten ausgewählter und öffentlich verfügbarer Quellen gespeichert. Ein multidimensio-nales Datenmodell unterstützt insbesondere die Analyse der experimentellen Daten, während die experimentellen Metadaten – Daten, die ein Experiment aus ablauf- und aufbauorganisato-rischer Sicht dokumentieren und damit nachvollziehbar und reproduzierbar machen – durch den Benutzer in so genannten Annotations Templates erfasst werden. Mit diesen Templates kann die Dokumentation des Experiments jederzeit an neue bzw. veränderte Rahmenbedin-gungen angepasst werden, ohne dass damit Änderungen am zugrunde liegenden Datenmodell notwendig sind. Zur Integration ausgewählter öffentlich verfügbarer Datenquellen ist GeWare mit einem Mediator gekoppelt, der die Daten virtuell und bedarfsgesteuert unter Nutzung der in den Quellen explizit gespeicherten Beziehungen zwischen den Instanzen der einzelnen Da-tenquellen (Mappings) zusammenführt. Die BioFuice Plattform, nutzt Mappings, um Daten aus privaten und öffentlich verfügbaren Datenquellen sowie Ontologien im Bereich der Bioinformatik zu integrieren. Die Mappings repräsentieren Mengen von Korrespondenzen zwischen molekularbiologischen Objekten spe-zifischer Typen (z.B. Gen, Protein), die sowohl innerhalb einer als auch zwischen unter-schiedlichen Quellen bestehen können. Mengenbasierte Operatoren übernehmen die Ausfüh-rung der definierten Mappings und können in Skripts zur Abbildung von ad-hoc Workflows zusammengefasst werden. BioFuice bietet eine mächtige GUI, in der Anfragen verschiedenar-tig formuliert werden können, die hiernach in Skripte transformiert und ausgeführt werden. Darüber hinaus bietet BioFuice einen Datenexport in für die Bioinformatik spezifische Daten-formate; eine Schnittstelle zur statistischen Analyse in R ist im Entstehen. Die Plattformen GeWare und BioFuice wurden in verschiedenen Projekten verwendet und konnten die dort gestellten Anforderungen abdecken.

Modellierung und Lernen von Web-Interface-Patterns (Thomas Kabisch)

Web-Datenbanken sind nur über ein eingeschränktes Interface sichtbar, während ihr eigentliches Schema nach außen verborgen ist. Um auf derartige Datenquellen interoperabel zugreifen zu können, müssen Interface-Wrapper konstruiert werden. Aufgrund der starken Heterogenität von Web-Interfaces werden diese Wrapper bisher meist von Hand entwickelt und bei Änderungen aufwendig nachgeführt. Ziel ist daher eine weitestgehende Automatisierung dieses Prozesses. Es kann beobachtet werden, dass ein Großteil der Datenquellen innerhalb einer Domain auf wenige domainspezifische Web-Interface-Patterns zurückgeführt werden kann. Diese Patterns sind durch zwei Aspekte gekennzeichnet: ein domainenspezifisches Vokabular und bestimmte Layoutausprägungen bei der Gestaltung der Interfaces. Der Vortrag stellt ein modellgetriebenenes Vorgehen vor, diese Patterns zu beschreiben und aus einer Menge von Beispielinterfaces zu lernen. Es werden Metamodelle zur Beschreibung von Web-Intefaces eingeführt, die die beiden Aspekte Layout und ontologisches Wissen widerspiegeln. Für das Lernen der Patterns wird ein Clustering-basierter Ansatz verwendet.

Kontakt: Bastian Quilitz; quilitz(at)informatik.hu-berlin.de