Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Forschungsseminar Sommersemester 2005

"Neue Entwicklungen in der Bioinformatik und Informationsintegration"


Sven Puhlmann

Duplikaterkennung in XML Daten mit der Sorted Neighborhood Methode

In relationalen Daten ist die Sorted Neighborhood Methode (SNM) eine häufig angewandte Methode, um Duplikate effizient in großen Datenmengen aufzuspüren. In dieser Diplomarbeit sollte untersucht werden, wie sich die Vorteile der SNM auf geschachtelte XML Daten anwenden lassen, um in großen XML Datenmengen schnell Duplikate finden zu können.

Dazu wurde eine Theorie erarbeitet, die anschließend mit Java unter Verwendung eines relationalen DBMS implementiert wurde. Die für die Duplikaterkennung nötige Teilmenge der XML Daten wird in die Datenbank übertragen, die Teilaufgaben der Duplikaterkennung übernimmt. Weiterhin erfolgt eine Bottom-Up Duplikaterkennung: Duplikate in Nachkommen von XML Elementen helfen bei der Duplikaterkennung in diesen XML Elementen mit.

Zum Ende des Vortrags werden erste Evaluationsergebnisse für diese Sorted XML Neighborhood Method (SXNM) vorgestellt.