Studien- und Diplomarbeiten

Studien- Bachelor-, Master- und Diplomarbeiten

Der Lehrstuhl vergibt ständig Themen in seinen Forschungsgebieten, insbesondere im den Bereichen:

  • Informationsintegration
  • Management und Analyse biomedizinischer Daten
  • Graphanfragen
  • Textdatenbanken
  • Text Mining und Informationsextraktion
Wenn Sie an einer Arbeit bei uns interessiert sind, wenden Sie sich bitte an Prof. Leser

Wir sind ausdrücklich offen für gemeinsame Arbeiten mit Firmen, Forschungsinstituten oder anderen Institutionen.

Aktuelle Themen

  • Master- or diploma thesis "Referential DNA database"

    This thesis will investigate the development of a database for human genome data. Although there is plenty of work on human genome databases, this project is unique in that it will store individual human DNA as referential snapshots with respect to a reference human genome.

    This strategy has several advantages (low memory footprint for individual genomes, no need to keep extended data structures for each genome in the database), but also poses several research challenges (implementation of updatable data structures for query answering).

    Disclaimer: a recognizable part of this thesis is to be spent on theoretical work first (survey about existing genome databases, investigation of possible queries to such a database, design decisions)! The thesis has to be written in english and the implementation should be either in Java or C++.

    If you are interested and would like to obtain further information, please get in touch with Sebastian Wandelt

  • Master- or diploma thesis "DNA Read compression with shingles"

    This thesis will investigate the development of a compression scheme for DNA reads. Given a (large) set of reads, the problem is too eliminate as many almost-redundant reads as possible, in order to reduce the amount of data. Naive compression can be performed by duplicate elimination. More sophisticated approaches can be focused on, e.g. 1)near-duplicate elimination, i.e. remove reads, which have a small edit distance to other reads in the data set, or 2) relative alignment of reads and referential compression. This thesis should focus on the second option.

    Disclaimer: a recognizable part of this thesis is implementation work! The thesis has to be written in english and the implementation should be either in Java or C++.

    If you are interested and would like to obtain further information, please get in touch with Sebastian Wandelt

  • Master- oder Diplomarbeit zum Thema "Algorithmen für massiv-parallele Ähnlichkeitssuche in einer Cloud "

    Im Fokus dieser Diplomarbeit stehen effiziente Algorithmen für Ähnlichkeitssuchen auf Strings. Dies ist ein hochaktuelles Thema, Anwendungen von Ähnlichkeitssuchen ergeben sich bei der Duplikaterkennung, Datenbereinigung und in der Bioinformatik. So werden Ähnlichkeitssuchen beispielsweise genutzt, um homologe Sequenzen zu entdecken oder Sequenzalignments auszuführen. Eine neue Herausforderung für effiziente Ähnlichkeitssuchen im Bereich der Bioinformatik ergibt sich aus dem exponentiellen Wachstum der Sequenzdatenbanken in den vergangenen Jahren. Daher werden neue Verfahren benötigt, die die Möglichkeiten des verteilten, massiv-parallelen Rechnens in einer Cloud ausnutzen.

    Ziel dieser Diplomarbeit ist, bereits existierende, bit-parallele Algorithmen für Ähnlichkeitssuchen auf Strings zu implementieren. Ein großer Vorteil von bit-parallelen Algorithmen zur Berechnung des Editabstands zweier Strings ist, dass sie die Berechnung der Editabstandsmatrix unter Verwendung von Bit-Manipulationen parallelisieren. Darüber hinaus soll eine geeignete Indexstruktur entwickelt werden, die es ermöglicht, Ähnlichkeitssuchen auf sehr großen Datenmengen effizient in einer Cloud auszuführen.

    Diese Diplomarbeit ist im Umfeld der DFG-geförderten Forschergruppe "StratoSphere" (www.stratosphere.eu) angesiedelt. In StratoSphere arbeiten fünf Lehrstühle der Technischen Universität, der Humboldt-Universität und des Hasso-Plattner-Instituts zusammen, um die neuen Möglichkeiten des Cloud Computings in Verbindung mit dem MapReduce-Programmierparadigma zur Analyse sehr großer Datenmengen zu untersuchen.

    Voraussetzungen für die erfolgreiche Umsetzung dieser Diplomarbeit sind gute Vorkenntnisse in String-Algorithmen und/oder verteilten Systemen sowie gute Java-Kenntnisse.

    Literatur:

    • Gonzalo Navarro and Mathieu Raffinot. 2002. Flexible Pattern Matching in Strings: Practical On-Line Search Algorithms for Texts and Biological Sequences. Cambridge University Press, New York, NY, USA. Seiten 145-184
    • Dominic Battré, Stephan Ewen, Fabian Hueske, Odej Kao, Volker Markl, and Daniel Warneke. 2010. Nephele/PACTs: a programming model and execution framework for web- scale analytical processing. SOCC 2010.
    • Rares Vernica, Michael J. Carey, and Chen Li. 2010. Efficient parallel set-similarity joins using MapReduce. SIGMOD 2010