Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Forschungsseminar

Arbeitsgruppe Wissensmanagement in der Bioinformatik

Neue Entwicklungen im Datenbankbereich und in der Bioinformatik

Prof. Ulf Leser

  • wann/wo? siehe Vortragsliste

Dieses Seminar wird von den Mitgliedern der Arbeitsgruppe als Forum der Diskussion und des Austauschs genutzt. Studierende und Gäste sind herzlich eingeladen.

Folgende Vorträge sind bisher vorgesehen:


Termin & Ort Thema Vortragende(r)
Freitag, 19.10.2018, 13 Uhr c.t., RUD 25, 4.410 Accelerating Multi-Column Selection Predicates and Beyond -- the Elf Approach MSc. David Broneske (OVGU), Dr.-Ing. Martin Schäler (KIT)
Donnerstag, 13.11.2017, 13:00 Uhr sharp! (s.t.), RUD 25, 4.410 Data driven development of a cancer blood test based on a Support Vector Machine Raik Otto
Freitag, 14.11.2017, 14:00 Uhr c.t., RUD 25, 4.410 Kombination von Prognose, Simulation und Optimierung zur Lösung zweistufiger hybrider Flow Shop Probleme Christin Schumacher (Technische Universität Dortmund)
Freitag, 11.01.2019, 10:00 Uhr c.t., RUD 25, 4.410 Generating Analysis Ready Data from Satellite Image Archives David Frantz
Montag, 14.01.2019, 15:00 Uhr c.t., RUD 25, 4.410 Bachelorarbeit: Eignung von Graphdatenbanken zur Verwaltung multiskaler und domänenspezifischer Datenstrukturen in einer Logistikanwendung Dominique Hüneburg
Freitag, 15.02.2019, 9 Uhr c.t., RUD 25, 4.410 Computational methods for transcriptome-wide identification and characterization of RNA editing sites in paired sequencing samples Michael Piechotta

Zusammenfassungen

Accelerating Multi-Column Selection Predicates and Beyond -- the Elf Approach (MSc. David Broneske (OVGU), Dr.-Ing. Martin Schäler (KIT))

Efficient evaluation of selection predicates is a performance-critical task, for instance to reduce intermediate result sizes being the input for further operations. With analytical queries getting more and more complex, the number of evaluated selection predicates per query and table rises, too. This leads to numerous multi-column selection predicates. Recent approaches to increase the performance of main-memory databases for selection-predicate evaluation aim at optimally exploiting the speed of the CPU by using accelerated scans. However, scanning each column one by one leaves tuning opportunities open that arise if all predicates are considered together. To this end, we introduce Elf, an index structure that is able to exploit the relation between several selection predicates. Elf is optimized for main memory systems featuring cache sensitivity, an optimized storage layout, fixed search paths, and slight data compression. Elf has shown to be superior to state-of-the-art indexing and scan approaches for a variety of queries, achieving a speedup between factor five and two orders of magnitude for queries of the TPC-H or GMRQB benchmark. Further scaling experiments reveal that for large data sets, these speedup factors are expected to increase, due to more densely populated data spaces. Besides its application as physical selection operator, first results indicate that the Elf approach opens a way to solve fundamental problems of present-day in-memory systems. Elf can serve as (only) storage structure since it allows periodic insertions with virtually no performance penalty. Moreover, it natively supports various relational operators such as joins or groupings as well as non-relational operations including k-nearest neighbor computation. This allows computing entire query plans on Elf, which, in turn, may contribute in solving the analytic gap for many use cases e.g., from Bioinformatics, Metrology, or classical OLAP scenarios.

Data driven development of a cancer blood test based on a Support Vector Machine (Raik Otto)

Machine Learning revolutionizes modern cancer research by personalizing cancer treatment through identification of blood based biomarkers that allow to quickly determine whether a given tumor is malignant or benign at a low cost. This talk presents a novel biomarker identification concept that is based on a Support Vector Machine (SVM) and termed ‘Alikeness estimation by Regression on Transcriptome DECOnvolution’ (ART DÉCO). As first of its kind, ART DÉCO identifies biomarkers suitable for malignancy estimation of rare neuroendocrine pancreatic cancer by deconvolution of the genomic data of tumors and carcinomas. The deconvolution is performed by a SVM Regression that allows to quantify the similarity of tumor samples to samples with known and blood detectable biomarker signatures. Initially, the deconvolution concept will be explained and subsequently elaborated how a SVM successfully establishes a similarity metric over genomic landscapes. Advantages and limitations of the SVM approach will be discussed and benchmarks and congruence of the ART DÉCO predictions with clinical data be shown to eventually conclude with an outlook on an alternative Deep Learning based approach.

Kombination von Prognose, Simulation und Optimierung zur Lösung zweistufiger hybrider Flow Shop Probleme (Christin Schumacher (Technische Universität Dortmund))

Im Zuge der vierten industriellen Revolution verändern sich auf operativer Ebene für die Maschinenbelegungsplanung relevante interne und externe Einflussfaktoren zunehmend schneller. Außerdem werden Maschinen- sowie Produktionsdaten in Zukunft in Echtzeit verfügbar und damit zur Steuerung nutzbar sein. Als finaler Schritt in diesem Prozess sollen mit Hilfe dieser Daten auf allen Ebenen, somit insbesondere auch in der Maschinenbelegungsplanung, automatische Entscheidungen mit kurzen Anpassungszeiten getroffen werden können.
Ziel des Dissertationsvorhabens ist es daher, Methoden zur Echtzeitsteuerung innerhalb der Maschinenbelegungsplanung von Fabriken zu entwickeln und zu evaluieren. Um dieses Ziel zu realisieren, ist eine hohe Prognosequalität interner sowie externer Einflussfaktoren notwendig. Durch die Kombination von statistischen Prognoseverfahren, Simulationsexperimenten und mathematischen Optimierungsmethoden sollen mit zweistufigen hybriden Flow Shops ausgewählte Maschinenbelegungsprobleme optimal auf das Geschäftsziel ausgerichtet gelöst werden.
Im Rahmen des Dissertationsvorhabens werden Echtzeitdaten mit Hilfe von Simulations- und Prognosetechniken weiterverarbeiten, um Aussagen über das künftige Systemverhalten herzuleiten. In diesem Simulations- und Prognoseschritt sollen beispielsweise die Verfahren „Multiple replications in parallel“ mit Auslöse-, Abbruch- und Prioritätskriterien und Forecast Validierung getestet werden, mit deren Hilfe mögliche Fabrikszenarien im Rechner simuliert und bewertet werden können. Mit Hilfe der genannten Methoden können zukünftige Abläufe in der Fabrik vorsimuliert werden, um Entwicklungen von Fabrikparametern beobachten zu können. Auf Basis dieser erzeugten Daten werden im Dissertationsvorhaben nachfolgend Optimierungsmodelle konstruiert und Optimierungsmethoden angestoßen. Im Feld der Optimierungsverfahren sollen vor allem Heuristiken und Metaheuristiken zum Einsatz kommen, da die auftretenden Optimierungsprobleme in der Regel eine hohe Komplexität aufweisen, so dass eine exakte Lösung für reale Szenarien praktisch unmöglich ist. Heuristische Verfahren liefern hingegen oft in kurzer Zeit sehr gute Lösungen für die Maschinenbelegung. Um die Praxistauglichkeit und dabei insbesondere die Robustheit einzelner Lösungen der Optimierungsmodelle vor dem Einsatz in der Praxis evaluieren zu können, wird anschließend wiederrum die Simulation eingesetzt, indem die ermittelten Maschinenbelegungen unter variierenden Zufallseinflüssen vorsimuliert werden. Nach Abschluss des Dissertationsvorhabens wird beantwortet werden können, in welcher Form Optimierung, Simulation und Prognoseverfahren für die angestrebte Echtzeitsteuerung kombiniert werden sollten und welcher Prognosegrad für welches der ausgewählten Maschinenbelegungsprobleme notwendig ist, um zu praktikablen Lösungen zu gelangen. Darüber hinaus werden die nachgelagerten Fragen beantwortet werden können, wie die entwickelte Methode zu einer erhöhten Anpassungsgeschwindigkeit von Fabriken beitragen kann und welche Echtzeitdaten letztendlich bereitgestellt werden müssen, um eine solche zukunftsorientierte echtzeitfähige Maschinenbelegungsplanung anwenden zu können.

Generating Analysis Ready Data from Satellite Image Archives (David Frantz)

We are currently experiencing an exciting new era of Earth Observation (EO), wherein multiple, freely available remote sensing systems provide us data at unprecedented spatial, temporal and spectral resolutions. However, the adequate use of this rich EO archive is still challenging. This talk will focus on the generation of Analysis Ready Data (ARD) and higher level baseline products. The term ARD describes data that have undergone the most relevant preprocessing steps, and can thus be analyzed with a minimum of additional user effort. Relevant processing steps include (i) screening for clouds, cloud shadows, snow and other poor quality observations, (ii) atmospheric and topographic correction to guarantee radiometric consistency through time and space, (iii) data organization in non-redundant data cubes, (iv) temporal aggregation for reducing data volume and increasing spatial completeness, (v) as well as other relevant processing steps like data fusion, temporal interpolation or seasonal feature extraction.

Eignung von Graphdatenbanken zur Verwaltung multiskaler und domänenspezifischer Datenstrukturen in einer Logistikanwendung (Dominique Hüneburg)

Graphdatenbanken gehören zu den sogenannten NoSQL-Datenbanken. Sie wurden zur Speicherung netzwerkartiger Datenstrukturen entwickelt. Mit ihnen lassen sich Entitäten und deren einzelne Verbindungen untereinander als Knoten und Kanten eines Graphen verwalten. Neben biochemischen Systemen und dem World Wide Web sind soziale Netzwerke ein Beispiel für Graphenstrukturen. In dieser Arbeit werden Graphdatenbanken betrachtet, denen das Property Graph Model zugrunde liegt. Diese Arbeit umfasst zwei Ziele. Zum Einen soll untersucht werden, ob sich eine Graphdatenbank zur Verwaltung von multiskalen Datenstrukturen eignet. Multiskale Datenstrukturen sind Datenstrukturen, die dieselben Daten auf unterschiedlichen Granularitätsstufen, d.h. unter Verwendung verschiedener Skalen, darstellen können. Das zweite Ziel dieser Arbeit ist die Untersuchung der Eignung einer Graphdatenbank zur Verwaltung logistischer Datenstrukturen. Logistik ist ein Fachgebiet der Wirtschaft, das sich speziell mit der Lagerung und dem Transport von Gütern, Informationen und Personen beschäftigt. Dazu zählen die Planung, Durchführung und Steuerung von inter- und intrasystemischen Bewegungen genannter Objekte. Für beide Ziele erfolgt die Beurteilung der Eignung jeweils anhand eines Graphdatenbank- Entwurfes und dessen Implementierung in dem Graphdatenbankmanagementsystem Neo4j. Die Laufzeit von ausgewählten Anfragen an diese Implementierung wird mit der Laufzeit entsprechender Anfragen an ein Referenzsystem verglichen.

Computational methods for transcriptome-wide identification and characterization of RNA editing sites in paired sequencing samples (Michael Piechotta)

RNA editing refers to co-transcriptional RNA base modifications that increase transcript sequence diversity without changing the underlying genome. Site-specific RNA editing events may lead to amino acid substitutions by changing codons in coding sequences. Apart from its role in coding regions, RNA editing may also influence transcript splicing and structure and could have an effect on mRNA stability and nuclear export.
The availability of deep next-generation sequencing data enabled the transcriptome-wide discovery of RNA editing events. However, these early attempts suffered from the inherent artifacts of short read and ambiguities in read mapping leading to high false positive rate (FPR 90%) among called RNA editing sites. Characterization of the nucleotide frequency spectrum of RNA-DNA differences (RDDs) at a given location is the most direct way of identifying editing sites, whereas RNA-RNA comparison may pinpoint differential editing events across samples and conditions (RNA-RNA differences, in short RRDs).
Computational methods for the identification of single nucleotide variants (SNVs) are developed and presented. Difficulties in calling specifically RDDs and RRDs are examined and solutions are presented. Computational methods are calibrated and tested on in silico benchmarks and their performance is compared against other popular variants callers. Finally, the performance is evaluated in a controlled biological setting using sequencing data from ADAR knockdown experiments with human embryonic kidney (HEK-293) cells.

Kontakt: Patrick Schäfer; patrick.schaefer(at)hu-berlin.de