Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Seminar: Computational Analysis of Biomedical Data Sets

Yvonne Lichtblau

Mit high-throughput-Technologien können immer mehr und immer größere biomedizinische Datensätze (z.B. Genom- und Transkriptomdaten, sogenannte "omics"-Datensätze) erzeugt werden. Deren Analyse erfordert skalierbare und komplexe Algorithmen, von denen im Seminar eine aktuelle Auswahl besprochen wird. Zu den Themen gehören u.a. Datenkompression, Genomassembly, graphbasierte Analysen, statistische Lernverfahren und Anwendungen linearer Optimierungsverfahren.

Das Seminar findet im wesentlichen als Blockseminar am Ende des Semesters statt. Vorher sind aber Einführungstermine und individuelle Themenbesprechungen zu besuchen.

Voraussetzungen

  • Gute Kenntnisse in Algorithmen und Datenstrukturen
    (z.B. gleichnamige Vorlesung, trees, graphs, dynamic programming, complexity, …)
  • Interesse an Bioinformatik und Bereichtschaft sich in den biologischen Hintergrund einzulesen

Schein und Anrechenbarkeit

Das Seminar ist anrechenbar für

  • Master of Science (Informatik)
  • Diplom (Informatik)

Voraussetzung für den Schein ist:

  • das Halten eines fünfminütigen Flash-Vortrags in der Mitte des Semesters,
  • das Halten eines dreißigminütigen wissenschaftlichen Vortrags am Ende des Semesters,
  • das Erstellen einer zehn- bis fünfzehnseitigen schriftlichen Ausarbeitung (Seminararbeit).

Anmeldung

Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über AGNES.

Termine und Ablauf

Am 25.10.2015 findet von 13-15 Uhr die Einführungsveranstaltung statt, die für alle Teilnehmenden verpflichtend ist. Dort werden die Themen erläutert und vergeben.

Das Seminar wird als Blockseminar am Ende des Semesters abgehalten. Jede(r) Studierende muss einen ca. 30-minütigen Vortrag über das zugewiesene Thema halten. Vorher finden mindestens zwei Treffen mit dem Betreuer statt, einmal zur Vorbesprechung des Themas und einmal zur Besprechung der Folien. Außerdem wird es in der Mitte des Semesters einen Termin geben, an dem alle Studierenden in einer 5-minütigen Flash-Präsentation ihr Thema vorstellen, um Querverbindungen zu erkennen und die rechtzeitige Beschäftigung mit dem Thema sicherzustellen. Schließlich muss zu jedem Thema eine 10-15-seitige Seminararbeit verfasst werden.

Zusätzlich zu der speziellen Literatur, über die die Vorträge gehalten werden, gibt es für alle Teilnehmer verpflichtende Einführungslektüre.

Alle Pflichttermine in der Übersicht (Angegebene Termine können sich noch verschieben):

  • 25.10.16, 13-15 Uhr, RUD 26, 1.308: Einführung und Themenvergabe
  • Bis 22.11.2016: Erstes Treffen mit dem Betreuer zur Themenbesprechung und -eingrenzung
    (Termin bis 08.11.2015 vereinbaren)
  • Bis 06.12.2016: Zusenden eines ersten Entwurfs der Folien für die Flash-Präsentation
  • 13.12.2016, 13-15 Uhr, RUD 26, 1.308: Flash-Präsentationen
  • Bis 24.01.2017: Zweites Treffen mit dem Betreuer zur Besprechung der Folien
    (Termin bis 20.12.2016 vereinbaren)
  • 07.02.2017, 10-15 Uhr, RUD 25, Humboldt-Kabinett: Blockseminar
  • Bis 31.3.2017: Abgabe Seminararbeit (englisch)

Vorlagen

Einführende Literatur für alle Teilnehmer

  • Berger et al.: "Computational solutions for omics data", Nat Rev Genet., 2013
  • Vogelsein et al.: "Cancer Genome Landscapes", Science, 2013
  • individuelle Literatur zur Einführung pro Thema folgt

Vorläufige Themenauswahl

(Diese Liste ist vorläufig, Themen/Paper werden ggf. noch zusammengefasst/hinzugefügt. Eine endgültige Liste ist ab dem 21.10.2016 verfügbar)

Topic Paper Vortragend Betreuerin
Einführung Folien der Einführung Lichtblau
Processing, Storage and Retrieval
Genome Assembly
(Overlap-Layout Consenus, De Bruijn Graph-based)
  • "ARACHNE: A Whole-Genome Shotgun Assembler", Genome Research, 2002
  • "How to apply de Bruijn graphs to genome assembly", Nature Biotechnology, 2011
  • "Velvet: Algorithms for de novo short read assembly using de Bruijn graphs", Genome Research, 2008
  • "Comparison of the two major classes of assembly algorithms: overlap-layout-consensus and de-bruijn-graph", Briefings in Functional Genomics, 2011
David Luis Wiegandt Lichtblau
Read Mapping in
RNA Sequencing
  • "Fast gapped-read alignment with Bowtie 2", Nature Methods, 2011
  • "TopHat: discovering splice junctions with RNA-Seq", Bioinformatics, 2009
  • "Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks", Nature Protocols, 2014
Lukas Abegg Lichtblau
Compression Methods Genomics
  • "Efficient storage of high throughput DNA sequencing data using reference-based compression", Genome Research, 2011
  • "SCALCE: boosting sequence compression algorithms using locally consistent encoding", Bioinformatics, 2012
  • "FRESCO: Referential Compression of Highly Similar Sequences", IEEE Transactions on Computational Biology and Bioinformatics, 2013
Jannes Münchmeyer Lichtblau
(Leser)
Variant Calling
  • "Mapping short DNA sequencing reads and calling variants using mapping quality scores", Genome Research, 2008
  • "Genotype and SNP calling from next-generation sequencing data", Nature Reviews Genetics, 2011
  • "A map of human genome variation from population-scale sequencing", Nature, 2010
Lichtblau
Sequence Similiarity
  • "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs.", Nucleic Acids Research, 1997
  • "Fast alignment-free sequence comparison using spaced-word frequencies.", Bioinformatics, 2014
  • "STELLAR: fast and exact local alignments.", BMC Bioinformatics, 2011
Marti Ritter Lichtblau
Data Mining for Transcriptomics
Co-Expression Networks
  • " A General Framework for Weighted Gene Co-Expression Network Analysis", Statistical Applications in Genetics and Molecular Biology, 2005
  • "Learning from Co-expression Networks: Possibilities and Challenges.", Frontiers in Plant Science, 2016
  • "Arabidopsis gene co-expression network and its functional modules", BMC Bioinformatics, 2009
Trescher
(Lichtblau)
Gene Regulatory Network Reconstruction/Estimation of regulatory activity
  • "ARACNE: An Algorithm for the Reconstruction of Gene Regulatory Networks in a Mammalian Cellular Context.", BMC Bioinformatics, 2006
  • "Regression Analysis of Combined Gene Expression Regulation in Acute Myeloid Leukemia.", Plos Computational Biology, 2014
  • "Inference of transcriptional regulation in cancers", PNAS, 2015
Leon Weber Trescher
Differential Expression Analysis of RNA-Seq Data
  • "Differential expression analysis for sequence count data.", BMC Genome Biology, 2010
  • "Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks", Nature Protocols, 2014
  • "Comparison of software packages for detecting differential expression in RNA-seq studies", Briefings in Bioinformatics, 2015
Trescher
(Lichtblau)