Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Seminar Workflows for Scientific Data Analysis

Prof. Dr. Ulf Leser

Workflowsysteme spielen eine immer größere Rolle bei der Analyse sehr grosser Datenbestände, insb. in den Naturwissenschaften. Populäre Beispiele findet man in der Genomforschung, der Satellitenbildaufklärung, oder in den Materialwissenschaften. Da Workflows zur Analyse grosser Datenbestände in der Regel auf einem verteilten Cluster ausgeführt werden, besteht eine Workflow-Infrastruktur konzeptionell aus vielen Komponenten, angefangen von einer Workflowsprache über Compiler und Optimierer bis zu Schedulern, Resourcen-Managern, und Virtualisierungssoftware. Diese werden eher selten alle neu entwickelt; technisch sind konkrete Systeme meistens aus existierenden Komponenten zusammengesetzt, wobei je nach Zielhardware und Anwendungszweck sehr unterschiedliche Schwerpunkte gesetzt werden. In dem Seminar werden wir verschiedene Open Source Workflowsysteme kennenlernen, ihre Ansätze vergleichen, und in Teams auch praktische, reale Datenanalyseprobleme mithilfe eines zu wählenden Workflowssystems lösen.

Voraussetzungen

Gute Kenntnisse in Programmiersprachen und Algorithmen; Grundkenntnisse in verteilten Systemen

Schein und Anrechenbarkeit

Das Seminar ist anrechenbar für

  • Master Informatik

Voraussetzung für den Schein ist:

  • die Abgabe einer annotierten Literaturliste inklusive Abstract
  • das erfolgreiche Halten von zwei Vorträgen
  • das Verfassen einer Seminararbeit

Anmeldung

Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über AGNES.

Termine und Ablauf

Das Seminar wird vollständig online (über ZOOM) stattfinden. Die Themen werden abstrakt vergeben (siehe unten). Es ist die Aufgabe aller Teilnehmer*innen, zu dem ihnen zugewiesenen Themen zu recherchieren, geeignete Forschungsarbeiten zu identifizieren und den Stand-der-Technik in einer Arbeit und zwei Vorträgen zusammenzufassen. zum Teil sind auch praktische Arbeiten zu erledigen. Die Themen werden in der Regel in Gruppen a zwei Studierenden bearbeitet

 

  • Am 15.04.2019, 11-13 Uhr, findet die Einführungsveranstaltungen statt, die für alle Teilnehmenden verpflichtend ist. Dort wird Inhalt und Ablauf des Seminar vorgestellt sowie die Themen erläutert und vergeben.
  • Jede Gruppe muss zwei Vorträge halten (Termine werden noch festgelegt):
    • Am 10.6.21, ab 11.15: Einen 5-Minuten "Teaser Talk" zur Themenvorstellung (über ZOOM)
    • Gegen Semesterende: Einen 30-Minuten Seminarvortrag
  • Jede Gruppe muss zwei Abgaben erledigen:
    • Bis 1.6.2021: Ein Outline des Themas verfassen (Titel, Abstract, Struktur der Kapitel und Sections, Literaturverzeichnis). Markieren Sie die drei für Sie wichtigsten Arbeiten.
    • Bis 30.8.2021: Eine 15-20 seitige Seminararbeit

Materialien

 

Vorlagen

 

Themen

Provenance Management and Analysis Wüstner
Scheduling of Scientific Workflows  
Declarative Workflow Languages  
Container Technology (Docker, Singularity, ...) Lorenz, Bomke
Distributed File Systems and SWF (CEPH, HDFS, ...) Knapp
Cloud File Systems and SWF (S3, Azure, ...) Maguey
Resource Managament for SWF (Yarn, Mesos, ...)  
NextFLow Haller, Yilmaz
Apache AirFlow  
snakemake Parschew
CWL  
Apache TEZ Spitzner