Direkt zum InhaltDirekt zur SucheDirekt zur Navigation
▼ Zielgruppen ▼

Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Seminar Workflows for Scientific Data Analysis

Prof. Dr. Ulf Leser

Workflowsysteme spielen eine immer größere Rolle bei der Analyse sehr grosser Datenbestände, insb. in den Naturwissenschaften. Populäre Beispiele findet man in der Genomforschung, der Satellitenbildaufklärung, oder in den Materialwissenschaften. Da Workflows zur Analyse grosser Datenbestände in der Regel auf einem verteilten Cluster ausgeführt werden, besteht eine Workflow-Infrastruktur konzeptionell aus vielen Komponenten, angefangen von einer Workflowsprache über Compiler und Optimierer bis zu Schedulern, Resourcen-Managern, und Virtualisierungssoftware. Diese werden eher selten alle neu entwickelt; technisch sind konkrete Systeme meistens aus existierenden Komponenten zusammengesetzt, wobei je nach Zielhardware und Anwendungszweck sehr unterschiedliche Schwerpunkte gesetzt werden. In dem Seminar werden wir verschiedene Open Source Workflowsysteme kennenlernen, ihre Ansätze vergleichen, und in Teams auch praktische, reale Datenanalyseprobleme mithilfe eines zu wählenden Workflowssystems lösen.

Voraussetzungen

Gute Kenntnisse in Programmiersprachen und Algorithmen; Grundkenntnisse in verteilten Systemen

Schein und Anrechenbarkeit

Das Seminar ist anrechenbar für

  • Master Informatik

Voraussetzung für den Schein ist:

  • die Abgabe einer annotierten Literaturliste inklusive Abstract
  • das erfolgreiche Halten von zwei Vorträgen
  • das Verfassen einer Seminararbeit

Anmeldung

Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über AGNES.

Termine und Ablauf

Das Seminar wird vollständig online (über ZOOM) stattfinden. Die Themen werden abstrakt vergeben (siehe unten). Es ist die Aufgabe aller Teilnehmer*innen, zu dem ihnen zugewiesenen Themen zu recherchieren, geeignete Forschungsarbeiten zu identifizieren und den Stand-der-Technik in einer Arbeit und zwei Vorträgen zusammenzufassen. zum Teil sind auch praktische Arbeiten zu erledigen. Die Themen werden in der Regel in Gruppen a zwei Studierenden bearbeitet

 

  • Am 15.04.2019, 11-13 Uhr, findet die Einführungsveranstaltungen statt, die für alle Teilnehmenden verpflichtend ist. Dort wird Inhalt und Ablauf des Seminar vorgestellt sowie die Themen erläutert und vergeben.
  • Jede Gruppe muss zwei Vorträge halten (Termine werden noch festgelegt):
    • Einen 5-Minuten "Teaser Talk" zur Themenvorstellung
    • Einen 30-Minuten Seminarvortrag am Ende des Semesters
  • Jede Gruppe muss zwei Abgaben erledigen:
    • Bis 1.6.2021: Ein kurzes Abstract des Themas mit einer annotierten Literaturliste
    • Bis 30.8.2021: Eine 15-20 seitige Seminararbeit

Materialien

 

Vorlagen

 

Themen

 

 

Provenance Management and Analysis tba
Scheduling of Scientific Workflows tba
Declarative Workflow Languages tba
Container Technology (Docker, Singularity, ...) tba
Distributed File Systems and SWF (CEPH, HDFS, ...) tba
Resource Managament for SWF (Yarn, Mesos, ...) tba
NextFLow tba
Apache AirFlow tba
snkemake tba
CWL tba
Apache TEZ tba