Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Seminar Scheduling of Scientific Workflows

Prof. Dr. Ulf Leser

Large-scale data analysis is commonly programmed in the form of scientific workflows, which are high-level descriptions of chains of individual programs that together solve a given analytical task. They usually run over very large inputs, which calls for their distributed execution on clusters or compute clouds. Determining the precise order in which the individual tasks are executed on which node in the cluster is the task of schedulers. Many algorithms have been proposed for this intrinsically NP-hard problem, based on different assumptions regarding the nature of the workflow, the available knowledge regarding the tasks, the overall optimization goal, the underlying file transport methods, etc. In this seminar, we will explore the space of existing scheduling algorithms for the distributed execution of scientific workflows. We will discuss their theoretical foundations, simulation models, heuristics and optimization algorithms, and real implementations in real workflow systems.

Voraussetzungen

Gute Kenntnisse in Programmiersprachen und Algorithmen; Grundkenntnisse in verteilten Systemen

Schein und Anrechenbarkeit

Das Seminar ist anrechenbar für

  • Master Informatik

Voraussetzung für den Schein ist:

  • die Abgabe einer annotierten Literaturliste inklusive Abstract
  • das erfolgreiche Halten eines kurzen und eines längeren Vortrags
  • das Verfassen einer Seminararbeit

Anmeldung

Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über AGNES.

Termine und Ablauf

Das Seminar findet in Präsenz statt. Die Themen werden abstrakt vergeben (siehe unten). Es ist die Aufgabe aller Teilnehmer*innen, zu dem ihnen zugewiesenen Themen zu recherchieren, geeignete Forschungsarbeiten zu identifizieren und den Stand-der-Technik in einer Arbeit und zwei Vorträgen zusammenzufassen. Zum Teil sind auch praktische Arbeiten zu erledigen. Die Themen werden in der Regel in Gruppen a zwei Studierenden bearbeitet. Es gilt:

  • Am 21.04.2023, 13-15 Uhr, Raum 1.307, findet die Einführungsveranstaltung statt, die für alle Teilnehmenden verpflichtend ist. Dort wird Inhalt und Ablauf des Seminars vorgestellt sowie die Themen erläutert und vergeben.
  • Jede Gruppe muss zwei Vorträge halten:
    • Am 2.6.23, 13-15 Uhr: Einen 5-Minuten "Teaser Talk" zur Themenvorstellung
    • Am (tba, gegen Semesterende): Einen 30-Minuten Seminarvortrag
  • Jede Gruppe muss zwei schriftliche Abgaben erledigen:
    • Bis 26.5.23: Ein Outline des Themas verfassen (Titel, Abstract, Struktur der Kapitel und Sections, Literaturverzeichnis). Markieren Sie die drei für ihre Arbeit wichtigsten Publikationen.
    • Bis 30.8.2023: Eine 15-20 seitige Seminararbeit.

Materialien

 

Vorlagen

 

Themen

Topic Presenter Slot of talk
Basic scheduling problem and its variations Stankov Slot 2
Task graph scheduling Busch, Kaufmann Slot 1
Location-aware scheduling Salek, Trogant Slot 1
Prediction of Task Resource Requirements Riese, Patzak  Slot 1
Prediction of Task Progression Reinicke, Grund Slot 1
Evaluation and simulation of scheduling algorithms Cheng, Feng Slot 2
Price-aware scheduling Cantepe, Gyuler Slot 2
Carbon-aware scheduling  
Scheduling in real engines Haase  Slot 1
Resource management with Slurm Kummer  Slot 2