Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Modellgetriebene Software Entwicklung

 

FONDA: Foundations of Workflows for Large-Scale Scientific Data Analysis

 

Beyond the Exome

Finanzierung: DFG

Förderzeitraum: 2020 - 2024

Projektpartner: Prof. Volker Markl, TU Berlin

In der digitalisierten Welt von heute ist eines der größten neuen Herausforderungen die Masse an produzierten Daten zu bewältigen. Dies ist vor allem auch Realität in der Wissenschaft. Um neue Erkenntnisse zu gewinnen, setzen Wissenschaftler zunehmend auf datengetriebene Programme. Sogenannte Data Analysis Workflows (DAW) beschreiben das Zusammenspiel von datengetriebenen Anwendungen zur Beantwortung wissenschaftlicher Fragestellungen. Mittlerweile gibt es bereits beeindruckende, auf Geschwindigkeit optimierte, Systeme, die sich um die Ausführung von DAWs eigenständig kümmern. Die Entwicklung und Pflege der DAWs selbst erfolgt jedoch noch sehr sporadisch und mit wenig Werkzeugunterstützung.

Mit dem Ziel den Entwicklungsprozess von DAWs zu verbessern und zu beschleunigen, arbeiten Informatiker und Naturwissenschaftler in der neuen kollaborativen Forschungsgruppe FONDA zusammen. Die Diagnose und Reparatur von fehlerhaften Programmen ist immer noch eines der kostspieligsten Prozesse in der Entwicklung und Pflege von sowohl herkömmlichen, als auch von datengetriebenen Programmen. Daher ist eines der Kernthemen von FONDA, Methoden und Werkzeuge für das Debugging von DAWs zu entwickeln. Fehler in solchen Programmen zu diagnostizieren, stellt jedoch eine besondere Herausforderung dar, da die Ursache des Fehlers datengetriebenen Anwendungen selbst, fehlerhafte Daten, oder eine fehlerhafte Execution Engine sein kann.

In dem Teilprojekt "B3 - Debugging Distributed Data Analysis Workflows" wird untersucht, inwiefern aktuelle Debugging Techniken vom Software-Engineering auf die Entwicklung für DAWs angepasst und übernommen werden können. Dazu sollen zunächst interaktive Debugging Techniken betrachtet werden, die die kontrollierte Ausführung und Überwachung ermöglichen. Im weiteren Verlauf des Projektes werden dann auch (semi-)automatische Debugging Techniken betrachtet. Diese sollen dabei helfen, fehlerhafte Stellen in DAWs zu lokalisieren. Weiterhin sollen Techniken entwickelt werden, um besonders lang laufende DAWs zu überprüfen, ohne deren Ausführung zu sehr zu beeintrachtigen. Das Ziel soll letzten Endes ein ganzheitliches System zur Fehlerdiagnose und Reparatur für DAWs sein.