Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Seminar: Vector Search

Dozent: Dr. Patrick Schäfer

Inhalt

Die Einführungsveranstaltung mit Themenvergabe und kurzer Einführung findet am Donnerstag, den 30. Oktober, zwischen 13-16 Uhr in Raum RUD 26, 1.307 statt.

Im Gegensatz zu strukturierten Daten, wie sie häufig in relationalen Datenbanken gespeichert werden, besitzen unstrukturierte Daten keine feste Struktur und liegen in vielfältigen Formaten vor. Beispiele hierfür sind Texte, Bilder, Audio- und Videodateien. Diese Art von Daten macht einen Großteil der weltweit generierten Informationen aus und stellt eine besondere Herausforderung dar, da sie nicht direkt mit klassischen Methoden verarbeitet werden können.

Vektorsuche ist eine Methode in der künstlichen Intelligenz und Datenabfrage, die numerische Vektoren verwendet, um unstrukturierte Daten darzustellen und effizient zu durchsuchen. In den letzten Jahren hat die Vektorsuche mit dem Aufkommen von Embeddings, die mithilfe maschineller Lernverfahren aus unstrukturierten Daten erzeugt werden, stark an Bedeutung gewonnen. Embeddings ermöglichen es, unstrukturierte Daten als numerische Vektoren in einem hochdimensionalen Raum zu repräsentieren und deren Ähnlichkeiten effizient zu berechnen.

Im Rahmen des Seminars werden die Studierenden in Gruppen jeweils einen spezifischen Ansatz der Vektorsuche erarbeiten, in einem Vortrag präsentieren und auf echten Daten anwenden. Ziel des Seminars ist es, die Besonderheiten der verschiedenen Verfahren zu verstehen und deren Stärken sowie Schwächen systematisch miteinander zu vergleichen.

Termine

  • Einführungsveranstaltung: Die Einführungsveranstaltung mit Themenvergabe findet am Donnerstag, den 30. Oktober, 13-16 Uhr in Raum RUD 26, 1.307 statt.
  • Abschlusspräsentation: Januar

Einführende Literatur

  • Survey: Pan, James Jie, Jianguo Wang, and Guoliang Li. "Survey of vector database management systems." The VLDB Journal 33.5 (2024): 1591-1615.
  • Benchmark: Aumüller, Martin, Erik Bernhardsson, and Alexander Faithfull. "ANN-Benchmarks: A benchmarking tool for approximate nearest neighbor algorithms." Information Systems 87 (2020): 101374.
  • https://scholar.google.de for searching scientific papers
  • https://ann-benchmarks.com/index.html : Vector Search Benchmark

Voraussetzungen

  • Gute Kenntnisse in Algorithmen und Datenstrukturen (z.B. gleichnamige Vorlesung)

Anmeldung

Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über AGNES.

Anforderungen

Voraussetzungen für den Schein sind:

  • der Besuch der Einführungsveranstaltungen zur Themenvergabe
  • die regelmäßige Kommunikation mit dem Betreuer
  • ein Peer-Review wissenschaftlicher Veröffentlichungen
  • das Halten eines wissenschaftlichen Vortrags im Blockseminar am Ende des Semesters
  • das Erstellen einer schriftlichen Ausarbeitung (Seminararbeit).

 

Anrechenbarkeit

Das Seminar ist anrechenbar für

  • Diplom Informatik
  • Master Informatik
  • Master Wirtschaftsinformatik

Vorlagen