Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Proseminar Bioinformatik

Sommersemester 2008, Prof. Ulf Leser

Inhalt des Proseminar

In dem Proseminar werden eine Reihe von klassischen Themen der algorithmischen Bioinformatik besprochen. Der Fokus liegt auf algorithmischen Problemen, aber auch Methoden des Maschinellen Lernens und der Analyse experimenteller Rohdaten werden behandelt. Wir betrachten die ganze Bandbreite der modernen Bioinformatik, angefangen bei der DNA Sequenz (mit Themen zum Sequenzvergleich, dem Assemblieren von Sequenzen, der Genvorhersage etc.) über die RNA (RNA Strukturvorhersage, Auswertung von Microarrays etc.) bis zu Proteinen (3D Strukturvergleich, Mustererkennung für Proteindomänen, Massenspektroskopie etc.) und der Systembiologie (Netzwerkvergleich, Eigenschaften biologischer Graphen etc.).

Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über Goya.

Termine, Orte, Ablauf

Der erste Termin mit Themenvergabe findet am Dienstag, den 15.4.2008,  15.00 c.t. - 17.00 c.t. in RUD 25, 3.113 statt.

Das Proseminar ist danach regelmäßig Donnerstags von 15.00 c.t. - 17.00 c.t. in RUD 26, 0'313.

Der Ablauf ist der folgende:

  • Der erste Termin ist der 15. April. An diesem Termin werden auch die Themen vergeben. Es herrscht Anwesendheitspflicht.
  • Der zweite Termin (24.4.) ist einer Einführung in Molekularbiologie und Bioinformatik gewidmet (Prof. Leser).
  • Der dritte Termin (8.5.) greift exemplarisch ein spezielles algorithmisches Thema heraus (Prof. Leser).
  • Beim vierten Termin (15.5.) müssen alle Studierenden einen 5-minütigen Vortrag über ihr Thema halten.
  • Ab dem fünften Termin beginnt der normale Seminarbetrieb mit wöchentlich ein bis zwei Vorträgen.

Voraussetzungen für den Scheinerwerb

  • Wahrnehmung mehrerer Termine mit dem Betreuer (wird individuell verabredet).
  • Halten des 5-minütigen Übersichtsvortrags am vierten Seminartermin.
  • Halten eines ca. 30-minütigen Vortrag über das abgesprochene Thema
  • Selbständiges Erstellung einer Seminararbeit im Umfang von 5-10 Seiten; Fertigstellung eine Woche vor dem Vortrag (das ist eine harte Deadline)

Kontakt

Ulf Leser
Gebäude IV, Raum 105
E-Mail: leser (youknowwhat) informatik hu-berlin de

Vorlagen und Hinweise

Themen

Thema (Betreuer)
Literatur Vortragende/r und Datum
Pflicht-Einführungslektüre für alle Teilnehmer
Primer on Molecular Genetics
Alle
Einführungsveranstaltungen
UL

Genomics: DNA Sequenzanalyse (UL)

   
Heuristische Ähnlichkeitssuche: BLAST und BLAST2
1. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. Related Articles, Links Basic local alignment search tool. J Mol Biol. 1990 Oct 5;215(3):403-10.
2. Altschul, S. F., Madden, T. L., Schaffer, A. A., Zhang, J., Zhang, Z., Miller, W. and Lipman, D. J. (1997). "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs." Nucleic Acids Res 25(17): 3389-402.
22.5.: Frei
Muptiples Sequenzalignment mit Clustal-W
Thompson, J. D., Higgins, D. G. and Gibson, T. J. (1994). "CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice." Nucleic Acids Res 22(22): 4673-80.
22.5.: Robert Franke
Phylogenie: Maximum Parsimony und Sankovs Algorithmus
1. Salemi, Vandamme: "The Phylogenetic Handbook", Chapter 8 29.5.: Markus Klenin
Phylogenie: Neighbor-Joining
1. Salemi, Vandamme: "The Phylogenetic Handbook", Chapter 5
2. Mailund, T., Brodal, G. S., Fagerberg, R., Pedersen, C. N. and Phillips, D. (2006). "Recrafting the neighbor-joining method." BMC Bioinformatics 7: 29.
29.5.: Sascha Baese
Genome Rearrangements und Synteny
1. Setubal, Meidans: "Introduction to Computational Molecular Biology", Chapter 7
2. Deonier, Tavare, Watermann: "Computational Genome Analysis", Chapter 5
5.6.: Zeno Endemann
Indexstrukturen für Ähnlichkeitssuche
H.E. Williams and J.Zobel. Indexing and retrieval for genomic databases. IEEE Transactions on Knowledge and Data Engineering, 14:63–78, 2002.
5.6.: Markus Scheunemann
Schnelles lokales Alignment
E. Myers and R. Durbin,  "A Table-Driven, Full-Sensitivity Similarity Search Algorithm", http://research.janelia.org/myers/Papers/swat.pdf
3.7.: Andreas Freund
Suffixbäume und Repeats/Tandem Repeats
Heun: "Algorithmen auf Sequenzen", Kapitel 3
Siehe http://www.bio.ifi.lmu.de/~heun/lecturenotes/as.pdf
3.7.: Alexander Wurl

Transkriptomics: mRNA und RNA (UL)

   
Clustering von Microarray-Daten
1. 2. "A primer on gene expression and microarrays for machine learning researchers"
http://www.cs.dartmouth.edu/~brd/Teaching/Bio/Papers/Intro-reviews/microarray04.pdf
2. Schmidt A, Groth P, Haendler B, Hess-Stumpp H, Kratzschmar J, Seidel H, Thaele M, Weiss B. Gene expression during the implantation window: microarray analysis of human endometrial samples. Ernst Schering Res Found Workshop. 2005;(52):139-57.
17.7.: Entfällt
(Paralleles) Clustern von EST-Sequenzen
1. UniGene, e.g. Pontius, J. U., Wagner, L. and Schuler, G. D. (2002). UniGene: A Unified View of the Transscriptome. In (eds) "The NCBI Handbook". National Library of Medicine, Bethesda.
2. Kalyanaraman, A., Aluru, S., Kothari, S. and Brendel, V. (2003). "Efficient clustering of large EST data sets on parallel computers." Nucleic Acids Res 31(11): 2963-74.
3.7.: Paul Schütte
Klassifikation von Microarray-Daten
1. F. Markowetz, L. Edler and M. Vingron, "Support Vector Machines for Protein Fold Class Prediction" Biometrical Journal 45 (2003) 3, 377–389
2. Chu, F., Wang, L. "Applications of support vector machines to cancer classification with microarray data." Int J Neural Syst. 2005 Dec;15(6):475-84.
Entfällt
RNA Sekundärstrukturvorhersage
Steger: "Bioinformatik", Kapitel 4
17.7.: Sebastian Arzt

Proteomics: Proteine (UL)

   
Proteinidentifikation aus MS-Daten
1. Fenyo, D. (2000). "Identifying the Proteom: Software Tools." Current Opinions in Biotechnology 11(391-395).
2. Zhang, W. and Chait, B. T. (2000). "ProFound: an expert system for protein identification using mass spectrometric peptide mapping information." Anal Chem 72(11): 2482-9.
Entfällt
Strukturalignment von Proteinen
Holm, Sander (1993): "Protein structure comparison by alignment of distance matrices",J Mol Biol. 233(1):123-38.
Entfällt

Systems Biology: Netzwerke (SJ)

   
Rekonstruktion regulatorischer Netzwerke
Liang, S., Fuhrman, S. and Somogyi, R. (1998). "Reveal, a general reverse engineering algorithm for inference of genetic network architectures." Pac Symp Biocomput: 18-29. 10.7.: Kim Völlinger
Frequent Subgraph Discovery in PPI Netzen
Koyuturk, M., Grama, A. and Szpankowski, W. (2004). "An efficient algorithm for detecting frequent subgraphs in biological networks." Bioinformatics 20 Suppl 1: I200-I207.
10.7.: Torsten Huber
Funktionsvorhersage in PPI Netzen
Chen, X. W., and M. Liu. 2005. Prediction of protein-protein interactions using random decision forest framework. Bioinformatics 21 (24):4394-400.
10.7.: Alexander Boll