Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Forschungsseminar

Arbeitsgruppe Wissensmanagement in der Bioinformatik

Neue Entwicklungen im Datenbankbereich und in der Bioinformatik

Prof. Ulf Leser

  • wann/wo? siehe Vortragsliste

Dieses Seminar wird von den Mitgliedern der Arbeitsgruppe als Forum der Diskussion und des Austauschs genutzt. Studierende und Gäste sind herzlich eingeladen.

Folgende Vorträge sind bisher vorgesehen:


Termin & Ort Thema Vortragende(r)
Dienstag, 08.11.2016, 10 Uhr c.t., RUD 25, 4.410 Imitation learning for structured prediction in natural language processing Andreas Vlachos
Freitag, 18.11.2016, 10 Uhr c.t., RUD 25, 4.410 Parallelisierung einer Bioinformatikanwendung mithilfe einer Workflowsprache: Eine kritische Analyse einer Grid Search-Optimierung des LIMMA-Algorithmus mit der Cuneiform Workflowsprache Monika Leung
Dienstag, 22.11.2016, 13 Uhr c.t., RUD 25, 4.410 Table Similarity Search Anne Isberner
Dienstag, 06.12.2016, 11 Uhr c.t., RUD 25, Humboldt-Kabinett The HPO and the OBO Foundry Sebastian Köhler
Mittwoch, 07.12.2016, 15 Uhr c.t., RUD 25, 4.410 Extraction of Citation Data From Websites based on Visual Cues Tim Repke
Montag, 12.12.2016, 9 Uhr c.t., RUD 25, 4.410 Bestimmung der Reccurence Matrix für die Reccurence Quantification Analyse mittels Approximate Nearest Neighbour Search David Salomon
Montag, 19.12.2016, 11 Uhr c.t., RUD 25, 4.410 ChIP-seq and related techniques to analyze protein:DNA interactions and predict three-dimensional chromatin interactions Jonas Ibn-Salem
Donnerstag, 26.1.2017, 14 Uhr c.t., RUD 25, 4.410 Character-aware word embeddings for biomedical NLP Leon Weber
Freitag, 17.3.2017, 16 Uhr c.t., RUD 25, 4.410 Knowledge-driven Entity Disambiguation in Biomedical Text Amy Siu

Zusammenfassungen

Imitation learning for structured prediction in natural language processing (Andreas Vlachos)

Imitation learning is a learning paradigm originally developed to learn robotic controllers from demonstrations by humans, e.g. autonomous helicopters from pilot's demonstrations. Recently, algorithms for structure prediction were proposed under this paradigm and have been applied successfully to a number of tasks such as dependency parsing, information extraction, coreference resolution and semantic parsing. Key advantages are the ability to handle large output search spaces and to learn with non-decomposable loss functions. In this talk I will give a detailed overview of imitation leaning and some recent applications, including biomedical event extraction, abstract meaning representation parsing and its use in training recurrent neural networks.

Parallelisierung einer Bioinformatikanwendung mithilfe einer Workflowsprache: Eine kritische Analyse einer Grid Search-Optimierung des LIMMA-Algorithmus mit der Cuneiform Workflowsprache (Monika Leung)

Es existieren viele Algorithmen, die Microarray-Expressionsdaten analysieren. Deren Ergebnisse sind abhängig von der jeweils genutzten Methode in jedem Schritt. Für jede Kombination von Microarray-Experiment und Algorithmus gibt es eine verschiedene Menge an optimalen Parametern. Um diese optimale Parameterbelegung zu finden, ist ein "Grid Search" (auch bekannt als "Parameter Sweep") von Nutzen. Verschiedene Algorithmen werden auf die gleichen Daten angewendet mit jeweils verschiedenen Parameterbelegungen. Danach werden die Ergebnisse gegen eine Zielfunktion verglichen, welche zur Abschätzung der Güte der Ergebnisse dient, um eine optimale Wahl von Algorithmus und Parameterbelegung zu bestimmen (falls sie existiert). Das Ziel dieser Bachelorarbeit ist, einen parallelisierten Grid Search zu implementieren, der den LIMMA-Algorithmus (Linear Models for Microarray Data) für die Differentielle Expressionsanalyse verwendet. Außerdem wird analysiert, wie sich die Werte der Zielfunktion ändern in Relation zur Iteration über den Eingabeparametern und ob eine optimale Parameterbelegung existiert. "Optimal" wird hier durch verschiedene Zielfunktionen (z.B. Ähnlichkeit zu einem Goldstandard) definiert. Danach werden die Ergebnisse des Grid Search gegen einen externen Gold- und Silberstandard verglichen, um einschätzen zu können, ob ein Ergebnis besser als ein anderes ist. Außerdem wird die Laufzeit des Grid Search gemessen unter Verwendung einer unterschiedlichen Anzahl von Threads, um einzuschätzen, ob eine Parallelisierung vorteilhaft ist.

Table Similarity Search (Anne Isberner)

Tables are frequently used in texts and documents of many domains, as they can present multi-dimensional data in an easy to grasp format. They can contain extensive amounts of information, but don't transform well into a serialized, one-dimensional format. The contents of individual cells are often misleading or uncomprehensible when inspected without the context of the table. Therefore, traditional text analysis tasks such as similarity search might not perform optimally on tables. This observation lead to the exploration of an approach to similarity search that is able to retain the information implied by the table's structure and utilize both, structure and contents, to retrieve similar tables from a corpus of scientific documents. For each table pair, a numeric score is computed that describes the tables' similarity. I analyze various characteristics of the cells and columns, in addition to metadata relating to them and the full table. These are used to form a number of separate interim scores, which are finally aggregated into a single similarity score that is used to rank the results. Comparing this approach against a basic text-based similarity search, the results are mixed. They nonetheless show that the inclusion of structural information can improve the results of similarity search on tables, depending on the tables' contents.

The HPO and the OBO Foundry (Sebastian Köhler)

I will present the Human Phenotype Ontology (HPO), an ontology that is now widley used in the clinical domain for patient matchmaking and phenotype-driven analysis of patients and their genomic data. I will use HPO as an example to describe how ontologies in the OBO-foundry (Open Biomedical Ontologies) are built nowadays and how we do quality control in these complex projects. I will give a brief introduction on how HPO can be used to align patients, diseases, and other data based on associated phenotype information.

Extraction of Citation Data From Websites based on Visual Cues (Tim Repke)

Wisschenschaftliche Arbeiten und andere Texte mit weiterführenden Quellen verweisen auf eine Bibliographie, für die es viele standardisiere Formate gibt. Vorhandene Software, die die Formatierung unterstützt, bietet unter anderem auch die automatische Extraktion von Zitationsdaten. In dieser Masterarbeit wurde ein System entwickelt, welches aus beliebigen Webseiten den Titel, Autor und das Veröffentlichungsdatum basierend auf visuellen Hinweisen extrahiert, zum Beispiel mit der Position von Elementen und der Texteigenschaften. Hierfür wurde ein Korpus mit nahezu 900 Webseiten aufgebaut um ein neuronales Netz zu trainieren. Eine besondere Herausforderung stellt die heterogenität von Darstellungsformen bei Webseiten. Durchschnittlich konnte ein F-Score von 75% erreicht werden.

Bestimmung der Reccurence Matrix für die Reccurence Quantification Analyse mittels Approximate Nearest Neighbour Search (David Salomon)

Recurrence Quantification Analysis (RQA) ist eine Methode zur Analyse dynamischer Systeme. Hauptaufgabe der RQA ist das Auffinden von Wiederholungen (Reccurences) in einer Zeitreihe. Hierfür wird die Verteilung der vertikalen und diagonalen Linien in einer Ähnlichkeitsmatrix, der sogenannten Reccurence Matrix, bestimmt. Die Matrix dient ebenfalls der visuellen Analyse von Zeitreihen. Zur Konstruktion einer Ähnlichkeitsmatrix werden die paarweisen Ähnlichkeiten zwischen mehrdimensionalen Vektoren berechnet. Ein linearer Algorithmus zur Konstruktion einer Matrix hat eine quadratische Laufzeitkomplexität. In der Diplomarbeit wurden drei approximative multidimensionale Indexstrukturen zur Bestimmung von Nächsten Nachbarn im Kontext der RQA evauliert. Mit diesen sollte die Laufzeitkomplexität der Berechnung der Recurrence Matrix reduziert werden. Die evaluierten Methoden sind Locality-Sensitive Hashing(LSH), Priority Search K-Means Tree und Randomized kd-Tree.

ChIP-seq and related techniques to analyze protein:DNA interactions and predict three-dimensional chromatin interactions (Jonas Ibn-Salem)

In eukaryotes, genes are regulated by transcription factors (TF), which bind to gene promoters or distal regulatory elements such as enhancers that interact with the promoter via chromatin looping. While TF binding sites can be detected genome-wide by ChIP-seq experiments, it is difficult to associate distal binding sites to regulated genes without information of chromatin looping. Recent experimental techniques such as Hi-C or ChIA-PET detect chromatin looping events genome-wide but are experimentally elaborate and either have limited resolution or work only in some conditions. I will present the basic idea of ChIP-seq and give an overview of the computational analysis pipeline to detect genome wide protein binding sites or histone modifications. Further, I will shortly introduce basic concepts of DNA sequence motif analysis to investigate sequence specificity of analyzed TFs. I will than introduce Hi-C experiments in which proximity ligation is used to measure genome-wide chromatin-chromatin interactions. Hi-C has reviled an interesting hierarchy of three-dimensional genome architecture comprising chromosomal territories, compartments, TADs, and loops. Finally, I will introduce an ongoing project in which we use the position and shape of ChIP-seq signals around convergent CTCF motif sites to predict chromatin loops from single ChIP-seq experiments with AUROC of up to 0.81. The predicted loops can be used to associate TF binding sites to regulated genes and give further insights into factors functionally involved in chromatin loop formation.

Character-aware word embeddings for biomedical NLP (Leon Weber)

Using word embeddings is a simple method for semi-supervised learning in NLP. Traditional embedding methods like word2vec do not encode character- level features of words and vector representations are only available for a fixed vocabulary. A recently proposed method addresses both of these issues by incorporating character-level information into the embeddings. We evaluate this method on various biomedical NLP tasks. We found that using those character-aware embeddings improves performance in 23 of 30 cases, with the results being close in the remaining seven.

Knowledge-driven Entity Disambiguation in Biomedical Text (Amy Siu)

Disambiguation of biomedical entities is a notoriously difficult problem due to the variety of entities and their often long names in many variations. The ideal solution should apply to all entity types and be scalable. By leveraging knowledge in UMLS, the largest and authoritative metathesaurus of the domain, we propose to tackle three neglected but important aspects of the problem with broad applicability and scalability in mind. First, observing that not all words in a long noun phrase are equally information-bearing, and that some even carry non-biomedical meanings, we distinguish these cases by disambiguating their semantic types. Second, observing that not all text mentions are equally ambiguous, we identify those that are not ambiguous, and use them as extra cues for the remaining, more ambiguous mentions. We apply this technique to MEDLINE abstracts, and demonstrate that it is a more accurate and faster alternative than MetaMap, the standard tool for the task. Third, we address the case when a text mention refers to an entity not in the knowledge base. We propose a corpus-driven approach to first discover entities expressed in a corpus before performing entity disambiguation. This talk presents most of the work of my PhD thesis.

Kontakt: Astrid Rheinländer; rheinlae(at)informatik.hu-berlin.de