Natural Language Processing in Python

In den letzten fünf bis sechs Jahren gelangen der Forschung einige bahnbrechende Entwicklungen im Bereich des Text Mining und des Natural Language Processing (NLP). Diese Durchbrüche sind im wesentlichen auf drei Faktoren zurückzuführen:

  • Konzeptuell neue Frameworks aus dem Bereich des Deep Learning

  • Deutliche Verbesserungen der computationalen Ressourcen,

  • (Deutlich )Größere verfügbare Datenmengen (Big Data)


Der Kurs behandelt folgende Themen:

Tag 1: 

Im ersten Teil wird zunächst anhand von einigen Beispielen die Wichtigkeit von NLP verdeutlicht. Danach wird es eine Einführung zum Umgang mit Textdaten und deren potentielle Repräsentationen geben. Im Anschluss wird die Funktionsweise einfacher Fully Connected Neural Networks erklärt. Abschließend wird aufbauend auf diesen beiden Blöcken eine Hands-On Session zur Klassifikation von Textendaten bearbeitet.

Tag 2:

Am zweiten Tag beschäftigen wir uns ausschließlich mit sogenannten neuronalen Repräsentationen von Texten. Begonnen wird mit der Idee des Language Modelling anhand des Neural probabilistic language models (Bengio et al, 2003). Anschließend wird das Word2Vec Framework (Mikolov et al., 2013), das Doc2Vec-Framework (Mikolov and Le, 2014), sowie das FastText Framework (Bojanowski et al, 2017) vorgestellt. Jedes dieser Frameworks wird mit Hands-On Sessions zur praktischen Umsetzung des Erlernten begleitet.

Abschließend wird ein Ausblick auf End-to-End trainierbare Modelle gegeben. 

Hands-On Sessions:

Für die praktischen Teile des Kurses werden Übungsaufgaben in Form von Jupyter-Notebooks bereitgestellt, mit denen die Teilnehmer die Übungen selbst bearbeiten können.

Voraussetzungen:

  • Grundlegende Python Kenntnisse

  • Grundkenntnisse in überwachten Lernverfahren


Nächste Kurstermine

Janek ThomasNLP Python, Python