Zurück zu allen Events

Data Analysis und Machine Learning in R (5 Tage Hybrid-Seminar)


Kursbeschreibung

Der 5-tägige Intensivkurs Data Analysis und Machine Learning in R vermittelt in einzeln buchbaren Modulen Grundkenntnisse in R (Modul 1), praktisches Wissen zur deskriptiven Datenanalyse, der statisischen Inferenz und Modellierung in R (Modul 2), sowie Kenntnisse im supervised machine learning (Modul 3). Für die Anwendungsbeispiele und praktische Übungsaufgaben kommt die statistische Software R zum Einsatz.

Ziel: Vermittlung von theoretischen Kenntnissen im Bereich der Datenanalyse, Statistik und Machine Learning sowie technische und praktische Grundlagen in R. Dies soll es den Teilnehmern erleichtern, in ihrem Arbeitsalltag eigene Datenanalysen durchzuführen und Vorhersagemodelle anzupassen und zu verbessern. Zudem werden in den einzelnen Themenblöcken hilfreiche Zusatzpakete in R empfohlen, deren Nutzung oft unnötige Programmierarbeit, zusätzliche Recherchen und Anfängerfehler ersparen können.

Beschreibung der Module (diese können auch einzeln gebucht werden):


Anmeldeformular

Module können einzeln gebucht werden, beachten Sie die Vorraussetzungen aus der jeweiligen Kursbeschreibung. Jetzt anmelden:


Modul 1: R Crashkurs (1-tägig)

In diesem Tag werden Grundkenntnisse der Programmiersprache R vermittelt. Der Fokus liegt dabei auf die technische Einführung in R, das Erlernen der grundlegenden R-Syntax und das Arbeiten mit R zur Datenanalyse. Dieser Kurs ist sowohl für Teilnehmer ohne R Kenntnisse als auch zur Auffrischung der Grundlagen in geeignet. 

Die Themenschwerpunkte sind:

  • Arbeiten mit R und R Studio, eine der beliebtesten und mächtigsten graphischen Benutzeroberfläche (GUIs) für R.

  • Installation und Nutzung von Erweiterungspaketen in R.

  • Einführung in Hilfeseiten und Tipps zur Selbsthilfe.

  • Erläuterung der wichtigsten Datentypen, Operatoren (arithmetische und logische Operatoren) und Funktionen in R.

  • Import und Export von Daten (z.B. Dateiformate wie CSV, Excel etc.)

  • Arbeiten mit Dataframes und Vektoren (numeric, logical, character, factors), z.B. das Indizieren, Aufteilen und Umwandeln von Variablen bzw. Datensätzen.

  • Berechnen von einfachen statistischen Kennzahlen in R (z.B.: Median, Mittelwert, Quantile, Varianz, etc.).

Voraussetzungen: keine
Modul kann einzeln gebucht werden.


Modul 2: Praktische Datenanalyse in R (2-tägig)

Kursteilnehmer sollen mit den wichtigsten Konzepten und Begriffen in Data Science, Statistik und der Datenanalyse vertraut gemacht werden und lernen erste explorative Analysen in verschiedenen Datensituationen durchzuführen. 

Themenschwerpunkte Teil 1: Grundlagen der Statistik und Datenanalyse in R

  • Definition von Data Science und weiterer Grundbegriffe

  • Einführung in ggplot2 zur Visualisierung von Daten

  • Univariate Deskriptive Statistik und Datenvisualisierung in R: Häufigkeitstabellen, Balkendiagramme, Histogramme, Kerndichteschätzung, Boxplots, Dichten und Verteilungen, QQ-Plots, etc.

  • Multivariate Deskriptive Statistik und Datenvisualisierung in R: Kreuztabellen, Scatter-Plots, Korrelation

Themenschwerpunkte Teil 2: Statistische Inferenz und Modellierung in R

  • Einführung in die statistische Inferenz: Punktschätzung, Intervallschätzung und Konfidenzintervalle

  • Statistische Hypothesentests: 

    • Motivation und Übersicht: Einstichproben vs. zweistichproben Test, einseitiger vs. zweiseitiger Test, gepaarter vs. ungepaarter Tests

    • Interpretation der Ergebnisse und Begriffserklärung: Signifikanzniveau, p-Wert, Teststatistik, etc.

    • Behandelte Tests: t-Test, Welch-Test (Test auf Mittelwertunterschiede), Mann-Whitney-U-Test bzw. Wilcoxon-Rangsummentest,  Shapiro-Wilk-Test (Test auf Normalverteilung), Kolmogoroff-Smirnow-Test (Test auf beliebige Verteilungen)

    • Multiples Testen: Probleme und Lösungsansätze (z.B. Bonferroni Korrektur)

  • Statistische Modellierung:

    • Das lineare Regressionsmodell mit Erweiterungen wie multipler Regression und Verwendung von kategorischen Einflussgrößen.

    • Modellevaluation und Modelldiagnose: MSE, R-squared, QQ-plots und Residuenanalyse

    • Ausblick: Generalisierte lineare Modelle (engl. generalized linear models) mit Fokus auf logistische Regression

Software R: ggplot2

Voraussetzungen: Kenntnisse in R (etwa im Umfang von Modul 1)
Modul kann einzeln gebucht werden.


Modul 3: Supervised Machine Learning in R (2-tägig)

Themenschwerpunkte Teil 1: Einführung in Machine Learning und Predictive Modeling

Kursteilnehmer sollen mit den wichtigsten Konzepten und Begriffen des maschinellen Lernens vertraut gemacht werden, sowie erste einfache überwachte Lernmodelle trainieren und evaluieren. Folgende Themen werden behandelt:

  • Allgemeine Fragestellungen im maschinellen Lernen (Regression, Klassifikation, Clustering, …)

  • Einführung allgemeiner Begriffe (Verlustfunktion, Risikominimierung, Overfitting, Hyper- und Modelparameter, Training- und Testdaten, …)

  • Lineare und Logistische Regression aus der Perspektive des maschinellen Lernens

  • K-nächste Nachbarn Verfahren

  • Wichtige Evaluationmaße für Regression und Klassifikation und deren Eigenschaften

  • Resampling Methoden (Kreuzvalidierung, Bootstrap, …) und deren Vor- und Nachteile

Themenschwerpunkte Teil 2: Praktisches Machine Learning - Evaluation und Tuning

In diesem Kursteil werden verschiedene Algorithmen des überwachten maschinellen Lernens eingeführt. Dabei werden Vor- und Nachteile der Modelle diskutiert. Zudem werden weitere fortgeschrittene Konzepte für (überwachtes) maschinelles Lernen vermittelt um praktische Probleme besser und effizienter lösen zu können. Folgende Themen werden behandelt:

  • Funktionsweise wichtiger Machine Learning Algorithmen:

    • Regressions- und Klassifikationsbäume

    • Random Forests, ggf. Ausblick auf (Gradienten) Boosting 

  • Hyperparameter Optimierung (Zufallssuche und Gittersuche)

  • Genestete Kreuzvalidierung zur optimalen Modellwahl

  • Fallstricke und praxisrelevante Tipps bei der Modell-Evaluation und Modellwahl

Software R: mlr3, mlr3tuning, ranger

Voraussetzungen:

Modul kann einzeln gebucht werden.


Frühere Events: 13. Juni
Hybrid-Seminar: Python Basiskurs
Späteres Event: 7. Oktober
Webinar: Data Analysis Bootcamp in R