Essential Data Science

View Original

Statistische Modellierung und Inferenz in R

Der Kurs kann im Rahmen unseres Data Analysis Bootcamp in R (siehe Modul 2) separat gebucht werden.


Dieser Kurs wurde für Personen konzipiert, die bereits über erste Erfahrungen im Umgang mit R verfügen und nun sowohl die theoretischen als auch praktischen Grundlagen für die Informationsgewinnung aus Daten mit den Methoden der klassischen Statistik kennenlernen wollen.

Ziel dieses Kurses ist es, ein solides Verständnis der Grundbegriffe statistischer Deskription und Inferenz zu vermitteln, sodass die erlernten Methoden selbständig auf die jeweiligen Arbeitsgebiete und Daten angewandt werden können.

Der Kurs behandelt folgende Themen:

Wiederholung der Grundlagen

  • Univariate und multivariate deskriptive Statistik

  • Statistische Kennzahlen: Lage- und Streuungsmaße, Odds und Odds-Ratios, Korrelation

  • Wahrscheinlichkeitsverteilungen und -dichten, z.B. Normalverteilung, t-Verteilung, Gleichverteilung

Statistische Inferenz

  • Punkt- und Intervallschätzung bzw. Konfidenzintervalle

  • Statistische Hypothesentests:

    • Motivation und Übersicht: Einstichproben vs. zweistichproben Test, einseitiger vs. zweiseitiger Test, gepaarter vs. ungepaarter Tests

    • Interpretation der Ergebnisse und Begriffserklärung: Signifikanzniveau, p-Wert, Teststatistik, etc.

    • Behandelte Tests: t-Test, Welch-Test (Test auf Mittelwertunterschiede), Mann-Whitney-U-Test bzw. Wilcoxon-Rangsummentest, Shapiro-Wilk-Test (Test auf Normalverteilung), Kolmogoroff-Smirnow-Test (Test auf beliebige Verteilungen)

  • Multiples Testen: Probleme und Lösungsansätze (z.B. Bonferroni Korrektur)

Statistische Modellierung

  • Das lineare Regressionsmodell mit Erweiterungen wie multipler Regression und Verwendung von kategorischen Einflussgrößen.

  • Generalisierte lineare Modelle (engl. generalized linear models) mit Fokus auf logistische Regression

  • Generalisierte additive Modelle: Splines zur Modellierung von nicht-linearen Effekten

  • Modelldiagnose: QQ-plots, Residuenanalyse, Identifikation von Ausreißern (z.B. Cook’s distance)

  • Modellevaluation (MSE, R-squared, Konfusionsmatrix, ROC-Kurve (engl. Receiver Operating Characteristic), AUC: Area Under the Curve)

Alle verwendeten statistischen Verfahren werden zur Auffrischung erklärt, an echten Datenbeispielen motiviert, demonstriert und mit Hilfe von Übungsaufgaben eingeübt. Zudem wird in dem Anwendungsteil des Kurses auch auf die inhaltliche Interpretation der Ergebnisse eingegangen.

Voraussetzungen: Kenntnisse in R (Im Umfang des 2-tägigen R Basiskurs bzw. 1-tägigen R Crashkurses)


See this gallery in the original post

Anstehende Kurse

See this content in the original post