Multivariate Verfahren in R

Multivariate Verfahren beschäftigen sich mit dem Auffinden und der Modellierung von Strukturen in mehrdimensionalen Datensätzen.


Die Diskriminanzanalyse ist ein multivariates Verfahren aus dem Bereich des Supervised Machine Learning. Ziel der Diskriminanzanalyse ist die Klassifizierung von Beobachtungen in Gruppen (z.B. Klassifizierung in "kreditwürdige" und "nicht kreditwürdige" Kunden). Hierbei wird versucht die im Vorfeld bekannten Gruppen anhand von Merkmalen (z.B. Alter oder Einkommen eines Kunden) möglichst gut zu trennen um dann für künftige Beobachtung mit unbekannter Gruppenzugehörigkeit eine optimale Klassifizierung zu erhalten. 

Hauptkomponentenanalyse (PCA) und Clusteranalyse sind bekannte Verfahren aus dem Bereich des Unsupervised Machine Learning.
Die Hauptkomponentenanalyse (englisch: Principal Component Analysis (PCA)) ermöglicht es viele (potentiell miteinander korrelierte) Variablen durch eine geringere Anzahl unkorrelierter Hauptkomponenten zu ersetzen (Dimensionsreduktion). Eine Dimensionsreduktion ist immer mit einem Informationsverlust verbunden. PCA versucht einen Informationsverlust bezüglich der “Variabilität in den Daten” möglichst gering zu halten.
Clusteralgorithmen befassen sich mit dem Auffinden von Gruppen (sog. Cluster) bzw. Ähnlichkeitsstrukturen in Daten. Hierbei sind die Gruppen im Vorfeld nicht bekannt. Die Einteilung in Gruppen soll so erfolgen, dass sich Beobachtungen innerhalb eines Clusters möglichst ähnlich sind und gleichzeitig die Cluster untereinander möglichst stark unterscheiden.

Der Kurs behandelt folgende Themen:

  • Zur Wiederholung: Kurze Einführung in R (Funktionenaufrufe, Datentypen, Datenimport & /-export) und in die univariate und multivariate Datenanalyse.

  • Abgrenzung zwischen Supervised Machine Learning und Unsupervised Machine Learning, insbesondere zwischen Klassifikation und Clustering.

  • Kurze Einführung in Supervised Machine Learning: Klassifikation mittels Diskriminanzanalyse (Lineare und Quadratische Diskriminanzanalyse).

  • Auffinden von Gruppen bzw. Ähnlichkeitsstrukturen in Daten mit Hilfe der Clusteranalyse:

    • Hierarchische Clusteranalyse: Distanzmaße für Beobachtungen und Clustern (Linkage-Methoden), Dendrogramme und deren Interpretation

    • Partitionierende Clusteralgorithmen: K-Means & K-Medoids

    • Eigenschaften, Vor- und Nachteile verschiedener Clusterverfahren

  • Dimensionsreduktion mittels Hauptkomponentenanalyse (PCA) und die Erweiterung auf sparse und hochdimensionale Daten.

Die zugrundeliegenden Prinzipien der Verfahren werden verständlich eingeführt und anhand von kleinen Anwendungsbeispielen in R illustriert.

Voraussetzungen: Vorkenntnisse im Rahmen des Basiskurses


Wenn Sie Interesse an diesem Kurs haben, könnten Ihnen noch folgende weitere Kurse gefallen:

Data Science Methodenkurs
Machine Learning in R
R Vertiefungskurs
 


Nächste Kurstermine