Moderne Multivariate Verfahren in R

Multivariate Verfahren beschäftigen sich mit dem Auffinden und der Modellierung von Strukturen in höherdimensionalen Datensätzen.


Der Kurs behandelt folgende Themen:

Einführung in R (Funktionenaufrufe, Datentypen, Datenimport & /-export)
Univariate und multivariate Datenanalyse (Beschreibungsmaße, Biplots etc.)
Prognose kategorischer abhängiger Variablen (Klassifikation) mittels Diskriminanzanalyse

  • Lineare Diskriminanzanalyse

  • Quadratische Diskriminanzanalyse

  • Leave - One - Out - Kreuzvalidierung

Auffinden von Gruppen bzw. Ähnlichkeitsstrukturen in Daten mit Hilfe der Clusteranalyse

  • Hierarchische Clusteranalyse

    • Distanz zwischen Beobachtungen

    • Distanz zwischen Cluster (Linkage-Methoden)

    • Dendrogramme

    • Eigenschaften verschiedener Clusterverfahren (Chaining und Crowding)

  • K-Means Clustering

    • Optimale Partitionierung

    • Eigenschaften

    • Implementierung in R

Dimensionsreduktion von Datensätzen mittels Hauptkomponentenanalyse (PCA) und moderne Erweiterungen auf sparse und hochdimensionale Daten.

Folgende R-Pakete werden behandelt.

  • cluster

  • BiplotGUI

  • elasticnet

  • arules / arulesviz

Ziel der Diskriminanzanalyse ist die Klassifizierung von Beobachtungen in Gruppen (z.B. Klassifizierung in "kreditwürdige" und "nicht kreditwürdige" Kunden). Hierbei wird versucht die im Vorfeld bekannten Gruppen anhand von Merkmalen (z.B. Alter oder Einkommen eines Kunden) möglichst optimal zu trennen. 

Bei der Clusteranalyse sind die Gruppen im Vorfeld nicht bekannt, d.h. es sollen für gegebene Daten verschiedene Gruppen gefunden werden (sog. Cluster). Die Einteilung in Gruppen soll so erfolgen, dass sich Beobachtungen innerhalb eines Clusters möglichst ähnlich sind und sich die Cluster untereinander möglichst unterscheiden.

Die Hauptkomponentenanalyse (englisch: Principal Component Analysis (PCA)) ersetzt eine Vielzahl miteinander korrelierter Variablen durch eine geringere Zahl unkorrelierter Hauptkomponenten. Häufig ist es vorteilhaft wenn die Lösung einer Hauptkomponentenanalyse möglichst viele Null-Einträge aufweist (englisch: sparse solution). Darüber hinaus liegen in Anwendungen zunehmend hochdimensionale Datenstrukturen vor, in denen die Anzahl der Variablen deutlich größer als die Anzahl der Beobachtungen ist. 

Biplots bieten die Möglichkeit der gleichzeitigen Visualisierung der Zeilen und Spalten einer Datenmatrix, aufbauend auf dimensionsreduzierenden Verfahren. 

Die Assoziationsanalyse bezeichnet die Suche nach Assoziationsregeln. Diese beschreiben Korrelationen zwischen gemeinsam auftretenden Dingen. Der Zweck einer Assoziationsanalyse besteht darin, Items (Elemente einer Menge, wie z.B. einzelne Artikel eines Warenkorbs) zu ermitteln, die das Auftreten anderer Items innerhalb einer Transaktion implizieren.

Die zugrundeliegenden Prinzipien der o.a. Verfahren werden verständlich eingeführt und illustriert. Der Schwerpunkt des Kurses liegt auf der Anwendung von in R verfügbaren Werkzeugen zur Implementierung der Methoden anhand von Beispielen aus der Praxis. Der Kurs findet in deutscher Sprache statt, die Kursunterlagen sind in englischer Sprache verfasst.  


Wenn Sie Interesse an diesem Kurs haben, könnten Ihnen noch folgende weitere Kurse gefallen:

Data Science Methodenkurs
Machine Learning & Data Mining mit R
Effizientes & Paralleles Programmieren mit R
 

Abonnieren Sie unseren Newsletter und bleiben Sie immer auf dem Laufenden.

Patrick Tu