Efficient Data Processing in R

Datenmanipulation und Verarbeitung  kann oft eine der zeitaufwendigsten Tätigkeiten in einer statistischen Analyse sein. In diesem Kurs werden Fähigkeiten vermittelt um effizient auch mit größeren Datenmengen in R arbeiten zu können. 

Der Kurs behandelt folgende Themen:

split_apply_combine.jpg
  • Grundlagen von R: Erläuterung wichtiger Datentypen & Operatoren

  • Verwendung graphischer Benutzerschnittstellen (GUIs) für R (z.B. R Studio)

  • Split / Apply / Combine in R

  • Relation zu MapReduce

  • Handhabung von Daten mit dplyr & magrittR (“Chaining und Pipelining”)
    Datenbanken:

  • SQL Anfragen mit DBI

  • Vereinfachte Datenbankanbindung mit dplyr

  • (kurz) R-Pakete für spezielle Datenbanken (MongoDB, MySql, Redis etc.)

Datenhandhabung mit dem ‘data.table’ Paket

Folgende R-Pakete werden behandelt:

  • plyr, dplyr, magrittr

  • sqldf, DBI

  • data.table

Split-Apply-Combine beschreibt den Allgemeinen Vorgang, einen Datensatz in kleine Teildatensätze zu zerteilen, auf jedem Teildatensatz Operationen auszuführen und die Ergebnisse dann wieder zusammenzufügen. Ein sehr einfaches Beispiel für Split-Apply-Combine Strategien sind gruppierte Mittelwerte und weitere statistische Kennzahlen.

Im weiteren sollen Techniken gezeigt werden um größere Datensätze schnell in R einzulesen und diese effizient zu speichern. Dabei wird data.table als Speicherobjekt genutzt. Dies erlaubt Transformationen am Datensatz über call by references durchzuführen, damit wenig bis gar kein zusätzlicher Speicherplatz benötigt wird.
Wenn viele Datenvorverarbeitungsschritte nacheinander durchgeführt werden, wird Programmcode schnell unübersichtlich. Zusätzlich werden oftmals viele unnötige 


Zwischenschritte explizit abgespeichert, was zusätzlichen Speicher kosten kann. Mit sog. chaining - Operatoren kann Code zur Vorverarbeitung von Analysen wesentlich effizienter und übersichtlicher dargestellt werden.

Als letztes Thema wird auf die Verbindung von Datenbanken mit R eingegangen. Nachdem in R Daten immer im Hauptspeicher liegen, kann es sehr langsam werden mit großen Datensätzen zu arbeiten. Mithilfe von Datenbanken können die Daten auf der Festplatte oder in der Cloud gelagert werden und nur die Daten, die R in einem Schritt tatsächlich benötigt, werden dann in den Arbeitsspeicher geladen.

Nach dem Kurs sollen Teilnehmer in der Lage sein effizient auch mit größeren Datenmengen in R arbeiten zu können, sowie Datenvorverarbeitung klarer, einfacher und schneller durchführen zu können.


Wenn Sie Interesse an diesem Kurs haben, könnten Ihnen noch vor allem folgende Kurse gefallen:

Moderne Multivariate Verfahren mit R
Machine Learning & Data Mining mit R
Data Science Methodenkurs
 



Termine und Anmeldung

Der nächste Kurstermin wird bald angekündigt.
Abonnieren Sie unseren Newsletter und bleiben Sie immer auf dem Laufenden.