Die Reihe „Einführung in R“ entstand im Rahmen der Einführung in die Statistik für Psycholog*innen im Wintersemester 2021/2022.

Arbeitsverzeichnis setzen

Zu Beginn jedes Projektes sollten Sie ein Arbeitsverzeichnis definieren. Dieser Schritt ist notwendig, damit R weiß, wo Ihr Datensatz liegt. Außerdem wird R in das Arbeitsverzeichnis alles speichern, was an direkter Ausgabe anfällt, bspw. Plots. Fügen Sie in die Klammern den Pfad des Ordners ein, in dem Ihr Datensatz liegt.

setwd("/Users/dominiklawetzky/Desktop")

Wichtig: Achten Sie bei Windows-Betriebssystemen darauf, dass die „Richtung“ der Schrägstriche stimmt. Es wird ein Slash / und kein Backslash \ verwendet. Unter MacOS und Linux ist dies kein Problem.

Sie können die Backslashs in R in einem Rutsch durch Slashs ersetzen, indem Sie die Finden-und-Ersetzen-Funktion (engl. find and replace) verwenden. Klicken Sie dafür auf Ihrer Tastatur Strg + F (Windows) bzw. Cmd + F (MacOS).

Finden und Ersetzen in R

Geben Sie unter „Finden“ nun den zu ersetzenden \ und unter „Ersetzen“ den erwünschten / ein. Anschließend können Sie über den Button “All” alle Backslashs in Ihrem Skript durch Slashs ersetzen. Wenn Sie die Änderungen der Reihe nach überprüfen möchten, klicken Sie “Ersetzen”; dann müssen Sie jede Änderung einzeln durchführen.


Datensatz einlesen

Bitte vergegenwärtigen Sie sich, dass es unterschiedliche Typen von Datensätzen gibt. Diese wiederum werden in unterschiedlichen Formaten gespeichert. Und innerhalb dieser Formate variiert die Formatierung des Datensatzes (mehr oder weniger). Meistens handelt es sich um so genannte CSV-Dateien („comma separated values“). Der Name sagt Ihnen, dass es sich um reinen Text handelt, wobei die Werte (in einer Tabelle würde man von Zellen sprechen) durch Kommata getrennt sind.Sie werden gleich sehen, dass Letzteres nicht immer der Fall ist.

Hier ein Beispiel für einen CSV-formatierten Datensatz – geöffnet in einem Texteditor:

Beispiel einer CSV-Datei

CSV-Dateien können Sie mit der Funktion read.csv einlesen. Diese Funktion müssen Sie meist mit Argumenten spezifizieren. Jedes Argument hat eine Standardeinstellung (Default). Wenn Sie das Argument nicht näher spezifizieren, springt R auf den Default zurück.

Das erste Argument ist der Name der Datei, die Sie einlesen möchten. Dieser wird in Anführungszeichen gesetzt und mit Dateiendung (.csv) angegeben. In meinem Fall heißt die Datei fb21.csv. Mit header = TRUE geben Sie an, dass Ihr Datensatz in der ersten Zeile eine Kopfzeile mit den Variablennamen hat. Ist dies nicht der Fall, so gilt header = FALSE.


Tipp: Sie können TRUE und FALSE durch T und F abkürzen. Anstelle von header = TRUE schreiben Sie dann header = T. Wichtig ist allerdings, dass T und F großgeschrieben werden.


Das Argument sep spezifiziert den Separator, also das Zeichen, welches die Werte voneinander trennt. Meist sind dies Kommata („comma separated values“); daraus resultiert sep = ",". Gelegentlich werden allerdings auch Leerzeichen oder Semikola verwendet. Um herauszufinden, welches Trennzeichen verwendet wird, öffnen Sie die CSV-Datei in einem Texteditor und schauen nach.

Im letzen Schritt legen Sie den Namen Ihres Objekts in R fest, den Sie mit dem eingelesenen Datensatz beschreiben. Verwenden Sie hierfür den Zuweisungspfeil <- vor der Einlesefunktion read.csv.

data <- read.csv("fb21.csv", header = TRUE, sep = ",")