Kommt man um R langfristig herum?
Ja natürlich. Wenn einem das Verständnis für Daten, deren Verwendbarkeit und die Erkenntnisse aus deren „In-Beziehung-setzen“ egal ist, weil das andere machen und man selbst nie etwas damit am Hut haben möchte. Wer bereits heute nach vorne sieht und sich überlegt, womit sie oder er z. B. freiberuflich oder auch angestellt in fünf Jahren das Geld verdienen kann, für den gibt es nur ein Nein als deutliche Antwort.
R ist kostenlos. R kann von jedermann ganz einfach installiert werden. Für R gibt es eine sehr gute Oberfläche, R Studio, das sich praktisch als nützliche Hülle um die Kommandozeile legt. Über R gibt es viele Bücher, viele Tutorials, viele Kurse und viele Tipps im Web. Es gibt keinen Grund, warum Sie R nicht wenigstens einmal zur Probe installieren sollten und einige wenige Beispiele aus den folgenden Büchern mit wenigen Befehlszeilen ausprobieren sollten bzw. können.
Stellen Sie sich vor, Sie kennen Excel nicht und besitzen nur einen Taschenrechner. Alle Zahlen haben Sie bisher immer nacheinander und auf Papier gerechnet. Jetzt zeigt Ihnen jemand Excel und wie man mit Zellen rechnen kann.
Sie zeigt Ihnen, wie Sie zwei Spalten mit je 100.000 Zahlen in der dritten Spalte gaaaaanz einfach addieren. Dann klickt sie auf einen kleinen schwarzen Nupsi unten am Zellenrand und „Bämmm“ – alle 200.000 Zahlen sind innerhalb einer halben Sekunde addiert. Dann markiert sie diese Einzelsummen in der dritten Spalte, macht zwei Shortcuts auf der Tastatur und unten in Excel stehen die Anzahl, der Durchschnitt und die Summe über alle Zahlen. Seien wir realistisch: Wir würden hintenüber vom Stuhl fallen vor Staunen. Wir haben ja gesagt, Sie haben noch nie was von Excel gehört bisher. Ihr gesamter Arbeitsinhalt verkürzt sich ab jetzt dramatisch. Nach nur zwei Tagen haben Sie so viele Vorteile bei der Arbeit mit Excel gefunden, dass sie sieben Tage bräuchten, um alle aufzuzählen.
So. Jetzt stellen Sie sich vor, sie kennen Excel recht gut und nutzen es auch häufig bei Ihren Tätigkeiten. Sie kennen die Grenzen mittlerweile und haben auch gelernt, wie man sie mit dem einen oder anderen Trick umgehen kann. Sie öffnen CSV-Dateien aus der Buchhaltung, passen die Umlaute bzw. die Codierung des Buchstabens an, nehmen die mit Komma getrennten Daten in einzelne Spalten, suchen fehlerhafte Daten, eliminieren diese, stellen einige Formeln ein und so weiter. Dann noch ein Datum zum Datensatz, abspeichern, fertig. Und jetzt kommt jemand, der Ihnen R zeigt. Er gibt vier Befehlszeilen ein und zeigt Ihnen dann in einem Verzeichnis auf der Festplatte die exakt gleiche Exceltabelle, die Sie in den letzten 1,5 Stunden erstellt haben. Mit vier Zeilen. Die Krönung. Er speichert diese vier Zeilen jetzt als Programm ab und fortan können Sie es direkt quasi per Mausklick abrufen. Jetzt fallen Sie wohl nicht mehr vom Stuhl, weil Sie das von ersten Mal noch als sehr schmerzhaft in Erinnerung haben. Aber – Sie wären geflasht, oder? Ihre 1,5 Stunden ersetzt durch am Ende nur eine Zeile Code.
Hab‘ ich jetzt Ihre volle Aufmerksamkeit? Wie oben erwähnt, gibt es viele gute Lernquellen für R. Zwei Bücher möchte ich dennoch herausheben bzw. zur Prüfung empfehlen. Für blutige Einsteiger eignet sich meiner Meinung nach z. B. das Buch aus der Dummie-Reihe von Andrie de Vries und Joris Meys: „R für Dummies“. Hier geht es wirklich ganz vorne los und hilft bei der Installation, erklärt den Aufbau der Analysesoftware, erklärt wirklich Schritt für Schritt Dinge, die man zu Beginn wissen sollte. Was sind Dimensionen, Vektoren oder Faktoren und wie geht man damit um. Sie lernen, wie sie z. B. eine ganze Exceltabelle in den Speicher holen und die einzelnen Daten(-Zellen) darin direkt ansprechen, verrechnen, modifizieren oder ergänzen können. Wie findet man ganz einfach Fehler in Datensätzen? Allein dieses Wissen hilft, SEHR viel bessere Analysen erstellen zu können. Fast niemand weiß, dass in den oft Hunderttausenden von Datensätzen, die man per Excel verdichtet, filtert und zu Auswertungen bringt, fast immer fehlerhafte Daten stecken. Warum das niemand weiß? Weil niemand aktiv danach sucht. Manuell 15.000 Warenkorbdaten durchsehen? Schwachsinn. Das tut niemand. Was man aber macht: Auf jeden Fall schon mal einen Mittelwert berechnen und den als Schlüsselkennzahl (KPI) deklarieren. Dass in den 15.000 Datensätzen aus dem letzten Jahr vier Testbestellungen über je ca. 15.000 € enthalten waren, als vielleicht sogar Sie selbst herumgetestet haben – daran denkt nun heute wahrlich niemand mehr. In R erhalten Sie mit einem einzigen Befehl “Summary(Name_Datensatz)“ wichtige Kennzahlen wie z. B. unter anderem neben dem Mittelwert, Median und Modus das Minimum und das Maximum. Da stünde dann als Maximum „15.800,00“. Da Ihr durchschnittlicher Warenkorb z. B. bei 32,00 € liegt, wissen Sie noch vor einer Analyse bzw. Verarbeitung, dass hier etwas nicht stimmt. Sie suchen die Ausreißer, löschen sie und Ihre Durchschnittswerte sinken nunmehr vielleicht sogar drastisch ab.
Auch hier täuscht das Wort „Dummie“ im Buchtitel. Das Buch geht vergleichsweise tief in die Materie, bleibt aber sprachlich und vom Vorgehenstempo immer so, dass man als Nicht-Freak noch mitgenommen wird. Sie werden das schnell merken, wenn Sie nach freien Anleitungen für R im Web suchen. Es gibt sie zuhauf, alleine, weil viele Hochschulen ihre Lehrunterlagen als PDF frei im Netz verfügbar haben. Aber lesen Sie da ruhig mal rein, da wimmelt es vor oft unerklärten Fachbegriffen und es werden meist schon sehr gute Statistikkenntnisse vorausgesetzt. Dieses Buch hier macht Spaß.