Wat is R?

R is een programmeertaal en omgeving waarin je statistische berekeningen kunt doen en mooie visualisaties kunt maken van je onderzoeksdata.  Je schrijft dan een script of code voor je analyse in een zogenaamde console, of in RStudio, en 'runt' het script. Net zoals SPSS kun je R gebruiken voor het invoeren, bewerken, opslaan en analyseren van je onderzoeksdata. Er zijn wel een paar belangrijke verschillen tussen SPSS en R.

  1. De user interface: waar SPSS met handige dropdown menu's werkt, is R dus een programmeertaal. Je zult moeten leren om een script te schrijven voor je analyse. Als dit helemaal nieuw voor je is, kan het wat tijd kosten om dit onder de knie te krijgen. 
  2. Een belangrijk voordeel van een script schrijven voor je data analyse is dat je goed kunt bijhouden welke stappen je hebt genomen om tot je resultaten te komen. Met een dropdown menu is het makkelijker om stappen te vergeten. 
  3. Alle R software is open source, wat betekent dat je geen speciale licenties nodig hebt om het te gebruiken; het is vrij toegankelijk voor iedereen. Een belangrijk voordeel hiervan -naast dat het dus gratis is- is dat R behoorlijk dynamisch is: er worden door gebruikers in de R community constant nieuwe modules ontwikkeld waarmee je bijvoorbeeld flitsende visualisaties van je data kunt maken.

Kort gezegd is het vergeleken met SPSS even wat lastiger om bekend te worden met R, maar heeft R dus ook veel meer mogelijkheden. In deze Library Guide hebben we praktische informatie over R voor je verzameld: denk aan instructievideo's, boeken en uitgebreide LibraryGuides van andere universiteiten. Ook vertellen we je met wie je contact op kunt nemen als je vast loopt (deze ondersteuning wordt niet verzorgd door de HanzeMediatheek, maar door andere collega's binnen de Hanze).

Hieronder kun je doorklikken naar je gewenste informatie. Succes!

Installatie hulp

R installeren op je computer is vrij eenvoudig. Ga naar de website en kies de versie en het platform waarop je R wilt installeren (Windows, macOS, of Linux) en download de laatste versie. Download dan ook meteen RStudio, dat is een veelgebruikt platform om een R script in te schrijven. Dit kan via de site van R Studio. Je kunt hier kiezen voor installatie op je persoonlijke computer, of een web based versie. Beide zijn gratis. Hier kun je een handig filmpje kijken over hoe je R en RStudio installeert

 

Zoals gezegd is alle R software open source: je hebt geen licentie nodig om het te gebruiken. De applicatie is bovendien goedgekeurd door de Hanze, het is veilige gratis software.

Eerste introductie

In de onderstaande afbeelding zie je hoe R-Studio eruit ziet wanneer je het voor het eerst opent:

We beginnen hier met een eerste stukje code. Als je al eens eerder een programmeertaal hebt geleerd, komt dit je vast bekend voor. Type onderstaande regel in je console en druk op ENTER.

print("Hello World!")

Je hebt nu je eerste regel gecodeerd in R.

De meest basale functionaliteit van R is die van rekenmachine. Probeer onderstaande sommetjes maar eens uit. Voer ze in in je console en druk weer op ENTER.

2+2
3*4
12/3
8-1
2^3

Zoals je ziet voert R de sommetjes snel uit zonder dat het een andere command nodig heeft.

Je kunt in R waarden toewijzen aan variabelen. We gebruiken een variabele om een stukje informatie op te slaan. In R kun je dat doen met de '<-' operator. Bijvoorbeeld;

x <- 8

Probeer nu maar eens met x te rekenen. Bijvoorbeeld;

x * 4
x + 4
x^2

Valt je nog iets anders op? Kijk eens rechtsboven in je scherm, daar is nu de variabele x met waarde 8 verschenen.

 

Voordat je met een project begint is het belangrijk om ervoor te zorgen dat je in de juiste map aan het werken bent. Je kunt controleren in welke map je project (en dus je bestanden) worden opgeslagen met behulp van de onderstaande regel code:

getwd()

Probeer de regel maar eens uit. Je kunt hem kopiëren en in je console plakken, en vervolgens op ENTER drukken.

'getwd()' is een functie. Een functie is een herbruikbaar stuk code dat een bepaalde taak uitvoert. In dit geval staat 'getwd()' voor 'get working directory'. De output van deze functie is de locatie van de map waarin je aan het werk bent. Als deze niet correct is, kun je deze aanpassen met de volgende regel code:

setwd(voer hier de juiste map in tussen aanhalingstekens, bijvoorbeeld "C:\Users\USER\OneDrive - Hanzehogeschool Groningen\Documents\R\Project")

Je kunt de map waarin je werkt dus aanpassen met de functie 'setwd()'. Zodra je working directory goed staat ingesteld, kun je aan de slag.

Een "package" in R verwijst naar een verzameling van functies, gegevenssets en documentatie die samenwerken om specifieke taken uit te voeren. Packages stellen je in staat om extra functionaliteit aan R toe te voegen zonder de kernfunctionaliteit van R zelf te wijzigen.

 

Je kunt packages installeren met de volgende functie. Je voert hier de naam van een functie tussen aanhalingstekens in, of je voert een lijst in met behulp van de functie 'c()'. Onderstaand is ook een vooraf gebouwde regel code waarmee je de packages die naar alle waarschijnlijkheid nodig zult hebben in één keer kunt installeren. Je kunt die functie kopiëren en in je console plakken en daarna op ENTER drukken. Let op, de installatie kan even duren.

install.packages("package")
install.packages(c())
install.packages(c("dplyr", "ggplot2", "tidyr", "rmarkdown", "stringr", "readr", "caret", "knitr", "lubridate", "shiny", "ggpubr", "ggstatsplot", "RColorBrewer", "swirl", "car", "effectsize", "readxl", "psych", "pastecs", "vcd", "tidyverse"))

Hieronder staat kort wat de packages doen en is er link naar de documentatie beschikbaar. Je kunt er op basis van onderstaande informatie ook voor kiezen om niet al deze packages te downloaden, verwijder dan de aanhalingstekens, de naam van de package, en de komma die de package die je niet wilt downloaden volgt.

  • Swirl: Een interactieve R-package die wordt gebruikt voor het leren van R-programmeren en statistische concepten. Het biedt interactieve oefeningen en lessen rechtstreeks in de R-console.

  • Car: Een package voor toegepaste statistiek en data-analyse. Het bevat functies voor lineaire en niet-lineaire modellering, data-visualisatie, statistische testen en nog veel meer.

  • Psych: Een package voor psychometrische en psychologische test- en schaalanalyse. Het biedt functies voor het uitvoeren van verschillende soorten analyses op psychologische gegevens. Het wordt vaak gebruikt bij de analyse van vragenlijsten.

  • Rmarkdown: Een package waarmee je op een eenvoudige manier opgemaakte tekst kunt maken, inclusief opmaak en opmaakstijlen, en deze kunt converteren naar verschillende formaten, zoals HTML of PDF.

  • Knitr: Een package om dynamische documenten te maken met R-code en tekst. Het helpt bij het integreren van code, resultaten en uitleg in één document.

  • Readxl: Een package voor het inlezen van Microsoft Excel-bestanden (.xls en .xlsx) in R, waardoor je gegevens eenvoudig kunt importeren en analyseren.

  • Stringr: Een package voor het manipuleren van teksten en strings in R. Het biedt functies voor het zoeken, vervangen, splitsen en samenvoegen van strings.

  • Readr: Een package voor het inlezen van gestructureerde gegevens in R, met een focus op efficiëntie en snelheid. Het is nuttig voor het inlezen van platte tekstbestanden en CSV-bestanden.

  • Tidyr: Een package om gegevens om te vormen en te herstructureren. Het helpt bij het herschikken van gegevenssets om ze geschikt te maken voor analyse en visualisatie.

  • Tidyverseeen verzameling van R-packages die zijn ontworpen om data-analyse en visualisatie te vergemakkelijken.

  • Ggplot2: Een populaire package voor datavisualisatie met behulp van de "Grammar of Graphics". Het biedt een flexibele en gestructureerde manier om complexe grafieken te maken.

  • Ggpubr: Een package die de functionaliteit van 'ggplot2' uitbreidt en extra mogelijkheden biedt voor publicatieklare grafieken en visualisaties.

  • Ggstatsplot: Een package die statistische analyses combineert met 'ggplot2'-visualisaties, waardoor je complexe analyses en grafieken kunt maken.

  • RColorBrewer: Een package voor het genereren van aantrekkelijke en leesbare kleurenpaletten voor grafieken en visualisaties.

  • Vcd: Een package voor de analyse en visualisatie van categorische gegevens en kruistabellen.

  • Pastecs: Een package voor de exploratieve analyse van statistische gegevens, inclusief samenvattende statistieken en grafieken.

  • Effectsize: Een package voor het berekenen en rapporteren van effectgroottes in statistische analyses.

  • Dplyr: Een package voor het bewerken en transformeren van gegevensframes. Het biedt een reeks eenvoudige en consistente functies voor datamanipulatie.

  • Caret: Een package voor het uitvoeren van machine learning-taken, waaronder modelfitting, -validatie en -selectie.

  • Shiny: Een package om interactieve webtoepassingen te maken met behulp van R. Hiermee kun je datavisualisaties en analyses delen via webbrowsers.

  • Lubridate: Een package voor het werken met datums en tijden in R. Het maakt het gemakkelijker om complexe operaties met datums en tijden uit te voeren.

Je kunt in R een package laden met behulp van de volgende functie (met voorbeeld):

library()
library(swirl)

 

Voor dit onderdeel heb je ten minste de packages 'rmarkdown' en 'knitr' nodig. Zie het kopje 'Packages' om deze te installeren als je dat nog niet hebt gedaan.

 

Markdown openen

 

Het documenteren van je handelingen met je onderzoeksdata is belangrijk. Jij en anderen moeten kunnen begrijpen wat je doet en hebt gedaan. Markdown is hiervoor (en voor rapportage) uitermate geschikt. Dit onderdeel van de gids laat kort zien wat je met Markdown kunt doen.

 

Om een nieuw markdown bestand te openen klik je na het openen van R op 'new file' (zie het gemarkeerde icoontje hieronder), en daarna op 'R Markdown'.

 

Wanneer je deze handelingen hebt uitgevoerd, zie je onderstaand prompt:

 

Hier kun je je project een titel geven, de auteur en datum van creatie geven, en een output-vorm selecteren. Hier is gekozen voor html-output, maar je kunt ook kiezen voor output in PDF of Word. Wanneer je op 'OK' klikt, verschijnt er een nieuw blok in R met een tabbalk waar jouw markdown bestand in verschenen is. Dit heet nu nog 'Untitled'. Dit kun je aanpassen door naar 'File > save as' te gaan en het markdown bestand onder een andere, betekenisvolle naam op te slaan. In dit geval wordt het opgeslagen als Testje_01, omdat dit de eerste versie voor dit project wordt.

 

Look & Feel van een markdown bestand

Dit onderdeel gaat in op wat je in een markdown bestand kwijt kunt. We beginnen bij het bovenste balkje. 

We gaan even wat dieper in op 'Knit', 'edit markdown format options', add new code chunk', en 'run'.

 

  1. Om uiteindelijk een leesbaar document te genereren 'knitten' we ons markdown document om een HTML/PDF/Word bestand te genereren. Probeer het maar eens uit. Het enige wat je hoeft te doen is klikken op 'Knit'.
  2. Edit Markdown Format Options: Hier kun je je werkbestand formatteren (dus het bestand waarin jij aan het coderen en schrijven bent). Je kunt bijvoorbeeld aangeven waar je de preview van visualisaties wilt weergeven, in je werkbestand of rechts onderin bij de viewer. Je kunt ook aangeven of je überhaupt een preview wil van je visualisaties en resultaten etc.

            

  1. Je kunt in je Markdown bestand verschillende type code chunks invoegen, niet alleen R code chunks maar bijvoorbeeld ook Bash, D3, Pythonm Rcpp, SQL, en Stan code. Een code chunk voeg je toe door hem hier te selecteren of door hem zelf te coderen:

            

```{r}

```
  1. Onder het dropdown menu Run vindt je verschillende mogelijkheden om code chunks uit te voeren. Je kunt regels selecteren, je kunt 1 hele chunk uitvoeren, je kunt alle bovengaande of alle onderstaande chunks uitvoeren of je hele document uitvoeren.

           

 

Wanneer je naar het daadwerkelijke document kijkt zie je het volgende als eerst:

Hier kun je je bestand deels formatteren. Je kunt bijvoorbeeld ook nog een course code toevoegen, of een inhoudsopgave. Dat zou er bijvoorbeeld als volgt uit kunnen zien:

 

Kijk nu naar de volgende afbeelding:

  1. De bovenste code chunk is de set-up van het R-Markdown document. Dit kun je naar wens aanpassen, maar beter niet verwijderen. 
  2. '## R Markdown' is een kopje dat ook in een mogelijke table of contents zou verschijnen. Met '#' geef je een titel aan, met '##' kop 2, '###' kop 3 etc.
  3. Daaronder staat een voorbeeld van het invoegen van een afbeelding. Het is het makkelijkst om zo'n afbeelding, als je die wil gebruiken, in hetzelfde mapje als de rest van je project te zetten. De syntax is alsvolgt:
![ondertitel](locatie/afbeelding)

 

Als laatste geeft de bovenstaande afbeelding weer wat je verder met markdown kunt. Lees de tekst even door en let op het volgende. Markdown werkt deels als een text editor. Je kunt dingen vet drukken, italicized text gebruiken, je kunt lijstjes maken etc. Zie deze cheatsheet over het opmaken van tekst in markdown: https://www.rstudio.com/wp-content/uploads/2015/02/rmarkdown-cheatsheet.pdf. Je ziet ook twee code chunks, voer ze maar eens uit en zie wat je opvalt. 

 

Wanneer je met je eigen project aan de slag wil, kun je in principe alles onder en inclusief  '## R Markdown' weghalen (selecteer + Del/backspace).

 

Voor een daadwerkelijke minicursus over het importeren, inspecteren, schoonmaken, beschrijven, en visualiseren van data, zie het volgende kopje.

Als onderdeel van deze library guide is er een minicursus gemaakt voor en over R, met opdrachten en oefendata. Zorg dat je eerst een markdown document hebt geopend, en dat ten minste de volgende packages naast knitr en rmarkdown zijn geïnstalleerd.

install.packages(c("readxl", "pastecs", "vcd", "ggplot2", "RColorBrewer", "car", "ggpubr", "ggstatsplot"))

Daarna kun je onderstaande documenten downloaden en gebruiken voor een proefproject. Hier staat ook een korte wat is wat:

  1. Minicursus_R.pdf : Dit document bevat de minicursus met alle complete code en uitleg. Je kunt met de cursus meecoderen en de regels code makkelijk hergebruiken voor je eigen project. 
  2. Opdrachten minicursus R.pdf: Dit document bevat opdrachten om te oefenen met regels code die je in de minicursus krijgt. De opdrachten gaan ook in op het verder schoonmaken van data, en bevatten dus ook weer nieuwe herbruikbare regels code.
  3. mtcars.csv : een .csv bestand met een oefen dataset, wordt gebruikt in de minicursus. Zie hier de documentatie.
  4. iris.xlsx : een Excel bestand met een oefen dataset, wordt gebruikt in de minicursus. Zie hier de documentatie.
  5. gapminder_ex.csv : een .csv bestand met een oefen dataset, wordt gebruikt in het opdrachtensheet. Deze data is gemanipuleerd voor de opdrachten. Zie hier de documentatie. 

Als je het fijn vind om nog even verder te oefenen met R, kun je Swirl gebruiken. Dit is een package die je kunt gebruiken in R met veel cursusmateriaal om in het platform zelf te oefenen. Je kunt het alsvolgt in je console installeren, laden, en gebruiken. Veel plezier!

install.packages("swirl")
library(swirl)
swirl()

 

[anchornavigation]