Introductie en voorbereidingen voor het programma R (R Project)

Data science and data analysis with R from the R ProjectFoto: © R Project (CC-BY-SA 4.0)

Introductie en voorbereidingen voor het programma R (R Project)

Als het gaat om data analyse dan zijn daar verschillende soorten programma’s voor te vinden. Eén van de programma’s is het zogeheten R Project (R) waarbij je gemakkelijk via je Windows, Mac of Linux computer een data analyse kunt uitvoeren. In deze blog reeks ga ik je de basis elementen van data analyse uitleggen in R Project.

Wat is R Project precies?

Het R Project, ook bekend onder de naam R, is een open source programma ontwikkeld door een non-profit organisatie R Project. In dit programma kunnen data analisten, in de programmeertaal R, berekeningen maken voor statistische en grafische doeleinden. Bijvoorbeeld door trends te analyseren, gemiddelden te berekenen of grafieken te ontwikkelen aan de hand van jouw dataset.

Door de integratie en ondersteuning voor vector- en matrix-operaties is het dus gemakkelijk om (ingewikkelde) grafieken te ontwikkelen. Hierdoor kan je efficiënter en sneller te werk gaan dan andere data analyse talen zoals Python.

Het programma R werd voor het eerst ontwikkeld door John Chambers in 1976. Toen kreeg het de naam S. In de loop van de tijd werd het programma verder ontwikkeld en werd het stukje software een open source programma in 1991. Toen werd de naam veranderd van S naar R, waaraan de Universiteit van Auckland mee ontwikkelde. Dit was onder begeleiding van Ross Ihaka en Robert Gentleman gedaan.

Voorheen was het programma R erg bekend onder statistici, maar tegenwoorden gebruiken veel data analisten ook het programma. Mede doordat het programma een lage leercurve heeft en makkelijk is om te leren. Mede ook doordat de R code één taal is en niet eerst omgezet hoeft te worden in een andere (gebruikers)taal. Hierdoor is het eenvoudig en functioneel te gebruiken.

In de komende weken zal ik verschillende tutorials en uitleggen plaatsen over het gebruik van het programma R. Hierin zullen wij stapsgewijs van makkelijke taken langzaam overgaan naar moeilijke taken. Mocht je in de tussentijd vragen hebben, dan kan je mij altijd een bericht sturen.

Voorbereiden om met R Project te gaan beginnen.

Om data te kunnen analyseren met het R Project moet je eerst het programma installeren. Dit kun je gratis downloaden via de website van R Project. Zo is het programma beschikbaar voor Windows, Mac en Linux. Wanneer het installatiebestand is gedownload klik je er rechts op en kies je vervolgens voor uitvoeren als administrator. Het programma heeft namelijk enkele administratieve rechten nodig om goed te kunnen functioneren. Volg vervolgens de setup om het programma te installeren.

Let op: Het is wel belangrijk dat je hierbij heb gekozen voor de R Project voor je gewenste besturingssysteem. Voor Windows gebruikers is er zowel een 32-bits als een 64-bits versie beschikbaar.

Wanneer de installatie geslaagd is moeten we nog iets anders installeren. Dit doen we door de package tidyverse te installeren in het R Project. Open het programma en voer de volgende command uit door dit in te voeren in de console (het scherm dat naar voren komt) en klik op enter. De bovenstaande package zal dan automatisch geïnstalleerd worden die nodig is voor het analyseren van data in een later stadium in deze blogreeks. De command is:

install.packages(“tidyverse”)

 

De installatie hiervan zou enige tijd kunnen duren, afhankelijk van je computer snelheid en de internetverbinding. Wanneer de installatie gelukt is zou ik je willen aanraden om het programma opnieuw op te starten zodat de net geïnstalleerde package ook goed geladen zal worden.

Eerste opdracht

In de console (het scherm dat naar voren komt) is gelijk te zien dat je daar code in kan voeren. Dit kan voor simpele elementen geen probleem zijn, maar op de lange termijn kan dit erg vervelend worden. Daarom raad ik je graag aan om een apart bestand te gebruiken om de code uit te voeren. Dit doe je door te navigeren naar File –> New File –> R Script. Hierdoor zal er een nieuw scherm worden geopend waardoor je de code daarin kunt voeren. Sla dit bestand op en je bent klaar om de code uit te voeren. Om dit script te kunnen uitvoeren kies je door de lijn te selecteren en de toetsencombinatie CTRL + Enter (PC) of CMD + Enter (MAC) te gebruiken.

Wat krijg jij te zien als je de volgende code uitvoert?

5 + 3

De goede output zou moeten zijn: #> [1] 8. Gefeliciteerd! Je eerste berekening in het R Project is zojuist gelukt!

Tot slot

In dit artikel hebben we geleerd wat het R Project is en hebben we het programma geïnstalleerd op onze computer. Hierdoor kunnen we in de volgende artikelen de stap zetten om te gaan werken met het programma. Om een goed overzicht te krijgen zal deze blogreeks er als volgt uit zien.

Artikel 1: Introductie en voorbereidingen voor R Project.
Artikel 2: Variabelen, rekenen en vergelijken met R Project.
Artikel 3: Arrays in R Project.
Artikel 4: Types in R Project.
Artikel 5: Control flow in R Project.
Artikel 6: Functies in R Project.
Artikel 7: Lijsten in R Project.
Artikel 8: Bibliotheken en packages in R Project.

Mocht je vragen hebben, dan kan je mij altijd een bericht sturen via het contactformulier op mijn website. Ik help je graag met het analyseren van data in het programma R. Veel (basis) antwoorden zouden ook te vinden zijn op de websites Stackoverflow en Stackexchange.