Gegevens begrijpen in lange en brede indelingen in R-dummies

Video: De Schotse Hooglanden ontdekken... van A tot Z ;-) 2024

Wanneer we het hebben over het omvormen van gegevens in R, is het belangrijk om gegevens in lange en brede formaten te herkennen. Deze visuele metaforen beschrijven twee manieren om dezelfde informatie weer te geven. Het is handig om deze indelingen te kennen bij het gebruik van R.

U kunt gegevens in groot formaat herkennen aan het feit dat kolommen over het algemeen groepen vertegenwoordigen. Ons voorbeeld van basketbalspellen is dus in groot formaat, omdat er een kolom voor de manden is gemaakt door elk van de deelnemers:

Game Venue Granny Geraldine Gertrude 1 1st Bruges 12 5 11 2 2nd Ghent 4 4 5 3 3rd Gent 5 2 6 4 4th Bruges 6 4 7

Bekijk daarentegen de lange formaat van exact dezelfde gegevens:

Spellocatie variabele waarde 1 1e Brugge Granny 12 2 2e Gent Granny 4 3 3e Gent Granny 5 4 4e Brugge Granny 6 5 1e Brugge Geraldine 5 6 2e Gent Geraldine 4 7 3e Gent Geraldine 2 8 4e Brugge Geraldine 4 9 1e Brugge Gertrude 11 10 2e Gent Gertrude 5 11 3e Gent Gertrude 6 12 4de Brugge Gertrude 7

Let op hoe in het lange formaat de drie kolommen voor oma, Geraldine en Gertrude verdwenen zijn. In plaats daarvan heb je nu een kolom met de naam value die de daadwerkelijke score bevat, en een kolom genaamd variabele die de score koppelt aan een van de drie dames.

Bij het converteren van gegevens tussen lange en brede formaten, is het belangrijk om identificatievariabelen te onderscheiden van gemeten variabelen:

Identificatievariabelen: Identifier, of ID, variabelen identificeren de waarnemingen. Zie deze als de sleutel die uw waarnemingen identificeert. (In databaseontwerp worden dit primaire of secundaire sleutels genoemd.)
Gemeten variabelen: Dit staat voor de metingen die u hebt waargenomen.

In ons voorbeeld zijn de identificatievariabelen Game en Venue, terwijl de gemeten variabelen de doelen zijn (dat wil zeggen, de kolommen Granny, Geraldine en Gertrude).