Video: Grafische rekenmachine - vergelijkingen en snijpunten van grafieken - WiskundeAcademie 2024
Voordat u probeert beschrijf uw gegevens in R, u moet ervoor zorgen dat uw gegevens het juiste formaat hebben. Dit betekent
-
ervoor zorgen dat al uw gegevens zich in een gegevensframe bevinden (of in een vector als het een enkele variabele is)
-
Ervoor zorgen dat alle variabelen van het juiste type zijn
-
Controleren of de waarden allemaal zijn verwerkt correct
Sommige gegevens kunnen slechts een beperkt aantal verschillende waarden hebben. Mensen kunnen bijvoorbeeld mannelijk of vrouwelijk zijn en u kunt de meeste haartypes beschrijven met slechts enkele kleuren.
Soms zijn meer waarden theoretisch mogelijk, maar niet realistisch. Auto's kunnen bijvoorbeeld meer dan 16 cilinders in hun motoren hebben, maar u zult er niet veel van vinden. Op één of andere manier kunnen al deze gegevens worden gezien als categorisch . Met deze definitie omvatten categorische gegevens ook ordinale gegevens.
Aan de andere kant hebt u gegevens die een onbeperkte hoeveelheid mogelijke waarden kunnen hebben. Dit betekent niet noodzakelijk dat de waarden elke gewenste waarde kunnen hebben. De kilometerstand van een auto wordt bijvoorbeeld uitgedrukt in mijl per gallon, vaak afgerond op de hele mijl. Toch zal de echte waarde voor elke auto enigszins anders zijn.
Het enige dat definieert hoeveel mogelijke waarden u toestaat, is de precisie waarmee u de gegevens uitdrukt. Gegevens die met elk gekozen nauwkeurigheidsniveau kunnen worden uitgedrukt, zijn continu . Zowel op interval geschaalde gegevens als gegevens met schaalvergroting zijn meestal continue gegevens.
Het onderscheid tussen categorische en continue gegevens is echter niet altijd duidelijk. Leeftijd is in essentie een continue variabele, maar wordt vaak uitgedrukt in het aantal jaren sinds de geboorte.
Je hebt nog steeds veel mogelijke waarden als je dat doet, maar wat gebeurt er als je kijkt naar de leeftijd van de kinderen op je plaatselijke middelbare school? Opeens heb je slechts vijf, misschien zes verschillende waarden in je gegevens. Op dat moment kunt u meer uit uw analyse halen als u die gegevens als categorisch behandelt.
Wanneer u uw gegevens beschrijft, moet u onderscheid maken tussen gegevens die profiteren van een conversie naar een factor en gegevens die numeriek moeten blijven. Als u uw gegevens als categorisch kunt bekijken, helpt het converteren naar een factor bij het analyseren ervan.