Hoe u frequenties of densiteiten gebruikt met uw gegevens in R-dummies

Video: POWER BALANCE GOEDKOOPST BIJ WWW.GOLFQUIP.NET 2024

Door uw gegevens in intervallen in R te splitsen, verliest u nog steeds wat informatie. De meest complete manier om uw gegevens te beschrijven, is toch door de kansdichtheidsfunctie (PDF) of dichtheid van uw variabele te schatten.

Maak je geen zorgen als dit concept je niet kent. Vergeet niet dat de dichtheid evenredig is aan de kans dat een waarde in uw gegevens ongeveer gelijk is aan die waarde. In feite wordt voor een histogram de dichtheid berekend uit de tellingen, dus het enige verschil tussen een histogram met frequenties en een met dichtheden, is de schaal van de y -as. Voor de rest zien ze er precies hetzelfde uit.

Een dichtheidsplot maken

U kunt de dichtheidsfunctie van een variabele schatten met de functie density (). De uitvoer van deze functie zelf vertelt je niet zo veel, maar je kunt het eenvoudig in een plot gebruiken. U kunt bijvoorbeeld de dichtheid van de mileage variabele mpg als volgt berekenen: >> mpgdens <- density (cars $ mpg)

Het object dat u op deze manier krijgt, is een lijst met veel informatie die u niet echt nodig om naar te kijken. Maar die lijst maakt het plotten van de dichtheid net zo eenvoudig als zeggen "de dichtheid plotten":

>> plot (mpgdens)

De plot ziet er een beetje ruw uit aan de randen, maar het belangrijkste is om te zien hoe uw gegevens eruit komen te zien. Het dichtheidobject wordt geplot als een lijn, met de werkelijke waarden van uw gegevens op de

-as en de dichtheid op de y -as. Het mpgdens-lijstobject bevat - onder andere - een element met de naam x en een element met de naam y. Deze vertegenwoordigen de x

- en y -coördinaten voor het plotten van de dichtheid. Wanneer R de dichtheid berekent, splitst de functie density () uw gegevens in een aantal kleine intervallen en berekent de dichtheid voor het middelpunt van elk interval. Die middelpunten zijn de waarden voor x en de berekende dichtheden zijn de waarden voor y.

Dichtheden in een histogram plotten

Vergeet niet dat de functie hist () de tellingen retourneert voor elk interval. Nu is de kans dat een waarde binnen een bepaald interval ligt recht evenredig met de tellingen. Hoe meer waarden u binnen een bepaald interval hebt, hoe groter de kans dat elke waarde die u heeft gekozen in dat interval ligt.

Dus in plaats van de tellingen in het histogram te plotten, kunt u net zo goed de dichtheden plotten. R voert alle berekeningen voor je uit - het enige dat je hoeft te doen is het freq-argument van hist () op FALSE in te stellen, zoals dit: >> hist (auto's $ mpg, col = "gray", freq = FALSE)

Nu zal de plot er hetzelfde uitzien als voorheen; alleen de waarden op de

-as zijn verschillend.De schaal op de

y -as is zodanig ingesteld dat u de dichtheidsplot boven het histogram kunt toevoegen. Daarvoor gebruikt u de functie lines () met het density-object als argument. U kunt bijvoorbeeld het vorige histogram een beetje verder verfijnen door de geschatte dichtheid toe te voegen met de volgende code direct na de vorige opdracht: >> lijnen (mpgdens) U ziet het resultaat van deze twee commando's aan de rechterkant. Onthoud dat lines () de x- en y-elementen uit het dichtheidsobject mpgdens gebruikt om de lijn te plotten.