Inhoudsopgave:
Video: Data Analysis in R by Dustin Tran 2024
Een zeer handige functie van ggplot2 is het bereik van functies om uw R-gegevens in de plot samen te vatten. Dit betekent dat u uw gegevens vaak niet vooraf hoeft te samenvatten. De hoogte van staven in een histogram geeft bijvoorbeeld aan hoeveel waarnemingen van iets u in uw gegevens hebt.
De statistische samenvatting hiervoor is het tellen van de waarnemingen. Statistici verwijzen naar dit proces als binning, en de standaardstatistiek voor geom_bar () is stat_bin ().
Analoog aan de manier waarop elke geom een bijbehorende standaardstatistiek heeft, heeft elke stat ook een standaardgebe.
Dus dit roept de vraag op: Hoe beslis je of je een geom of een stat gebruikt? In theorie maakt het niet uit of je eerst de geom of de stat kiest. In de praktijk is het echter vaak intuïtief om eerst met een type plot te beginnen - met andere woorden, geef een geom op. Als je dan nog een laag statistische samenvatting wilt toevoegen, gebruik dan een stat.
In deze grafiek gebruikte u dezelfde gegevens om eerst een scatterplot met geom_point () te maken en vervolgens voegde u een vloeiende lijn toe met stat_smooth ().
Bekijk enkele praktische voorbeelden van het gebruik van statistische functies.
Stat | Beschrijving | Standaardgeom |
---|---|---|
stat_bin () | Telt het aantal waarnemingen in bins. | geom_bar () |
stat_smooth () | Creëert een vloeiende lijn. | geom_line () |
stat_sum () | Voegt waarden toe. | geom_point () |
stat_identity () | Geen samenvatting. Geeft de gegevens weer zoals ze zijn. | geom_point () |
stat_boxplot () | Geeft een overzicht van de gegevens voor een box-and-whisker-plot. | geom_boxplot () |
Gegevens in ggplot2 |
Je hebt al gezien hoe je stat_bin () kunt gebruiken om je gegevens samen te vatten in bins, omdat dit de standaard stat van geom_bar () is. Dit betekent dat de volgende twee coderegels identieke grafieken produceren: >> ggplot (aardbevingen, aes (x = diepte)) + geom_bar (binwidth = 50)> ggplot (aardbevingen, aes (x = diepte)) + stat_bin (binwidth = 50)
Hoe R-gegevens in ggplot2 glad te maken
Het ggplot2-pakket maakt het ook heel eenvoudig om regressielijnen door uw gegevens te creëren. U gebruikt de functie stat_smooth () om dit type lijn te maken.
Het interessante van stat_smooth () is dat het standaard gebruikmaakt van lokale regressie. R heeft verschillende functies die dit kunnen doen, maar ggplot2 gebruikt de loess () -functie voor lokale regressie. Dit betekent dat als u een lineair regressiemodel wilt maken, u stat_smooth () moet gebruiken om een andere, vloeiendere functie te gebruiken. Dit doe je met het methode-argument.
Om het gebruik van een vloeiender te illustreren, begin met het creëren van een spreidingsdiagram van werkloosheid in de longley-gegevensset: >> ggplot (longley, aes (x = jaar, y = in dienst)) + geom_point ()
Volgende, voeg een vloeiendere toe.Dit is net zo eenvoudig als het toevoegen van stat_smooth () aan uw regel code. >> ggplot (longley, aes (x = jaar, y = in dienst)) + + geom_point () + stat_smooth ()
Vertel tenslotte stat_smooth om een lineair regressiemodel te gebruiken. U doet dit door de argumentmethode = "lm" toe te voegen. >> ggplot (longley, aes (x = jaar, y = in dienst)) + + geom_point () + stat_smooth (methode = "lm")
Hoe u ggplot2 vertelt om uw gegevens ongecommariseerd te laten
Soms wil niet dat ggplot2 uw gegevens in de plot samenvat. Dit gebeurt meestal wanneer uw gegevens al vooraf zijn samengevat of wanneer elke regel van uw dataframe afzonderlijk moet worden geplot. In deze gevallen wil je ggplot2 vertellen om helemaal niets te doen, en de stat om dit te doen is stat_identity ().