Video: Data Analysis in R by Dustin Tran 2024
Een andere nuttige toepassing van subsetting dataframes is om rijen met ontbrekende gegevens te vinden en te verwijderen. De R-functie om te controleren of deze is voltooid. gevallen(). Je kunt dit proberen met de ingebouwde luchtkwaliteit van de dataset, een dataframe met een grote hoeveelheid ontbrekende gegevens: >> str (airquality)> voltooid. cases (airquality)
De resultaten van voltooid. cases () is een logische vector met de waarde TRUE voor rijen die voltooid zijn en FALSE voor rijen met enkele NA-waarden. Om de rijen met ontbrekende gegevens uit airquality te verwijderen, probeert u het volgende:
Zoals altijd bij R is er meer dan één manier om uw doel te bereiken. In dit geval kunt u gebruik maken van nvt. weglaten () om alle rijen met NA-waarden weg te laten: >> x <- na. weglaten (luchtkwaliteit)
Als u er zeker van bent dat uw gegevens schoon zijn, kunt u beginnen met het analyseren door berekende velden toe te voegen.
Als u een van deze methoden gebruikt om uw gegevens onder te verdelen of om ontbrekende waarden op te ruimen, onthoud dan om het resultaat in een nieuw object op te slaan. R verandert niets in het originele gegevensframe tenzij u het expliciet overschrijft. Dat is maar goed ook, want je kunt niet per ongeluk je gegevens verpesten.