Video: Alles wat je nog niets wist over WhatsApp deel 2 - EDITIE NL 2025
Een zeer nuttige toepassing van subsetgegevens is het vinden en verwijderen van dubbele waarden. R heeft een nuttige functie, gedupliceerd (), die dubbele waarden vindt en een logische vector retourneert die u vertelt of de specifieke waarde een duplicaat is van een vorige waarde. Dit betekent dat voor gedupliceerde waarden, gedupliceerd () FALSE retourneert voor de eerste instantie en TRUE voor elke volgende instantie van die waarde, zoals in het volgende voorbeeld:
Als u dit op een dataframe probeert, R automatisch controleert de waarnemingen (wat betekent dat elke rij als een waarde wordt behandeld). Dus bijvoorbeeld met het dataframe iris: >> gedupliceerd (iris) [1] ONWAAR ONWAARIG ONWAARIG ONWAARIG ONWAARIG ONWAAR ONWAAR [10] ONWAAR ONS ONWAARIG ONWAAR ONAAL ONWAAR ONWAAR … [136] ONWAAR NIET FALSE FALSE FALSE FALSE FALSE TRUE FALSE [145] FALSE FALSE FALSE FALSE FALSE FALSE
Als u goed kijkt, ziet u dat rij 143 een duplicaat is (omdat het 143e element van uw resultaat de waarde TRUE heeft). Je kunt dit ook vertellen door de functie which () te gebruiken:
>> welke (gedupliceerd (iris)) [1] 143
Nu, om het duplicaat van de iris te verwijderen, moet u deze rij uitsluiten van uw gegevens. Vergeet niet dat er twee manieren zijn om gegevens uit te sluiten met behulp van subset:
Geef een logische vector op, waarbij
FALSE
betekent dat het element wordt uitgesloten.-
The! (uitroepteken) operator is een logische ontkenning. Dit betekent dat het TRUE in FALSE converteert en vice versa. Dus, om de duplicaten van de iris te verwijderen, doet u het volgende:
In beide gevallen merk je dat je instructie rij 143 heeft verwijderd.
-