Hoe dubbele gegevens in R-dummies

Video: Alles wat je nog niets wist over WhatsApp deel 2 - EDITIE NL 2025

Een zeer nuttige toepassing van subsetgegevens is het vinden en verwijderen van dubbele waarden. R heeft een nuttige functie, gedupliceerd (), die dubbele waarden vindt en een logische vector retourneert die u vertelt of de specifieke waarde een duplicaat is van een vorige waarde. Dit betekent dat voor gedupliceerde waarden, gedupliceerd () FALSE retourneert voor de eerste instantie en TRUE voor elke volgende instantie van die waarde, zoals in het volgende voorbeeld:

>> duplicated (c (1, 2, 1, 3, 1, 4)) [1] FALSE FALSE TRUE FALSE TRUE FALSE

Als u dit op een dataframe probeert, R automatisch controleert de waarnemingen (wat betekent dat elke rij als een waarde wordt behandeld). Dus bijvoorbeeld met het dataframe iris: >> gedupliceerd (iris) [1] ONWAAR ONWAARIG ONWAARIG ONWAARIG ONWAARIG ONWAAR ONWAAR [10] ONWAAR ONS ONWAARIG ONWAAR ONAAL ONWAAR ONWAAR … [136] ONWAAR NIET FALSE FALSE FALSE FALSE FALSE TRUE FALSE [145] FALSE FALSE FALSE FALSE FALSE FALSE

Als u goed kijkt, ziet u dat rij 143 een duplicaat is (omdat het 143e element van uw resultaat de waarde TRUE heeft). Je kunt dit ook vertellen door de functie which () te gebruiken:








 >> welke (gedupliceerd (iris)) [1] 143

Nu, om het duplicaat van de iris te verwijderen, moet u deze rij uitsluiten van uw gegevens. Vergeet niet dat er twee manieren zijn om gegevens uit te sluiten met behulp van subset:

Geef een logische vector op, waarbij

FALSE

betekent dat het element wordt uitgesloten.

The! (uitroepteken) operator is een logische ontkenning. Dit betekent dat het TRUE in FALSE converteert en vice versa. Dus, om de duplicaten van de iris te verwijderen, doet u het volgende:
>> iris [! gedupliceerd (iris),] Geef negatieve waarden op. Met andere woorden:
>> index iris [-index,]
```
In beide gevallen merk je dat je instructie rij 143 heeft verwijderd.
```