Inhoudsopgave:
- Samenvoeging gebruiken om de kruising van gegevens te zoeken
- De functie samenvoegen () biedt vier manieren om gegevens te combineren:
- Ga terug naar de voorbeelden van Amerikaanse staten, om een volledige fusie van koude en grote staten uit te voeren, gebruik samenvoegen en specificeer alles = WAAR: >> samenvoegen (koud . states, large. states, all = TRUE) Naam Frost Gebied 1 Alaska 152 566432 2 Arizona NA 113417 3 Californië NA 156361 … 13 Texas NA 262134 14 Vermont 168 NA 15 Wyoming 173 NA
Video: Opmerkingen en notities in Excel 2024
In R gebruikt u de functie samenvoegen () om gegevensframes te combineren. Deze krachtige functie probeert kolommen of rijen te identificeren die gemeenschappelijk zijn tussen de twee verschillende gegevensframes.
Samenvoeging gebruiken om de kruising van gegevens te zoeken
De eenvoudigste vorm van samenvoegen () vindt de kruising tussen twee verschillende gegevenssets. Met andere woorden, om een dataframe te maken dat bestaat uit de staten die zowel koud als groot zijn, gebruikt u de standaardversie van merge ():
Als u bekend bent met een database taal zoals SQL, je hebt misschien al geraden dat samenvoegen () erg lijkt op een database-join. Dit is inderdaad het geval en de verschillende argumenten om samen te voegen () maken het mogelijk om natuurlijke joins uit te voeren, evenals links, rechts en volledige outer joins.
x
-
: Een gegevensframe. y
-
: een gegevensframe. door
-
, door. x , door. y : De namen van de kolommen die gemeenschappelijk zijn voor zowel x als y. De standaard is om de kolommen met gemeenschappelijke namen tussen de twee gegevensframes te gebruiken.
-
: Logische waarden die het type samenvoeging aangeven. De standaardwaarde is all = FALSE (wat betekent dat alleen de overeenkomende rijen worden geretourneerd). Die laatste groep argumenten - allemaal. x en allemaal. y - verdient wat uitleg. Deze argumenten bepalen het type samenvoeging dat zal plaatsvinden.
De verschillende typen samenvoegen begrijpen
De functie samenvoegen () biedt vier manieren om gegevens te combineren:
Natuurlijke join:
-
Als u alleen rijen wilt behouden die overeenkomen met de gegevensframes, geeft u het argument op = FALSE. Volledige outer join:
-
Om alle rijen van beide dataframes te behouden, geeft u all = TRUE op. Linkse outer join:
-
Als u alle rijen van uw dataframe x wilt opnemen en alleen die van y die overeenkomen, geeft u alles op. x = TRUE. Rechter outer join:
-
Om alle rijen van uw dataframe y op te nemen en alleen die uit x die overeenkomen, geeft u alles op. y = TRUE. Hoe de unie (volledige outer join) te vinden
Ga terug naar de voorbeelden van Amerikaanse staten, om een volledige fusie van koude en grote staten uit te voeren, gebruik samenvoegen en specificeer alles = WAAR: >> samenvoegen (koud. states, large. states, all = TRUE) Naam Frost Gebied 1 Alaska 152 566432 2 Arizona NA 113417 3 Californië NA 156361 … 13 Texas NA 262134 14 Vermont 168 NA 15 Wyoming 173 NA
Beide gegevenskaders hebben een variabele Naam, dus R komt overeen met de gevallen op basis van de namen van de toestanden.De variabele Frost komt uit het dataframe koud. toestanden en de variabele Gebied komt uit het dataframe groot. staten.
Houd er rekening mee dat hiermee de volledige samenvoeging wordt uitgevoerd en de kolommen worden gevuld met NA-waarden wanneer er geen overeenkomende gegevens zijn.