Video: Hoe erg is de bijbel veranderd? meer dan 500.000 variaties in het nieuw testament! 2024
Waarschijnlijk de meest voorkomende fouten in R zijn gemaakt tijdens het lezen van gegevens uit tekstbestanden met behulp van lezen. tabel () of lezen. CSV (). Veel fouten leiden tot R-throwfouten, maar soms merk je alleen dat er iets fout is gegaan als je naar de structuur van je gegevens kijkt. In het laatste geval merk je vaak dat sommige of alle variabelen in factoren worden omgezet wanneer ze dat eigenlijk niet zouden moeten zijn.
Wanneer R fouten geeft of de structuur van uw gegevens niet is zoals u denkt dat het zou moeten zijn, controleer dan het volgende:
-
Ben je vergeten het argument header = TRUE te specificeren? Als dat het geval is, ziet R de kolomnamen als waarden en converteert deze als gevolg elke variabele naar een factor zoals altijd gebeurt met tekengegevens in een tekstbestand.
-
Had u spaties in uw kolomnamen of gegevens? Het lezen. De functie table () kan spaties interpreteren in bijvoorbeeld kolomnamen of in tekenreeksgegevens als scheidingsteken. U krijgt dan fouten te vertellen 'regel x had geen y-elementen'.
-
Had u een ander decimaalscheidingsteken? In sommige landen worden decimalen gescheiden door een komma. Je moet specifiek R vertellen dat het geval is door het argument dec = "," in de read te gebruiken. tabel () functie.
-
Ben je vergeten stringsAsFactors = FALSE op te geven? R verandert standaard tekengegevens naar factoren, dus u moet dit argument altijd toevoegen als u wilt dat uw gegevens tekenvariabelen blijven.
-
Had u een andere manier om ontbrekende waarden te specificeren? R leest 'NA' in een tekstbestand als een ontbrekende waarde, maar het bestand kan een andere code gebruiken (bijvoorbeeld 'ontbreekt'). R ziet dat als tekst en converteert die variabele opnieuw naar een factor. U lost dit op door het argument na te specificeren. strings in de read. tabel () functie.
Als u de structuur van uw gegevens altijd meteen na het lezen controleert, kunt u veel eerder fouten opsporen en uren frustratie voorkomen. Je kunt het beste inzetten om str () te gebruiken voor informatie over de typen en head () om te zien of de waarden zijn zoals je verwachtte.