Video: Data Analysis in R by Dustin Tran 2024
De eerste beslissing die u moet nemen voordat u uw gegevens analyseert, is hoe u die gegevens in R. kunt weergeven. uw gegevens hebben slechts één dimensie, dan weet u al dat vectoren dit type gegevens zeer goed weergeven. Als uw gegevens echter meer dan één dimensie hebben, hebt u de keuze om matrices, lijsten of gegevensframes te gebruiken. Dus de vraag is: wanneer gebruik je welke?
Matrices en hoger-dimensionale arrays zijn handig als al uw gegevens uit één klasse bestaan. Met andere woorden, al uw gegevens zijn numeriek of al uw gegevens zijn tekens. Als u een wiskundige of statisticus bent, bent u bekend met matrices en waarschijnlijk gebruikt u dit type object heel vaak.
Maar in veel praktische situaties, zult u gegevens hebben die veel verschillende klassen hebben - met andere woorden, u zult een combinatie van numerieke en karaktergegevens hebben. In dit geval moet u lijsten of gegevensframes gebruiken.
Als u uw gegevens als één spreadsheet verbeeldt, is een gegevensframe waarschijnlijk een goede keuze. Bedenk dat een dataframe eenvoudigweg een lijst is met benoemde vectoren van dezelfde lengte, die conceptueel erg lijkt op een spreadsheet met kolommen en een kolomkop voor elk.
Als u bekend bent met databases, kunt u een gegevensframe zien als vergelijkbaar met een enkele tabel in een database. Dataframes zijn enorm nuttig en zullen in veel gevallen uw eerste keuze zijn van objecten voor het opslaan van uw gegevens.
Als uw gegevens uit een verzameling objecten bestaan maar u kunt dat niet als een array of een dataframe voorstellen, dan is een lijst uw ideale keuze. Omdat lijsten allerlei andere objecten kunnen bevatten, inclusief andere lijsten of dataframes, zijn ze enorm flexibel. Daarom heeft R een grote verscheidenheid aan hulpmiddelen om lijsten te verwerken.
Het kan zijn dat een dataframe een zeer geschikte keuze is voor de meeste analyse- en gegevensverwerkingstaken. Het is een zeer handige manier om uw gegevens weer te geven en het lijkt op werken met databasetabellen. Wanneer u gegevens leest uit een bestand met door komma's gescheiden waarden (CSV) met de gelezen functie. csv () of lezen. tabel (), R zet de resultaten in een dataframe.
Object | Beschrijving | Opmerkingen |
---|---|---|
vector | Het basisgegevensobject in R, bestaande uit een of meer waarden van
één type (bijvoorbeeld teken, getal of geheel getal). |
Beschouw dit als een enkele kolom of rij in een spreadsheet of een
kolom in een databasetabel. |
matrix of array | Een multidimensionaal object van een enkel type (bekend als
atomic ). Een matrix is een array van twee dimensies. |
Gebruik
arrays als u getallen in veel dimensies moet opslaan. |
lijst | Lijsten kunnen objecten van elk type bevatten. | Lijsten zijn erg handig voor het opslaan van gegevensverzamelingen die
bij elkaar horen. Omdat lijsten lijsten kunnen bevatten, is dit type -object erg handig. |
data. frame | Dataframes zijn een speciaal soort lijst met namen waarvan alle
-elementen dezelfde lengte hebben. |
Dataframes zijn vergelijkbaar met een enkele spreadsheet of met een tabel
in een database. |