Video: Software Testing Tutorials for Beginners 2024
Om een voorspellende analyse uit te voeren, moet u de gegevens in een vorm krijgen die het algoritme kan gebruiken om een model te bouwen. Om dat te doen, moet u enige tijd nemen om de gegevens te begrijpen en de structuur ervan te kennen. Typ de functie in om de structuur van de gegevens te achterhalen. Hier is hoe het eruit ziet: >> str (zaden) 'gegevens. frame ': 210 obs. van 8 variabelen: $ V1: num 15. 3 14. 9 14. 3 13. 8 16. 1 … $ V2: num 14. 8 14. 6 14. 1 13. 9 15 … $ V3: num 0. 871 0 881 0. 905 0. 895 0. 903 … $ V4: num 5. 76 5. 55 5. 29 5. 32 5. 66 … $ V5: num 3. 31 3. 33 3. 34 3. 38 3. 56 … $ V6: num 2. 22 1. 02 2. 7 2. 26 1. 35 … $ V7: num 5. 22 4. 96 4. 83 4. 8 5. 17 … $ V8: int 1 1 1 1 1 1 1 1 1 1 …
Als u naar de structuur kijkt, ziet u dat de gegevens één voorbewerkingsstap en één stap van het gemak vergt:
-
Dit is niet strikt noodzakelijk, maar voor de doeleinden van dit voorbeeld is het handiger om kolomnamen te gebruiken die u kunt begrijpen en onthouden. Wijzig het kenmerk met categorische waarden in een factor.
-
Het label heeft drie mogelijke categorieën. Typ de volgende code om de kolommen te hernoemen: >> colnames (seeds) <-
c ("area", "perimeter", "compactness", "length", "width", " asymmetrie "," length2 "," seedType ")
Wijzig vervolgens het kenmerk met categorische waarden in een factor. De volgende code verandert het gegevenstype in een factor:
>> zaden $ seedType <- factor (seeds $ seedType)
Met deze opdracht voltooit u de voorbereiding van de gegevens voor het modelleringsproces. Het volgende is een weergave van de structuur na het proces voor gegevensvoorbereiding: >> str (onkruid) 'gegevens. frame ': 210 obs. van 8 variabelen: $ gebied: num 15. 3 14. 9 14. 3 13. 8 16. 1 … $ perimeter: num 14. 8 14. 6 14. 1 13. 9 15 … $ compactheid: num 0. 871 0 881 0. 905 0. 895 0. 903 … $ lengte: num 5. 76 5. 55 5. 29 5. 32 5. 66 … $ width: num 3. 31 3. 33 3. 34 3. 38 3. 56 … $ asymmetrie: num 2. 22 1.02 2. 7 2. 26 1. 35 … $ length2: num 5. 22 4. 96 4. 83 4. 8 5. 17 … $ seedType: Factor met 3 niveaus "1", "2", "3": 1 1 1 1 1 1 1 1 1 1 …