Video: Data Analysis in R by Dustin Tran 2024
Voor voorspellende analyses moet u de gegevens laden die uw algoritmen kunnen gebruiken. Het laden van de Iris-dataset in scikit is net zo eenvoudig als het afgeven van een paar regels code, omdat scikit al een functie heeft gemaakt om de dataset te laden.
Sepal Length | Pagal Width | Bloemblaad lengte | Bloemblaaddek Breedte | Target Class / Label |
---|---|---|---|---|
5. 1 | 3. 5 | 1. 4 | 0. 2 | Setosa (0) |
7. 0 | 3. 2 | 4. 7 | 1. 4 | Versicolor (1) |
6. 3 | 3. 3 | 6. 0 | 2. 5 | Virginica (2) |
-
Open een nieuwe Python interactieve shellsessie.
Gebruik een nieuwe Python-sessie zodat er niets overblijft in het geheugen en u een schone lei hebt om mee te werken.
-
Voer de volgende code in de aanwijzing in en observeer de uitvoer: >>>> van sklearn. datasets import load_iris >>> iris = load_iris ()
Na het uitvoeren van deze twee instructies, zou u geen berichten van de tolk moeten zien. De variabele iris moet alle gegevens van de iris bevatten. CSV-bestand.
De uitvoer is alle inhoud van de iris. CSV-bestand, samen met enige andere informatie over de dataset die de functie load_iris in de variabele laadde. De variabele is een gegevensstructuur van een woordenboek met vier hoofdkenmerken. De belangrijke eigenschappen van iris worden hieronder vermeld.
Property Name
Descriptiondata | Bevat alle metingen van de waarnemingen. |
---|---|
feature_name | Bevat de naam van de functie (attribuutnaam). |
doel | Bevat alle doelen (labels) van de waarnemingen. |
doelnamen | Bevat de namen van de klassen. |
U kunt de waarden in de interpreter afdrukken door de naam van de variabele in te voeren gevolgd door de punt gevolgd door de naam van de eigenschap. Een voorbeeld is het gebruik van iris. gegevens om toegang te krijgen tot de eigenschap van iris, zoals deze: >>>> iris. data | Dit is een standaard manier om eigenschappen van een object in veel programmeertalen te benaderen. |
Typ een instantie van de SVM-classifier door de volgende code in de interpreter in te voeren: >>>> van sklearn. svm import LinearSVC >>> svmClassifier = LinearSVC (random_state = 111)
De eerste regel code importeert de Lineaire SVC-bibliotheek in de sessie. De lineaire Support Vector Classifier (SVC) is een implementatie van SVM voor lineaire classificatie en heeft ondersteuning van meerdere klassen.De dataset is enigszins lineair te scheiden en heeft drie klassen, dus het zou een goed idee zijn om met Linear SVC te experimenteren om te zien hoe het presteert.
De tweede regel maakt de instantie met behulp van de variabele svmClassifier. Dit is een belangrijke variabele om te onthouden. Met de parameter random_state kunt u deze voorbeelden reproduceren en dezelfde resultaten krijgen. Als u de parameter random_state niet hebt ingevoerd, kunnen uw resultaten afwijken van de resultaten die hier worden weergegeven.