Hoe u gegevens voorbereidt voor voorspellende analyse - dummies

Video: Machine intelligence makes human morals more important | Zeynep Tufekci 2024

Wanneer u een nieuwe programmeertaal aan het leren bent, is het gebruikelijk om het programma "Hello World" te schrijven. Voor machine learning en voorspellende analyses is het maken van een model om de Iris-dataset te classificeren het equivalente programma "Hallo wereld". Dit is een vrij eenvoudig voorbeeld, maar het is zeer effectief in het onderwijzen van de basisprincipes van machinaal leren en voorspellende analyses.

De voorbeeldgegevensset

verkrijgen Om ons voorspellend model te maken, moet u de voorbeeld-Iris-gegevensset downloaden. Deze dataset is vrij verkrijgbaar bij vele bronnen, vooral bij academische instellingen die afdelingen voor computerleren hebben. Gelukkig waren de mensen aardig genoeg om enkele voorbeeldgegevensreeksen en functies voor het laden van gegevens samen met hun pakket op te nemen. Voor deze voorbeelden hoeft u maar een paar eenvoudige regels code uit te voeren om de gegevens te laden.

Uw gegevens labelen

Hier vindt u een observatie en de bijbehorende kenmerken uit elke klasse van de Iris Flower-dataset.

Sepal Length	Pagal Width	Bloemblaadlengte	Bloemblaaddikte	Target Class / Label
5. 1	3. 5	1. 4	0. 2	Setosa (0)
7. 0	3. 2	4. 7	1. 4	Versicolor (1)
6. 3	3. 3	6. 0	2. 5	Virginica (2)

De datasheet Iris Flower is een echte multivariate dataset van drie klassen van de Irisbloem ( Iris setosa, Iris virginica, en Iris versicolor ) geïntroduceerd door Ronald Fisher in zijn artikel uit 1936: "Het gebruik van meerdere metingen bij taxonomische problemen. "Deze dataset is vooral bekend om zijn uitgebreide gebruik in de academische wereld voor machine learning en statistieken.

De dataset bestaat uit 150 totale exemplaren, met 50 exemplaren uit elk van de 3 klassen van de Iris-bloem. Het monster heeft 4 functies (ook wel -attributen genoemd), die de lengte- en breedtematen zijn van de kelkblaadjes en bloembladen.

Het interessante deel van deze dataset is dat de drie klassen enigszins lineair scheidbaar zijn. De Setosa -klasse kan van de andere twee klassen worden gescheiden door een rechte lijn in de grafiek ertussen te tekenen. De klassen Virginica en Versicolor kunnen niet perfect worden gescheiden met een rechte lijn, hoewel deze wel dichtbij is. Dit maakt het een perfecte gegevensset voor kandidaten om classificatie-analyses uit te voeren, maar niet zo goed voor clusteranalyses.

De voorbeeldgegevens waren al gelabeld. De rechterkolom (Label) hierboven toont de namen van elke klasse van de Iris-bloem.De klassenaam wordt een label of een doel genoemd; het is meestal toegewezen aan een variabele met de naam y . Het is in feite het resultaat of het resultaat van wat wordt voorspeld.

In statistieken en modellering wordt dit vaak de afhankelijke variabele genoemd. Dit hangt af van de ingangen die overeenkomen met de lengte en breedte van de kelk en met de lengte en breedte van het bloemblad.

Misschien wilt u ook weten wat er anders is aan de voorverwerkte Iris-gegevensset van scikit in vergelijking met de oorspronkelijke gegevensset. Om dit te weten te komen, moet u het originele gegevensbestand verkrijgen. U kunt een Google-zoekopdracht uitvoeren voor irisgegevensset en deze downloaden of bekijken vanuit een van de academische instellingen.

Het resultaat dat meestal het eerst voorkomt, is de machine-learning repository van datasets van de University of California Irvine (UCI). De Iris-dataset in zijn oorspronkelijke staat van de UCI machine-learning repository is te vinden op de UCI-website.

Als u het downloadt, zou u het met om het even welke tekstredacteur moeten kunnen bekijken. Wanneer u de gegevens in het bestand bekijkt, ziet u dat er vijf kolommen in elke rij staan. De eerste vier kolommen zijn de metingen (waarnaar wordt verwezen als de kenmerken ) en de laatste kolom is het label. Het label verschilt tussen de originele en scikit-versies van de Iris-gegevensset.

Een ander verschil is de eerste rij van het gegevensbestand. Het bevat een kopregel die wordt gebruikt door de scikit-functie voor het laden van gegevens. Het heeft geen effect op de algoritmen zelf.

Normen normaliseren in plaats van ze als tekst bij te houden, maakt het eenvoudiger voor de algoritmen om te verwerken - en het is veel meer geheugenefficiënt. Dit is vooral duidelijk als je zeer grote datasets met veel functies uitvoert - wat vaak het geval is in echte scenario's.

Hier zijn voorbeeldgegevens van beide bestanden. Alle gegevenskolommen zijn hetzelfde behalve voor Col5. Scikit heeft klasseenamen met numerieke labels; het originele bestand heeft tekstlabels.

Bron	Col1	Kol2	Col3	Col4	Col5
scikit	5. 1	3. 5	1. 4	0. 2	0
originele	5. 1	3. 5	1. 4	0. 2	Iris-setosa
scikit	7. 0	3. 2	4. 7	1. 4	1
originele	7. 0	3. 2	4. 7	1. 4	Iris-versicolor
scikit	6. 3	3. 3	6. 0	2. 5	2
originele	6. 3	3. 3	6. 0	2. 5	Iris-virginica