Huis Persoonlijke financiën Hoe u gegevens voorbereidt voor voorspellende analyse - dummies

Hoe u gegevens voorbereidt voor voorspellende analyse - dummies

Inhoudsopgave:

Video: Machine intelligence makes human morals more important | Zeynep Tufekci 2024

Video: Machine intelligence makes human morals more important | Zeynep Tufekci 2024
Anonim

Wanneer u een nieuwe programmeertaal aan het leren bent, is het gebruikelijk om het programma "Hello World" te schrijven. Voor machine learning en voorspellende analyses is het maken van een model om de Iris-dataset te classificeren het equivalente programma "Hallo wereld". Dit is een vrij eenvoudig voorbeeld, maar het is zeer effectief in het onderwijzen van de basisprincipes van machinaal leren en voorspellende analyses.

De voorbeeldgegevensset

verkrijgen Om ons voorspellend model te maken, moet u de voorbeeld-Iris-gegevensset downloaden. Deze dataset is vrij verkrijgbaar bij vele bronnen, vooral bij academische instellingen die afdelingen voor computerleren hebben. Gelukkig waren de mensen aardig genoeg om enkele voorbeeldgegevensreeksen en functies voor het laden van gegevens samen met hun pakket op te nemen. Voor deze voorbeelden hoeft u maar een paar eenvoudige regels code uit te voeren om de gegevens te laden.

Uw gegevens labelen

Hier vindt u een observatie en de bijbehorende kenmerken uit elke klasse van de Iris Flower-dataset.

Sepal Length Pagal Width Bloemblaadlengte Bloemblaaddikte Target Class / Label
5. 1 3. 5 1. 4 0. 2 Setosa (0)
7. 0 3. 2 4. 7 1. 4 Versicolor (1)
6. 3 3. 3 6. 0 2. 5 Virginica (2)

De datasheet Iris Flower is een echte multivariate dataset van drie klassen van de Irisbloem ( Iris setosa, Iris virginica, en Iris versicolor ) geïntroduceerd door Ronald Fisher in zijn artikel uit 1936: "Het gebruik van meerdere metingen bij taxonomische problemen. "Deze dataset is vooral bekend om zijn uitgebreide gebruik in de academische wereld voor machine learning en statistieken.

De dataset bestaat uit 150 totale exemplaren, met 50 exemplaren uit elk van de 3 klassen van de Iris-bloem. Het monster heeft 4 functies (ook wel -attributen genoemd), die de lengte- en breedtematen zijn van de kelkblaadjes en bloembladen.

Het interessante deel van deze dataset is dat de drie klassen enigszins lineair scheidbaar zijn. De Setosa -klasse kan van de andere twee klassen worden gescheiden door een rechte lijn in de grafiek ertussen te tekenen. De klassen Virginica en Versicolor kunnen niet perfect worden gescheiden met een rechte lijn, hoewel deze wel dichtbij is. Dit maakt het een perfecte gegevensset voor kandidaten om classificatie-analyses uit te voeren, maar niet zo goed voor clusteranalyses.

De voorbeeldgegevens waren al gelabeld. De rechterkolom (Label) hierboven toont de namen van elke klasse van de Iris-bloem.De klassenaam wordt een label of een doel genoemd; het is meestal toegewezen aan een variabele met de naam y . Het is in feite het resultaat of het resultaat van wat wordt voorspeld.

In statistieken en modellering wordt dit vaak de afhankelijke variabele genoemd. Dit hangt af van de ingangen die overeenkomen met de lengte en breedte van de kelk en met de lengte en breedte van het bloemblad.

Misschien wilt u ook weten wat er anders is aan de voorverwerkte Iris-gegevensset van scikit in vergelijking met de oorspronkelijke gegevensset. Om dit te weten te komen, moet u het originele gegevensbestand verkrijgen. U kunt een Google-zoekopdracht uitvoeren voor irisgegevensset en deze downloaden of bekijken vanuit een van de academische instellingen.

Het resultaat dat meestal het eerst voorkomt, is de machine-learning repository van datasets van de University of California Irvine (UCI). De Iris-dataset in zijn oorspronkelijke staat van de UCI machine-learning repository is te vinden op de UCI-website.

Als u het downloadt, zou u het met om het even welke tekstredacteur moeten kunnen bekijken. Wanneer u de gegevens in het bestand bekijkt, ziet u dat er vijf kolommen in elke rij staan. De eerste vier kolommen zijn de metingen (waarnaar wordt verwezen als de kenmerken ) en de laatste kolom is het label. Het label verschilt tussen de originele en scikit-versies van de Iris-gegevensset.

Een ander verschil is de eerste rij van het gegevensbestand. Het bevat een kopregel die wordt gebruikt door de scikit-functie voor het laden van gegevens. Het heeft geen effect op de algoritmen zelf.

Normen normaliseren in plaats van ze als tekst bij te houden, maakt het eenvoudiger voor de algoritmen om te verwerken - en het is veel meer geheugenefficiënt. Dit is vooral duidelijk als je zeer grote datasets met veel functies uitvoert - wat vaak het geval is in echte scenario's.

Hier zijn voorbeeldgegevens van beide bestanden. Alle gegevenskolommen zijn hetzelfde behalve voor Col5. Scikit heeft klasseenamen met numerieke labels; het originele bestand heeft tekstlabels.

Bron Col1 Kol2 Col3 Col4 Col5
scikit 5. 1 3. 5 1. 4 0. 2 0
originele 5. 1 3. 5 1. 4 0. 2 Iris-setosa
scikit 7. 0 3. 2 4. 7 1. 4 1
originele 7. 0 3. 2 4. 7 1. 4 Iris-versicolor
scikit 6. 3 3. 3 6. 0 2. 5 2
originele 6. 3 3. 3 6. 0 2. 5 Iris-virginica
Hoe u gegevens voorbereidt voor voorspellende analyse - dummies

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...