Huis Persoonlijke financiën K-means Cluster Algorithms gebruiken in Predictive Analysis - dummies

K-means Cluster Algorithms gebruiken in Predictive Analysis - dummies

Video: How to Use SPSS-Replacing Missing Data Using Multiple Imputation (Regression Method) 2024

Video: How to Use SPSS-Replacing Missing Data Using Multiple Imputation (Regression Method) 2024
Anonim

K is een invoer voor het algoritme voor voorspellende analyse; het staat voor het aantal groepen dat het algoritme uit een gegevensset moet extraheren, algebraïsch uitgedrukt als k . Een K-means algoritme verdeelt een gegeven dataset in k clusters. Het algoritme voert de volgende bewerkingen uit:

  1. Kies k willekeurige items uit de gegevensset en label ze als clustervertegenwoordigers.

  2. Koppel elk resterend item in de gegevensset met de dichtstbijzijnde clustervertegenwoordiger, met behulp van een Euclidische afstand berekend door een overeenkomstfunctie.

  3. Herbereken de vertegenwoordigers van de nieuwe clusters.

  4. Herhaal stap 2 en 3 totdat de clusters niet veranderen.

Een vertegenwoordiger van een cluster is het wiskundige gemiddelde (gemiddelde) van alle items die tot hetzelfde cluster behoren. Deze vertegenwoordiger wordt ook een clustercentrum genoemd. Beschouw bijvoorbeeld drie items uit de dataset fruit waar

Type 1 komt overeen met bananen.

Type 2 komt overeen met appels.

Kleur 2 komt overeen met geel.

Kleur 3 komt overeen met groen.

Ervan uitgaande dat deze items aan hetzelfde cluster zijn toegewezen, wordt het zwaartepunt van deze drie items berekend.

Item Feature # 1 Type Feature # 2 Kleur Feature # 3 Gewicht (Ounces)
1 1 2 5. 33
2 2 3 9. 33
3 1 2 2. 1

Dit zijn de berekeningen van een cluster die representatief is voor drie items die tot hetzelfde cluster behoren. De clustervertegenwoordiger is een vector met drie kenmerken. De attributen zijn het gemiddelde van de attributen van de items in het betreffende cluster.

Item Feature # 1 Type Feature # 2 Kleur Feature # 3 Gewicht (Ounces)
1 1 2 5. 33
2 2 3 9. 33
3 1 2 2. 1
Clustervertegenwoordiger (Centroid Vector) (1 + 2 + 1) / 3 = 1. 33 (2 + 3 + 2) / 3 = 2. 33 (5. 33 + 9. 33 +32. 1) / 3 = 3

De volgende dataset bestaat uit zeven klantenbeoordelingen van twee producten, A en B. De rangorde vertegenwoordigt het aantal punten (tussen 0 en 10) die elke klant aan een product heeft gegeven - hoe meer punten worden gegeven, hoe hoger het product gerangschikt is.

Door gebruik te maken van een K-means algoritme en ervan uitgaande dat k gelijk is aan 2, zal de dataset worden verdeeld in twee groepen. De rest van de procedure ziet er als volgt uit:

  1. Kies twee willekeurige items uit de gegevensset en label ze als clustervertegenwoordigers.

    Het volgende toont de eerste stap van het selecteren van willekeurige centroids waaruit het K-means-clusteringproces begint.De eerste centroids worden willekeurig geselecteerd uit de gegevens die u gaat analyseren. In dit geval bent u op zoek naar twee clusters, dus twee gegevensitems zijn willekeurig geselecteerd: klanten 1 en 5.

    In eerste instantie bouwt het clusterproces twee clusters rond die twee eerste (willekeurig geselecteerde) clustervertegenwoordigers. Vervolgens worden de clustervertegenwoordigers opnieuw berekend; de berekening is gebaseerd op de items in elk cluster.

    Klant-ID Klantbeoordelingen van product A Klantbeoordelingen van product B
    1 2 2
    2 3 4
    3 < 6 8 4
    7 10 5
    10 14 6
    9 10 7
    7 9 Inspecteer elk ander artikel (klant) en wijs het toe aan de clustervertegenwoordiger waarop het het meest op elkaar lijkt.
  2. Gebruik de

    Euclidische afstand om te berekenen hoe vergelijkbaar een item is voor een groep items: Overeenkomst van item I tot cluster X = sqrt {{{left ({{f_1} - {x_1 }} rechts)} ^ 2} + {{links ({{f_2} - {x_2}} rechts)} ^ 2} + cdots + {{links ({{f_n} - {x_n}} rechts)} ^ 2} }

    De waarden {f_1},; {f_2},; ldots; {f_n} zijn de numerieke waarden van de functies die het item in kwestie beschrijven. De waarden {x_1},; {x_2},; ldots; {x_n} zijn de kenmerken (gemiddelde waarden) van de clustervertegenwoordiger (centroid), ervan uitgaande dat elk item

    n kenmerken heeft. Overweeg bijvoorbeeld het item met de naam Klant 2 (3, 4): de waardering van de klant voor product A was 3 en de beoordeling voor product B was 4. Het kenmerk voor het cluster is (2, 2). De overeenkomst tussen klant 2 en cluster 1 wordt als volgt berekend:

    Overeenkomst van item 2 met cluster 1 = sqrt {{{links ({3 - 2} rechts)} ^ 2} + {{left ({4 - 2) } right)} ^ 2}} = 2. 23

    Dit is hoe hetzelfde proces eruit ziet met Cluster 2:

    Overeenkomst van Item 2 met Cluster 2 = sqrt {{{left ({3 - 10} right) } ^ 2} + {{links ({4 - 14} rechts)} ^ 2}} = 12. 20

    Als je deze resultaten vergelijkt, wijs je Item 2 (dat wil zeggen Klant 2) toe aan Cluster 1 omdat de cijfers zeggen Item 2 lijkt meer op Cluster 1.

    Pas dezelfde overeenkomstanalyse toe op elk ander item in de gegevensset.

  3. Telkens wanneer een nieuw lid lid wordt van een cluster, moet u de clustervertegenwoordiger opnieuw berekenen.

    Dit toont de resultaten van de eerste iteratie van K-mean-algoritme. Merk op dat

    k gelijk is aan 2, dus u zoekt naar twee clusters, die een reeks klanten in twee zinvolle groepen verdelen. Elke klant wordt afzonderlijk geanalyseerd en wordt toegewezen aan een van de clusters op basis van de gelijkenis van de klant met elk van de huidige clustervertegenwoordigers. Herhaal de dataset opnieuw en doorloop elk element; bereken de overeenkomst tussen elk element en zijn huidige clustervertegenwoordiger.

  4. Let op dat klant 3 is overgestapt van cluster 1 naar cluster 2. Dit komt doordat de afstand tussen klant 3 en het cluster dat representatief is voor cluster 2 dichterbij is dan bij het cluster dat representatief is voor cluster 1.

    clustervertegenwoordiger (Centroid Vector) < Cluster 1

    Klant-ID # 1 (2, 2)
    Cluster 2 Klant-ID # 5 (10, 14)
    Iteratie # 1 Klantcluster 1
    Klantcluster 2 Klant die moet worden onderzocht Klant-id's die behoren tot cluster 1
    Clustervertegenwoordiger Klant-ID's die behoren tot cluster 1 Clustervertegenwoordiger 1 (2, 2) > 5
    (10, 14) 2 1, 2 (2.4, 3)
    5 (10, 14) 3 1, 2, 3 (3, 6, 4. 6)
    5 (10, 14) 4 1, 2, 3 (3, 6, 4. 6)
    4, 5 (8, 4, 12) 6 1, 2, 3 (3, 6, 4. 6)
    4, 5, 6 (8, 6, 11. 4) 7 1, 2, 3 > (3, 6, 4. 6) 4, 5, 6, 7
    (8, 2, 10. 8) Dit is een tweede iteratie van K-means algoritme op klantgegevens. Elke klant wordt opnieuw geanalyseerd. Klant 2 wordt toegewezen aan Cluster 1 omdat klant 2 dichter bij de vertegenwoordiger van Cluster 1 staat dan Cluster 2. Hetzelfde scenario is van toepassing op klant 4. Merk op dat een clustervertegenwoordiger telkens opnieuw wordt berekend wanneer een nieuw lid wordt toegewezen aan een cluster. Iteratie # 2 Klantencluster 1 Klantencluster 2

Klant wordt onderzocht

K-means Cluster Algorithms gebruiken in Predictive Analysis - dummies

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...

Klant-ID's die behoren tot cluster 1 Clustervertegenwoordiger Klant-ID's die behoren tot cluster 2 > Clustervertegenwoordiger
1 1 (3, 6, 4. 6) 5 (8, 2, 10. 8)
2 1, 2 < (5, 2, 3) 5 (8, 2, 10. 8) 3
1, 2 (5, 2, 3) 5, 3 (7, 8, 10. 2) 4
1, 2 (5, 2, 3) 4, 5. 3 (7, 8, 10. 2) 6
1, 2 (5. 2, 3) 4, 5, 6. 3 (7, 8, 10. 2) 7 < 1, 2
(5. 2, 3) 3, 4, 5, 6, 7 (7, 8, 10. 2)