K-means Cluster Algorithms gebruiken in Predictive Analysis - dummies

K is een invoer voor het algoritme voor voorspellende analyse; het staat voor het aantal groepen dat het algoritme uit een gegevensset moet extraheren, algebraïsch uitgedrukt als k . Een K-means algoritme verdeelt een gegeven dataset in k clusters. Het algoritme voert de volgende bewerkingen uit:

Kies k willekeurige items uit de gegevensset en label ze als clustervertegenwoordigers.
Koppel elk resterend item in de gegevensset met de dichtstbijzijnde clustervertegenwoordiger, met behulp van een Euclidische afstand berekend door een overeenkomstfunctie.
Herbereken de vertegenwoordigers van de nieuwe clusters.
Herhaal stap 2 en 3 totdat de clusters niet veranderen.

Een vertegenwoordiger van een cluster is het wiskundige gemiddelde (gemiddelde) van alle items die tot hetzelfde cluster behoren. Deze vertegenwoordiger wordt ook een clustercentrum genoemd. Beschouw bijvoorbeeld drie items uit de dataset fruit waar

Type 1 komt overeen met bananen.

Type 2 komt overeen met appels.

Kleur 2 komt overeen met geel.

Kleur 3 komt overeen met groen.

Ervan uitgaande dat deze items aan hetzelfde cluster zijn toegewezen, wordt het zwaartepunt van deze drie items berekend.

Item	Feature # 1 Type	Feature # 2 Kleur	Feature # 3 Gewicht (Ounces)
1	1	2	5. 33
2	2	3	9. 33
3	1	2	2. 1

Dit zijn de berekeningen van een cluster die representatief is voor drie items die tot hetzelfde cluster behoren. De clustervertegenwoordiger is een vector met drie kenmerken. De attributen zijn het gemiddelde van de attributen van de items in het betreffende cluster.

Item	Feature # 1 Type	Feature # 2 Kleur	Feature # 3 Gewicht (Ounces)
1	1	2	5. 33
2	2	3	9. 33
3	1	2	2. 1
Clustervertegenwoordiger (Centroid Vector)	(1 + 2 + 1) / 3 = 1. 33	(2 + 3 + 2) / 3 = 2. 33	(5. 33 + 9. 33 +32. 1) / 3 = 3

De volgende dataset bestaat uit zeven klantenbeoordelingen van twee producten, A en B. De rangorde vertegenwoordigt het aantal punten (tussen 0 en 10) die elke klant aan een product heeft gegeven - hoe meer punten worden gegeven, hoe hoger het product gerangschikt is.

Door gebruik te maken van een K-means algoritme en ervan uitgaande dat k gelijk is aan 2, zal de dataset worden verdeeld in twee groepen. De rest van de procedure ziet er als volgt uit:

Kies twee willekeurige items uit de gegevensset en label ze als clustervertegenwoordigers.

Het volgende toont de eerste stap van het selecteren van willekeurige centroids waaruit het K-means-clusteringproces begint.De eerste centroids worden willekeurig geselecteerd uit de gegevens die u gaat analyseren. In dit geval bent u op zoek naar twee clusters, dus twee gegevensitems zijn willekeurig geselecteerd: klanten 1 en 5.

In eerste instantie bouwt het clusterproces twee clusters rond die twee eerste (willekeurig geselecteerde) clustervertegenwoordigers. Vervolgens worden de clustervertegenwoordigers opnieuw berekend; de berekening is gebaseerd op de items in elk cluster.

Klant-ID	Klantbeoordelingen van product A	Klantbeoordelingen van product B
1	2	2
2	3	4
3 < 6	8	4
7	10	5
10	14	6
9	10	7
7	9	Inspecteer elk ander artikel (klant) en wijs het toe aan de clustervertegenwoordiger waarop het het meest op elkaar lijkt.

Gebruik de

Euclidische afstand om te berekenen hoe vergelijkbaar een item is voor een groep items: Overeenkomst van item I tot cluster X = sqrt {{{left ({{f_1} - {x_1 }} rechts)} ^ 2} + {{links ({{f_2} - {x_2}} rechts)} ^ 2} + cdots + {{links ({{f_n} - {x_n}} rechts)} ^ 2} }

De waarden {f_1},; {f_2},; ldots; {f_n} zijn de numerieke waarden van de functies die het item in kwestie beschrijven. De waarden {x_1},; {x_2},; ldots; {x_n} zijn de kenmerken (gemiddelde waarden) van de clustervertegenwoordiger (centroid), ervan uitgaande dat elk item

n kenmerken heeft. Overweeg bijvoorbeeld het item met de naam Klant 2 (3, 4): de waardering van de klant voor product A was 3 en de beoordeling voor product B was 4. Het kenmerk voor het cluster is (2, 2). De overeenkomst tussen klant 2 en cluster 1 wordt als volgt berekend:

Overeenkomst van item 2 met cluster 1 = sqrt {{{links ({3 - 2} rechts)} ^ 2} + {{left ({4 - 2) } right)} ^ 2}} = 2. 23

Dit is hoe hetzelfde proces eruit ziet met Cluster 2:

Overeenkomst van Item 2 met Cluster 2 = sqrt {{{left ({3 - 10} right) } ^ 2} + {{links ({4 - 14} rechts)} ^ 2}} = 12. 20

Als je deze resultaten vergelijkt, wijs je Item 2 (dat wil zeggen Klant 2) toe aan Cluster 1 omdat de cijfers zeggen Item 2 lijkt meer op Cluster 1.

Pas dezelfde overeenkomstanalyse toe op elk ander item in de gegevensset.
Telkens wanneer een nieuw lid lid wordt van een cluster, moet u de clustervertegenwoordiger opnieuw berekenen.

Dit toont de resultaten van de eerste iteratie van K-mean-algoritme. Merk op dat

k gelijk is aan 2, dus u zoekt naar twee clusters, die een reeks klanten in twee zinvolle groepen verdelen. Elke klant wordt afzonderlijk geanalyseerd en wordt toegewezen aan een van de clusters op basis van de gelijkenis van de klant met elk van de huidige clustervertegenwoordigers. Herhaal de dataset opnieuw en doorloop elk element; bereken de overeenkomst tussen elk element en zijn huidige clustervertegenwoordiger.

Let op dat klant 3 is overgestapt van cluster 1 naar cluster 2. Dit komt doordat de afstand tussen klant 3 en het cluster dat representatief is voor cluster 2 dichterbij is dan bij het cluster dat representatief is voor cluster 1.

clustervertegenwoordiger (Centroid Vector) < Cluster 1

Klant-ID # 1 (2, 2)
Cluster 2	Klant-ID # 5 (10, 14)
Iteratie # 1	Klantcluster 1

Klantcluster 2	Klant die moet worden onderzocht	Klant-id's die behoren tot cluster 1
Clustervertegenwoordiger	Klant-ID's die behoren tot cluster 1	Clustervertegenwoordiger	1	(2, 2) > 5
(10, 14)	2	1, 2	(2.4, 3)
5	(10, 14)	3	1, 2, 3	(3, 6, 4. 6)
5	(10, 14)	4	1, 2, 3	(3, 6, 4. 6)
4, 5	(8, 4, 12)	6	1, 2, 3	(3, 6, 4. 6)
4, 5, 6	(8, 6, 11. 4)	7	1, 2, 3 > (3, 6, 4. 6)	4, 5, 6, 7
(8, 2, 10. 8)	Dit is een tweede iteratie van K-means algoritme op klantgegevens. Elke klant wordt opnieuw geanalyseerd. Klant 2 wordt toegewezen aan Cluster 1 omdat klant 2 dichter bij de vertegenwoordiger van Cluster 1 staat dan Cluster 2. Hetzelfde scenario is van toepassing op klant 4. Merk op dat een clustervertegenwoordiger telkens opnieuw wordt berekend wanneer een nieuw lid wordt toegewezen aan een cluster.	Iteratie # 2	Klantencluster 1	Klantencluster 2

Klant wordt onderzocht

K-means Cluster Algorithms gebruiken in Predictive Analysis - dummies

Bewerkers keuze

Klant-ID's die behoren tot cluster 1	Clustervertegenwoordiger	Klant-ID's die behoren tot cluster 2 > Clustervertegenwoordiger
1	1	(3, 6, 4. 6)	5	(8, 2, 10. 8)
2	1, 2 < (5, 2, 3)	5	(8, 2, 10. 8)	3
1, 2	(5, 2, 3)	5, 3	(7, 8, 10. 2)	4
1, 2	(5, 2, 3)	4, 5. 3	(7, 8, 10. 2)	6
1, 2	(5. 2, 3)	4, 5, 6. 3	(7, 8, 10. 2)	7 < 1, 2
(5. 2, 3)	3, 4, 5, 6, 7	(7, 8, 10. 2)

K-means Cluster Algorithms gebruiken in Predictive Analysis - dummies

Video: How to Use SPSS-Replacing Missing Data Using Multiple Imputation (Regression Method) 2024

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon Rebel T3-serie camera's: het scherm met scherminstellingen uitschakelen - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Grammatica controleren in Word 2007 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Bewerkers keuze

Omgaan met de nieuwe Excel 2007-bestandsindelingen - dummies

Ontcijferen Foutwaarden in Excel 2016 Formules - dummies

Bepalen welke gegevens moeten worden weergegeven in uw Excel Financial Model - dummies

Foutwaarden in Excel 2010-formules herkennen - Dummies

Bewerkers keuze

IPhone & iPad Webontwerp voor Dummy's Cheat Sheet - dummies

Lijst- en extensie-eigenschappen van Cascading Style Sheets (CSS) - dummies

Ervoor zorgen dat uw aanbiedingen waardevol zijn voor uw e-mailmarketing Klanten - dummies

Zorg ervoor dat uw e-mailmarketing voldoet aan de spamwetgeving - dummies

Populaire categorieën