Video: How to Use SPSS-Replacing Missing Data Using Multiple Imputation (Regression Method) 2024
K is een invoer voor het algoritme voor voorspellende analyse; het staat voor het aantal groepen dat het algoritme uit een gegevensset moet extraheren, algebraïsch uitgedrukt als k . Een K-means algoritme verdeelt een gegeven dataset in k clusters. Het algoritme voert de volgende bewerkingen uit:
-
Kies k willekeurige items uit de gegevensset en label ze als clustervertegenwoordigers.
-
Koppel elk resterend item in de gegevensset met de dichtstbijzijnde clustervertegenwoordiger, met behulp van een Euclidische afstand berekend door een overeenkomstfunctie.
-
Herbereken de vertegenwoordigers van de nieuwe clusters.
-
Herhaal stap 2 en 3 totdat de clusters niet veranderen.
Een vertegenwoordiger van een cluster is het wiskundige gemiddelde (gemiddelde) van alle items die tot hetzelfde cluster behoren. Deze vertegenwoordiger wordt ook een clustercentrum genoemd. Beschouw bijvoorbeeld drie items uit de dataset fruit waar
Type 1 komt overeen met bananen.
Type 2 komt overeen met appels.
Kleur 2 komt overeen met geel.
Kleur 3 komt overeen met groen.
Ervan uitgaande dat deze items aan hetzelfde cluster zijn toegewezen, wordt het zwaartepunt van deze drie items berekend.
Item | Feature # 1 Type | Feature # 2 Kleur | Feature # 3 Gewicht (Ounces) |
---|---|---|---|
1 | 1 | 2 | 5. 33 |
2 | 2 | 3 | 9. 33 |
3 | 1 | 2 | 2. 1 |
Dit zijn de berekeningen van een cluster die representatief is voor drie items die tot hetzelfde cluster behoren. De clustervertegenwoordiger is een vector met drie kenmerken. De attributen zijn het gemiddelde van de attributen van de items in het betreffende cluster.
Item | Feature # 1 Type | Feature # 2 Kleur | Feature # 3 Gewicht (Ounces) |
---|---|---|---|
1 | 1 | 2 | 5. 33 |
2 | 2 | 3 | 9. 33 |
3 | 1 | 2 | 2. 1 |
Clustervertegenwoordiger (Centroid Vector) | (1 + 2 + 1) / 3 = 1. 33 | (2 + 3 + 2) / 3 = 2. 33 | (5. 33 + 9. 33 +32. 1) / 3 = 3 |
De volgende dataset bestaat uit zeven klantenbeoordelingen van twee producten, A en B. De rangorde vertegenwoordigt het aantal punten (tussen 0 en 10) die elke klant aan een product heeft gegeven - hoe meer punten worden gegeven, hoe hoger het product gerangschikt is.
Door gebruik te maken van een K-means algoritme en ervan uitgaande dat k gelijk is aan 2, zal de dataset worden verdeeld in twee groepen. De rest van de procedure ziet er als volgt uit:
-
Kies twee willekeurige items uit de gegevensset en label ze als clustervertegenwoordigers.
Het volgende toont de eerste stap van het selecteren van willekeurige centroids waaruit het K-means-clusteringproces begint.De eerste centroids worden willekeurig geselecteerd uit de gegevens die u gaat analyseren. In dit geval bent u op zoek naar twee clusters, dus twee gegevensitems zijn willekeurig geselecteerd: klanten 1 en 5.
In eerste instantie bouwt het clusterproces twee clusters rond die twee eerste (willekeurig geselecteerde) clustervertegenwoordigers. Vervolgens worden de clustervertegenwoordigers opnieuw berekend; de berekening is gebaseerd op de items in elk cluster.
Klant-ID Klantbeoordelingen van product A Klantbeoordelingen van product B 1 2 2 2 3 4 3 < 6 8 4 7 10 5 10 14 6 9 10 7 7 9 Inspecteer elk ander artikel (klant) en wijs het toe aan de clustervertegenwoordiger waarop het het meest op elkaar lijkt. -
Gebruik de
Euclidische afstand om te berekenen hoe vergelijkbaar een item is voor een groep items: Overeenkomst van item I tot cluster X = sqrt {{{left ({{f_1} - {x_1 }} rechts)} ^ 2} + {{links ({{f_2} - {x_2}} rechts)} ^ 2} + cdots + {{links ({{f_n} - {x_n}} rechts)} ^ 2} }
De waarden {f_1},; {f_2},; ldots; {f_n} zijn de numerieke waarden van de functies die het item in kwestie beschrijven. De waarden {x_1},; {x_2},; ldots; {x_n} zijn de kenmerken (gemiddelde waarden) van de clustervertegenwoordiger (centroid), ervan uitgaande dat elk item
n kenmerken heeft. Overweeg bijvoorbeeld het item met de naam Klant 2 (3, 4): de waardering van de klant voor product A was 3 en de beoordeling voor product B was 4. Het kenmerk voor het cluster is (2, 2). De overeenkomst tussen klant 2 en cluster 1 wordt als volgt berekend:
Overeenkomst van item 2 met cluster 1 = sqrt {{{links ({3 - 2} rechts)} ^ 2} + {{left ({4 - 2) } right)} ^ 2}} = 2. 23
Dit is hoe hetzelfde proces eruit ziet met Cluster 2:
Overeenkomst van Item 2 met Cluster 2 = sqrt {{{left ({3 - 10} right) } ^ 2} + {{links ({4 - 14} rechts)} ^ 2}} = 12. 20
Als je deze resultaten vergelijkt, wijs je Item 2 (dat wil zeggen Klant 2) toe aan Cluster 1 omdat de cijfers zeggen Item 2 lijkt meer op Cluster 1.
Pas dezelfde overeenkomstanalyse toe op elk ander item in de gegevensset.
-
Telkens wanneer een nieuw lid lid wordt van een cluster, moet u de clustervertegenwoordiger opnieuw berekenen.
Dit toont de resultaten van de eerste iteratie van K-mean-algoritme. Merk op dat
k gelijk is aan 2, dus u zoekt naar twee clusters, die een reeks klanten in twee zinvolle groepen verdelen. Elke klant wordt afzonderlijk geanalyseerd en wordt toegewezen aan een van de clusters op basis van de gelijkenis van de klant met elk van de huidige clustervertegenwoordigers. Herhaal de dataset opnieuw en doorloop elk element; bereken de overeenkomst tussen elk element en zijn huidige clustervertegenwoordiger.
-
Let op dat klant 3 is overgestapt van cluster 1 naar cluster 2. Dit komt doordat de afstand tussen klant 3 en het cluster dat representatief is voor cluster 2 dichterbij is dan bij het cluster dat representatief is voor cluster 1.
clustervertegenwoordiger (Centroid Vector) < Cluster 1
Klant-ID # 1 (2, 2) Cluster 2 Klant-ID # 5 (10, 14) Iteratie # 1 Klantcluster 1 Klantcluster 2 Klant die moet worden onderzocht Klant-id's die behoren tot cluster 1 Clustervertegenwoordiger Klant-ID's die behoren tot cluster 1 Clustervertegenwoordiger 1 (2, 2) > 5 (10, 14) 2 1, 2 (2.4, 3) 5 (10, 14) 3 1, 2, 3 (3, 6, 4. 6) 5 (10, 14) 4 1, 2, 3 (3, 6, 4. 6) 4, 5 (8, 4, 12) 6 1, 2, 3 (3, 6, 4. 6) 4, 5, 6 (8, 6, 11. 4) 7 1, 2, 3 > (3, 6, 4. 6) 4, 5, 6, 7 (8, 2, 10. 8) Dit is een tweede iteratie van K-means algoritme op klantgegevens. Elke klant wordt opnieuw geanalyseerd. Klant 2 wordt toegewezen aan Cluster 1 omdat klant 2 dichter bij de vertegenwoordiger van Cluster 1 staat dan Cluster 2. Hetzelfde scenario is van toepassing op klant 4. Merk op dat een clustervertegenwoordiger telkens opnieuw wordt berekend wanneer een nieuw lid wordt toegewezen aan een cluster. Iteratie # 2 Klantencluster 1 Klantencluster 2
Klant wordt onderzocht
Klant-ID's die behoren tot cluster 1 | Clustervertegenwoordiger | Klant-ID's die behoren tot cluster 2 > Clustervertegenwoordiger | ||
---|---|---|---|---|
1 | 1 | (3, 6, 4. 6) | 5 | (8, 2, 10. 8) |
2 | 1, 2 < (5, 2, 3) | 5 | (8, 2, 10. 8) | 3 |
1, 2 | (5, 2, 3) | 5, 3 | (7, 8, 10. 2) | 4 |
1, 2 | (5, 2, 3) | 4, 5. 3 | (7, 8, 10. 2) | 6 |
1, 2 | (5. 2, 3) | 4, 5, 6. 3 | (7, 8, 10. 2) | 7 < 1, 2 |
(5. 2, 3) | 3, 4, 5, 6, 7 | (7, 8, 10. 2) |