Basisprincipes van gegevensclusters in Predictive Analysis - dummies

A gegevensset < (of gegevensverzameling) is een verzameling items in voorspellende analyse. Een set documenten is bijvoorbeeld een gegevensset waarin de gegevensitems documenten zijn. Een reeks gegevens van sociale netwerkgebruikers (naam, leeftijd, lijst met vrienden, foto's, enzovoort) is een gegevensset waarin de gegevensitems profielen van gebruikers van sociale netwerken zijn. Gegevensclustering

is de taak een gegevensset te verdelen in subsets van vergelijkbare items. Items kunnen ook worden aangeduid als instanties, observatie, entiteiten of gegevensobjecten. In de meeste gevallen wordt een gegevensset weergegeven in tabelindeling - een gegevensmatrix . Een gegevensmatrix is een tabel met getallen, documenten of uitdrukkingen, die als volgt in rijen en kolommen worden weergegeven:

Elke rij komt overeen met een bepaald item in de dataset.

Rijen worden soms

items, objecten, exemplaren of waarnemingen genoemd. Elke kolom vertegenwoordigt een bepaald kenmerk van een item.
Kolommen worden

kenmerken of kenmerken genoemd. Door gegevensclustering toe te passen op een gegevensset worden groepen vergelijkbare gegevensitems gegenereerd. Deze groepen worden

clusters genoemd - verzamelingen met vergelijkbare gegevensitems.

Vergelijkbare

items hebben een sterke, meetbare relatie tussen hen - verse groenten bijvoorbeeld lijken meer op elkaar dan op bevroren voedsel - en clusteringstechnieken gebruiken die relatie tot groep de artikelen. De sterkte van een relatie tussen twee of meer items kan worden gekwantificeerd als een

gelijkheidsmaat: Een wiskundige functie berekent de correlatie tussen twee gegevensitems. De resultaten van die berekening, gelijkheidswaarden genoemd, vergelijken in essentie een bepaald gegevensitem met alle andere items in de gegevensset. Die andere items zullen meer vergelijkbaar of minder vergelijkbaar zijn in vergelijking met dat specifieke item.

Berekende overeenkomsten spelen een grote rol bij het toewijzen van items aan groepen (

clusters ). Elke groep heeft een item dat het het best vertegenwoordigt; dit item wordt een clustervertegenwoordiger genoemd. Beschouw een dataset die bestaat uit verschillende soorten fruit in een mandje. De mand heeft vruchten van verschillende soorten, zoals appels, bananen, citroenen en peren. In dit geval zijn fruit de gegevensitems. Het proces voor clustering van gegevens extraheert groepen vergelijkbare vruchten uit deze gegevensset (mand met verschillende vruchten).

De eerste stap in een proces voor gegevensclustering is om deze gegevensset in een gegevensmatrix te vertalen: Eén manier om deze gegevensset te modelleren is om de rijen de items in de gegevensset (fruit) te laten representeren; en de kolommen vertegenwoordigen kenmerken of kenmerken die de items beschrijven.

Een fruitfunctie kan bijvoorbeeld het fruittype zijn (zoals een banaan of appel), gewicht, kleur of prijs. In deze voorbeeldgegevensset hebben de items drie functies: vruchtentype, kleur en gewicht.

In de meeste gevallen kunt u met behulp van een gegevensclusteringstechniek voor de fruitgegevensset, zoals hierboven beschreven, Groepen (clusters) van vergelijkbare items ophalen.

U kunt zien dat uw fruit uit een N-aantal groepen bestaat. Als je daarna een willekeurig fruit plukt, kun je een statement maken over dat item als onderdeel van een van de N-groepen. Clustervertegenwoordigers ophalen van elke groep.
In dit voorbeeld zou een clustervertegenwoordiger één vruchttype uit de mand plukken en opzij leggen. De kenmerken van deze vrucht zijn zodanig dat die vrucht het beste het cluster vertegenwoordigt waartoe het behoort. Wanneer u klaar bent met clusteren, is uw gegevensset georganiseerd en verdeeld in natuurlijke groepen.

Gegevensclustering onthult structuur in de gegevens door natuurlijke groepen uit een gegevensset te extraheren. Daarom is het ontdekken van clusters een essentiële stap in het formuleren van ideeën en hypothesen over de structuur van uw gegevens en het ontlenen van inzichten om het beter te begrijpen.

Gegevensclustering kan ook een manier zijn om gegevens te modelleren: het vertegenwoordigt een groter aantal gegevens van clusters of clustervertegenwoordigers.

Bovendien kan uw analyse eenvoudigweg ertoe leiden dat de gegevens worden onderverdeeld in groepen van vergelijkbare items - zoals wanneer

marktsegmentatie partities richten op marktgegevens in groepen zoals Consumenten die dezelfde interesses delen (zoals mediterrane keuken)

Consumenten met gemeenschappelijke behoeften (bijvoorbeeld mensen met specifieke voedselallergieën)
Identificatie van clusters van vergelijkbare klanten kan u helpen bij het ontwikkelen van een marketingstrategie die inspeelt op de behoeften van specifieke clusters.

Bovendien kan gegevensclustering u ook helpen de aard van nieuwe gegevensitems te identificeren, te leren of te voorspellen, met name hoe nieuwe gegevens kunnen worden gekoppeld aan het maken van voorspellingen. In

patroonherkenning bijvoorbeeld, kan het analyseren van patronen in de gegevens (zoals kooppatronen in bepaalde regio's of leeftijdsgroepen) u helpen voorspellende analyses te ontwikkelen - in dit geval, de aard van toekomstige gegevensitems voorspellen die kunnen passen goed bij gevestigde patronen. Het voorbeeld van de fruitmand gebruikt gegevensclustering om onderscheid te maken tussen verschillende gegevensitems. Stel dat uw bedrijf aangepaste fruitmanden assembleert en een nieuwe, onbekende vrucht op de markt wordt geïntroduceerd. U wilt leren of voorspellen tot welk cluster het nieuwe item behoort als u het toevoegt aan de fruitmand.

Omdat u al gegevensclustering hebt toegepast op de gegevensset fruit, hebt u vier clusters - waardoor u gemakkelijker kunt voorspellen welk cluster (specifieke soort fruit) geschikt is voor het nieuwe item. Het enige dat u hoeft te doen, is het onbekende fruit vergelijken met de vertegenwoordigers van de andere vier clusters en vaststellen welk cluster het beste bij elkaar past.

Hoewel dit proces voor een persoon met een kleine gegevensset voor de hand liggend lijkt, is het op grotere schaal niet zo vanzelfsprekend - wanneer u miljoenen items moet clusteren zonder ze afzonderlijk te onderzoeken.De complexiteit wordt exponentieel wanneer de dataset groot, divers en relatief onsamenhangend is. Daarom bestaan er clusteringalgoritmen: Computers doen dat soort werk het beste.