Huis Persoonlijke financiën Basisprincipes van gegevensclusters in Predictive Analysis - dummies

Basisprincipes van gegevensclusters in Predictive Analysis - dummies

Video: Basisprincipes van brandbestrijding: waarom is verandering nodig? 2025

Video: Basisprincipes van brandbestrijding: waarom is verandering nodig? 2025
Anonim

A gegevensset < (of gegevensverzameling) is een verzameling items in voorspellende analyse. Een set documenten is bijvoorbeeld een gegevensset waarin de gegevensitems documenten zijn. Een reeks gegevens van sociale netwerkgebruikers (naam, leeftijd, lijst met vrienden, foto's, enzovoort) is een gegevensset waarin de gegevensitems profielen van gebruikers van sociale netwerken zijn. Gegevensclustering

is de taak een gegevensset te verdelen in subsets van vergelijkbare items. Items kunnen ook worden aangeduid als instanties, observatie, entiteiten of gegevensobjecten. In de meeste gevallen wordt een gegevensset weergegeven in tabelindeling - een gegevensmatrix . Een gegevensmatrix is ​​een tabel met getallen, documenten of uitdrukkingen, die als volgt in rijen en kolommen worden weergegeven:

Elke rij komt overeen met een bepaald item in de dataset.
  • Rijen worden soms

    items, objecten, exemplaren of waarnemingen genoemd. Elke kolom vertegenwoordigt een bepaald kenmerk van een item.

  • Kolommen worden

    kenmerken of kenmerken genoemd. Door gegevensclustering toe te passen op een gegevensset worden groepen vergelijkbare gegevensitems gegenereerd. Deze groepen worden

clusters genoemd - verzamelingen met vergelijkbare gegevensitems.

Vergelijkbare

items hebben een sterke, meetbare relatie tussen hen - verse groenten bijvoorbeeld lijken meer op elkaar dan op bevroren voedsel - en clusteringstechnieken gebruiken die relatie tot groep de artikelen. De sterkte van een relatie tussen twee of meer items kan worden gekwantificeerd als een

gelijkheidsmaat: Een wiskundige functie berekent de correlatie tussen twee gegevensitems. De resultaten van die berekening, gelijkheidswaarden genoemd, vergelijken in essentie een bepaald gegevensitem met alle andere items in de gegevensset. Die andere items zullen meer vergelijkbaar of minder vergelijkbaar zijn in vergelijking met dat specifieke item.

Berekende overeenkomsten spelen een grote rol bij het toewijzen van items aan groepen (

clusters ). Elke groep heeft een item dat het het best vertegenwoordigt; dit item wordt een clustervertegenwoordiger genoemd. Beschouw een dataset die bestaat uit verschillende soorten fruit in een mandje. De mand heeft vruchten van verschillende soorten, zoals appels, bananen, citroenen en peren. In dit geval zijn fruit de gegevensitems. Het proces voor clustering van gegevens extraheert groepen vergelijkbare vruchten uit deze gegevensset (mand met verschillende vruchten).

De eerste stap in een proces voor gegevensclustering is om deze gegevensset in een gegevensmatrix te vertalen: Eén manier om deze gegevensset te modelleren is om de rijen de items in de gegevensset (fruit) te laten representeren; en de kolommen vertegenwoordigen kenmerken of kenmerken die de items beschrijven.

Een fruitfunctie kan bijvoorbeeld het fruittype zijn (zoals een banaan of appel), gewicht, kleur of prijs. In deze voorbeeldgegevensset hebben de items drie functies: vruchtentype, kleur en gewicht.

In de meeste gevallen kunt u met behulp van een gegevensclusteringstechniek voor de fruitgegevensset, zoals hierboven beschreven, Groepen (clusters) van vergelijkbare items ophalen.

  • U kunt zien dat uw fruit uit een N-aantal groepen bestaat. Als je daarna een willekeurig fruit plukt, kun je een statement maken over dat item als onderdeel van een van de N-groepen. Clustervertegenwoordigers ophalen van elke groep.

  • In dit voorbeeld zou een clustervertegenwoordiger één vruchttype uit de mand plukken en opzij leggen. De kenmerken van deze vrucht zijn zodanig dat die vrucht het beste het cluster vertegenwoordigt waartoe het behoort. Wanneer u klaar bent met clusteren, is uw gegevensset georganiseerd en verdeeld in natuurlijke groepen.

Gegevensclustering onthult structuur in de gegevens door natuurlijke groepen uit een gegevensset te extraheren. Daarom is het ontdekken van clusters een essentiële stap in het formuleren van ideeën en hypothesen over de structuur van uw gegevens en het ontlenen van inzichten om het beter te begrijpen.

Gegevensclustering kan ook een manier zijn om gegevens te modelleren: het vertegenwoordigt een groter aantal gegevens van clusters of clustervertegenwoordigers.

Bovendien kan uw analyse eenvoudigweg ertoe leiden dat de gegevens worden onderverdeeld in groepen van vergelijkbare items - zoals wanneer

marktsegmentatie partities richten op marktgegevens in groepen zoals Consumenten die dezelfde interesses delen (zoals mediterrane keuken)

  • Consumenten met gemeenschappelijke behoeften (bijvoorbeeld mensen met specifieke voedselallergieën)

  • Identificatie van clusters van vergelijkbare klanten kan u helpen bij het ontwikkelen van een marketingstrategie die inspeelt op de behoeften van specifieke clusters.

Bovendien kan gegevensclustering u ook helpen de aard van nieuwe gegevensitems te identificeren, te leren of te voorspellen, met name hoe nieuwe gegevens kunnen worden gekoppeld aan het maken van voorspellingen. In

patroonherkenning bijvoorbeeld, kan het analyseren van patronen in de gegevens (zoals kooppatronen in bepaalde regio's of leeftijdsgroepen) u helpen voorspellende analyses te ontwikkelen - in dit geval, de aard van toekomstige gegevensitems voorspellen die kunnen passen goed bij gevestigde patronen. Het voorbeeld van de fruitmand gebruikt gegevensclustering om onderscheid te maken tussen verschillende gegevensitems. Stel dat uw bedrijf aangepaste fruitmanden assembleert en een nieuwe, onbekende vrucht op de markt wordt geïntroduceerd. U wilt leren of voorspellen tot welk cluster het nieuwe item behoort als u het toevoegt aan de fruitmand.

Omdat u al gegevensclustering hebt toegepast op de gegevensset fruit, hebt u vier clusters - waardoor u gemakkelijker kunt voorspellen welk cluster (specifieke soort fruit) geschikt is voor het nieuwe item. Het enige dat u hoeft te doen, is het onbekende fruit vergelijken met de vertegenwoordigers van de andere vier clusters en vaststellen welk cluster het beste bij elkaar past.

Hoewel dit proces voor een persoon met een kleine gegevensset voor de hand liggend lijkt, is het op grotere schaal niet zo vanzelfsprekend - wanneer u miljoenen items moet clusteren zonder ze afzonderlijk te onderzoeken.De complexiteit wordt exponentieel wanneer de dataset groot, divers en relatief onsamenhangend is. Daarom bestaan ​​er clusteringalgoritmen: Computers doen dat soort werk het beste.

Basisprincipes van gegevensclusters in Predictive Analysis - dummies

Bewerkers keuze

Hoe maak je Minecraft Pixel Art - dummies

Hoe maak je Minecraft Pixel Art - dummies

Kanaal je innerlijke kunstenaar en beheer pixelkunst in Minecraft door gebruik te maken van onze tips en technieken voor het maken van zowel 2D- en 3D-kunstwerken!

Hoe je stenen kunt maken en stenen kunt gebruiken in Minecraft - dummies

Hoe je stenen kunt maken en stenen kunt gebruiken in Minecraft - dummies

Hoe je bakstenen in Minecraft bewerkt door gebruik van verschillende stenen zoals zandsteen, dioriet en graniet (elk met verschillende ontwerpen en weerstanden).

Minecraft-machines maken en uw basis verdedigen - dummies

Minecraft-machines maken en uw basis verdedigen - dummies

Leren hoe u uw gebouw beter kunt verdedigen in Minecraft door unieke machines te maken zoals een pijlschietdispenser, gesloten ijzeren deuren en drukplaten!

Bewerkers keuze

SQL WHERE-claus predicaten - dummies

SQL WHERE-claus predicaten - dummies

Predikaten komen neer op een WAAR of een ONWAAR resultaat. U kunt ongewenste rijen filteren op het resultaat van een SQL-query door een WHERE-component toe te passen waarvan het predicaat de ongewenste rijen uitsluit. Vergelijking Predicates = Gelijk niet gelijk Groter dan> Groter ...

Onderzoeken van het EPD-leverancierslandschap - dummies

Onderzoeken van het EPD-leverancierslandschap - dummies

Beslissen over een leverancier om u op te zetten met een EPD (elektronisch gezondheidsdossier) systeem vraagt ​​om onderzoek. Om uzelf (en uw praktijk) te kennen, doe een kleine reconstructie en zie welke EHR-verkopers andere praktijken gebruiken en waarom. Stel vragen en houd een lijst bij met kenmerken die u in een ...

Gegevens opslaan met PHP - plat bestand of database? - dummies

Gegevens opslaan met PHP - plat bestand of database? - dummies

Veel toepassingen vereisen de langetermijnopslag van informatie. In PHP-scripts kunt u informatie beschikbaar maken in sessies - tijdsperioden die gebruikers op uw website doorbrengen - door middel van methoden zoals PHP-sessiefuncties en door formulieren in te dienen. Uiteindelijk moet je echter informatie opslaan voor gebruik morgen of volgende week. ...

Bewerkers keuze

Leer de bedieningselementen kennen op uw Nikon D3100 digitale camera - dummies

Leer de bedieningselementen kennen op uw Nikon D3100 digitale camera - dummies

Hier vindt u een korte referentie gids voor de knoppen, knoppen en andere externe bedieningselementen op uw D3100. Merk op dat de getoonde lens het Nikkor 18-55 mm AF-S DX (vibratiereductie) -model is dat wordt verkocht met de D3100-kit; andere lenzen hebben mogelijk niet dezelfde bedieningselementen.

Algemeen Lichtmeetmethoden voor digitale SLR-fotografie - dummies

Algemeen Lichtmeetmethoden voor digitale SLR-fotografie - dummies

Lichtmeting is het proces waarbij wordt gemeten hoeveel licht in de scène die je wilt fotograferen. De hoeveelheid licht helpt bepalen welk diafragma, sluitertijd en ISO-gevoeligheid u of uw camera moet instellen om een ​​goede foto te maken. Er zijn twee verschillende manieren om te meten (of te meten) hoeveel ...

Externe Flash-technieken voor uw digitale SLR - dummies

Externe Flash-technieken voor uw digitale SLR - dummies

Een externe flitser (de flitser waaraan u kunt bevestigen je DSLR, niet waar je hem monteert) is handig en heel leuk. Hoewel ingebouwde flitsers in staat zijn, is een externe flitser: biedt meer flexibiliteit, heeft meer kracht, geeft je meer vrijheid. Deze technieken zijn mogelijk met behulp van een externe flitser. U ...