Huis Persoonlijke financiën Basisprincipes van gegevensclusters in Predictive Analysis - dummies

Basisprincipes van gegevensclusters in Predictive Analysis - dummies

Video: Basisprincipes van brandbestrijding: waarom is verandering nodig? 2024

Video: Basisprincipes van brandbestrijding: waarom is verandering nodig? 2024
Anonim

A gegevensset < (of gegevensverzameling) is een verzameling items in voorspellende analyse. Een set documenten is bijvoorbeeld een gegevensset waarin de gegevensitems documenten zijn. Een reeks gegevens van sociale netwerkgebruikers (naam, leeftijd, lijst met vrienden, foto's, enzovoort) is een gegevensset waarin de gegevensitems profielen van gebruikers van sociale netwerken zijn. Gegevensclustering

is de taak een gegevensset te verdelen in subsets van vergelijkbare items. Items kunnen ook worden aangeduid als instanties, observatie, entiteiten of gegevensobjecten. In de meeste gevallen wordt een gegevensset weergegeven in tabelindeling - een gegevensmatrix . Een gegevensmatrix is ​​een tabel met getallen, documenten of uitdrukkingen, die als volgt in rijen en kolommen worden weergegeven:

Elke rij komt overeen met een bepaald item in de dataset.
  • Rijen worden soms

    items, objecten, exemplaren of waarnemingen genoemd. Elke kolom vertegenwoordigt een bepaald kenmerk van een item.

  • Kolommen worden

    kenmerken of kenmerken genoemd. Door gegevensclustering toe te passen op een gegevensset worden groepen vergelijkbare gegevensitems gegenereerd. Deze groepen worden

clusters genoemd - verzamelingen met vergelijkbare gegevensitems.

Vergelijkbare

items hebben een sterke, meetbare relatie tussen hen - verse groenten bijvoorbeeld lijken meer op elkaar dan op bevroren voedsel - en clusteringstechnieken gebruiken die relatie tot groep de artikelen. De sterkte van een relatie tussen twee of meer items kan worden gekwantificeerd als een

gelijkheidsmaat: Een wiskundige functie berekent de correlatie tussen twee gegevensitems. De resultaten van die berekening, gelijkheidswaarden genoemd, vergelijken in essentie een bepaald gegevensitem met alle andere items in de gegevensset. Die andere items zullen meer vergelijkbaar of minder vergelijkbaar zijn in vergelijking met dat specifieke item.

Berekende overeenkomsten spelen een grote rol bij het toewijzen van items aan groepen (

clusters ). Elke groep heeft een item dat het het best vertegenwoordigt; dit item wordt een clustervertegenwoordiger genoemd. Beschouw een dataset die bestaat uit verschillende soorten fruit in een mandje. De mand heeft vruchten van verschillende soorten, zoals appels, bananen, citroenen en peren. In dit geval zijn fruit de gegevensitems. Het proces voor clustering van gegevens extraheert groepen vergelijkbare vruchten uit deze gegevensset (mand met verschillende vruchten).

De eerste stap in een proces voor gegevensclustering is om deze gegevensset in een gegevensmatrix te vertalen: Eén manier om deze gegevensset te modelleren is om de rijen de items in de gegevensset (fruit) te laten representeren; en de kolommen vertegenwoordigen kenmerken of kenmerken die de items beschrijven.

Een fruitfunctie kan bijvoorbeeld het fruittype zijn (zoals een banaan of appel), gewicht, kleur of prijs. In deze voorbeeldgegevensset hebben de items drie functies: vruchtentype, kleur en gewicht.

In de meeste gevallen kunt u met behulp van een gegevensclusteringstechniek voor de fruitgegevensset, zoals hierboven beschreven, Groepen (clusters) van vergelijkbare items ophalen.

  • U kunt zien dat uw fruit uit een N-aantal groepen bestaat. Als je daarna een willekeurig fruit plukt, kun je een statement maken over dat item als onderdeel van een van de N-groepen. Clustervertegenwoordigers ophalen van elke groep.

  • In dit voorbeeld zou een clustervertegenwoordiger één vruchttype uit de mand plukken en opzij leggen. De kenmerken van deze vrucht zijn zodanig dat die vrucht het beste het cluster vertegenwoordigt waartoe het behoort. Wanneer u klaar bent met clusteren, is uw gegevensset georganiseerd en verdeeld in natuurlijke groepen.

Gegevensclustering onthult structuur in de gegevens door natuurlijke groepen uit een gegevensset te extraheren. Daarom is het ontdekken van clusters een essentiële stap in het formuleren van ideeën en hypothesen over de structuur van uw gegevens en het ontlenen van inzichten om het beter te begrijpen.

Gegevensclustering kan ook een manier zijn om gegevens te modelleren: het vertegenwoordigt een groter aantal gegevens van clusters of clustervertegenwoordigers.

Bovendien kan uw analyse eenvoudigweg ertoe leiden dat de gegevens worden onderverdeeld in groepen van vergelijkbare items - zoals wanneer

marktsegmentatie partities richten op marktgegevens in groepen zoals Consumenten die dezelfde interesses delen (zoals mediterrane keuken)

  • Consumenten met gemeenschappelijke behoeften (bijvoorbeeld mensen met specifieke voedselallergieën)

  • Identificatie van clusters van vergelijkbare klanten kan u helpen bij het ontwikkelen van een marketingstrategie die inspeelt op de behoeften van specifieke clusters.

Bovendien kan gegevensclustering u ook helpen de aard van nieuwe gegevensitems te identificeren, te leren of te voorspellen, met name hoe nieuwe gegevens kunnen worden gekoppeld aan het maken van voorspellingen. In

patroonherkenning bijvoorbeeld, kan het analyseren van patronen in de gegevens (zoals kooppatronen in bepaalde regio's of leeftijdsgroepen) u helpen voorspellende analyses te ontwikkelen - in dit geval, de aard van toekomstige gegevensitems voorspellen die kunnen passen goed bij gevestigde patronen. Het voorbeeld van de fruitmand gebruikt gegevensclustering om onderscheid te maken tussen verschillende gegevensitems. Stel dat uw bedrijf aangepaste fruitmanden assembleert en een nieuwe, onbekende vrucht op de markt wordt geïntroduceerd. U wilt leren of voorspellen tot welk cluster het nieuwe item behoort als u het toevoegt aan de fruitmand.

Omdat u al gegevensclustering hebt toegepast op de gegevensset fruit, hebt u vier clusters - waardoor u gemakkelijker kunt voorspellen welk cluster (specifieke soort fruit) geschikt is voor het nieuwe item. Het enige dat u hoeft te doen, is het onbekende fruit vergelijken met de vertegenwoordigers van de andere vier clusters en vaststellen welk cluster het beste bij elkaar past.

Hoewel dit proces voor een persoon met een kleine gegevensset voor de hand liggend lijkt, is het op grotere schaal niet zo vanzelfsprekend - wanneer u miljoenen items moet clusteren zonder ze afzonderlijk te onderzoeken.De complexiteit wordt exponentieel wanneer de dataset groot, divers en relatief onsamenhangend is. Daarom bestaan ​​er clusteringalgoritmen: Computers doen dat soort werk het beste.

Basisprincipes van gegevensclusters in Predictive Analysis - dummies

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...