Clustering Algoritmen gebruikt in gegevenswetenschap - dummy's

Video: What is high-performance computing? A 3 minute explanation of supercomputing 2024

U gebruikt clusteringalgoritmen om uw datasets onder te verdelen in clusters van gegevenspunten die het meest vergelijkbaar zijn voor een vooraf gedefinieerd attribuut. Als u een gegevensset hebt die meerdere kenmerken beschrijft over een bepaalde functie en u wilt uw gegevenspunten groeperen op basis van hun attribuutovereenkomsten, gebruikt u dan clusteringalgoritmen.

Een eenvoudige scatterplot van gegevensreeksen van land inkomens en onderwijs levert de grafiek op die u hier ziet.

In ongecontroleerde clustering begin je met deze gegevens en ga je verder met het onderverdelen in subsets. Deze subsets worden clusters genoemd en bestaan uit gegevenspunten die het meest op elkaar lijken. Het lijkt erop dat er ten minste twee clusters zijn, waarschijnlijk drie - een aan de onderkant met een laag inkomen en onderwijs, en dan zien de hogeschoollanden eruit alsof ze kunnen worden opgesplitst tussen laag en hoog inkomen.

De volgende afbeelding toont het resultaat van eyeballing - het maken van een visuele schatting van - clusters in deze dataset.

Hoewel u visuele schattingen van clustering kunt genereren, kunt u veel nauwkeurigere resultaten behalen wanneer u met veel grotere gegevensreeksen werkt door algoritmen te gebruiken om clusters voor u te genereren. Visuele schatting is een ruwe methode die alleen nuttig is voor kleinere datasets met minimale complexiteit. Algoritmen - produceren exacte, reproduceerbare resultaten en u kunt algoritmen gebruiken om clustering te genereren voor meerdere dimensies van gegevens in uw gegevensset.

Clusteringalgoritmen zijn een type benadering bij onbewaakt machine learning - andere benaderingen omvatten Markov-methoden en methoden voor het verminderen van de afmetingen. Clusteringalgoritmen zijn geschikt in situaties waarin de volgende kenmerken waar zijn:

U kent en begrijpt de dataset die u analyseert.
Voordat u het clusteringalgoritme uitvoert, hebt u geen exact idee over de aard van de subsets (clusters). Vaak weet u niet eens hoeveel subsets er in de dataset zitten voordat u het algoritme uitvoert.
De subsets (clusters) worden bepaald door slechts de ene gegevensset die u analyseert.
Het is uw doel om een model te bepalen dat de subsets in een enkele gegevensset en alleen deze gegevensset beschrijft.

Als u meer gegevens toevoegt, moet u de analyse helemaal opnieuw uitvoeren om complete en nauwkeurige modelresultaten te krijgen.