Video: Unit Conversion & Significant Figures: Crash Course Chemistry #2 2024
Zowel clustering als classificatie zijn gebaseerd op het berekenen van de overeenkomst of het verschil tussen twee gegevenspunten. Als uw gegevensset numeriek is - bestaande uit alleen nummervelden en waarden - en kan worden afgebeeld op een n -dimensionale plot, zijn er verschillende geometrische meetwaarden die u kunt gebruiken om uw multidimensionale schaal te schalen gegevens.
Een n-dimensionale grafiek is een multidimensionale spreidingsplotgrafiek die u kunt gebruiken om het n aantal dimensies van gegevens te plotten.
Sommige populaire geometrische meetwaarden die worden gebruikt voor het berekenen van afstanden tussen gegevenspunten, zijn Euclidean, Manhattan of Minkowski afstandsmetrieken. Deze statistieken zijn slechts verschillende geometrische functies die handig zijn voor het modelleren van afstanden tussen punten. De Euclidische metriek is een maat voor de afstand tussen punten die zijn uitgezet op een Euclidisch vlak.
De Manhattan-metriek is een maat voor de afstand tussen punten waarbij de afstand wordt berekend als de som van de absolute waarde van de verschillen tussen de cartesiaanse coördinaten van twee punten. De afstandsmetriek Minkowski is een generalisatie van de Euclidische en Manhattan-afstandsmetriek. Heel vaak kunnen deze statistieken worden gebruikt, door elkaar.
Als uw gegevens numeriek maar niet-plottable zijn (zoals curven in plaats van punten), kunt u similariteitsscores genereren op basis van verschillen tussen gegevens in plaats van de werkelijke waarden van de gegevens zelf.
Ten slotte kunt u voor niet-numerieke gegevens statistieken gebruiken zoals de Jaccard-afstandsmetriek, een index die het aantal functies vergelijkt dat twee gegevenspunten gemeen hebben. Als u bijvoorbeeld een Jaccard-afstand wilt illustreren, moet u denken aan de volgende twee tekstreeksen: Saint Louis de Ha-ha, Quebec en St-Louis de Ha! Ha!, QC.
Welke functies hebben deze tekstreeksen gemeen? En welke functies zijn er verschillend tussen? De Jaccard-metriek genereert een numerieke indexwaarde die de overeenkomst tussen tekstreeksen kwantificeert.