Meten van similariteit tussen vectoren voor machine-learning - dummies

Video: Calculus III: Two Dimensional Vectors (Level 2 of 13) | Standard Position, Component Form 2024

U kunt voorbeelden uit uw gegevens eenvoudig vergelijken aan de hand van berekeningen als u ze allemaal als een vector beschouwt. De volgende informatie beschrijft hoe de overeenkomst tussen vectoren kan worden gemeten om taken uit te voeren zoals het berekenen van de afstand tussen vectoren voor leerdoeleinden.

Overeenkomstigheid

In een vectorvorm kunt u elke variabele in uw voorbeelden zien als een reeks coördinaten, waarbij elke variabele naar een positie in een andere ruimtedimensie wijst. Als een vector twee elementen heeft, dat wil zeggen dat deze slechts twee variabelen heeft, is het werken met het hetzelfde als het controleren van de positie van een item op een kaart door het eerste nummer te gebruiken voor de positie op de oost-west as en de tweede op de noordpool. Zuidas.

Voorbeelden van waarden die zijn uitgezet als punten op een grafiek.

De getallen tussen haakjes (1, 2) (3, 2) en (3, 3) zijn bijvoorbeeld allemaal voorbeelden van punten. Elk voorbeeld is een geordende lijst met waarden (een tuple genoemd) die gemakkelijk op een kaart kan worden gevonden en afgedrukt met behulp van de eerste waarde van de lijst voor x (de horizontale as) en de tweede voor y (de verticale as). Het resultaat is een scatterplot.

Als uw gegevensset in matrixvorm veel numerieke functies heeft (de kolommen), vertegenwoordigt idealiter het aantal functies de afmetingen van de gegevensruimte, terwijl de rijen (de voorbeelden) elk de afmetingen vertegenwoordigen punt, dat wiskundig een vector is. Wanneer je vector meer dan twee elementen heeft, wordt visualisatie lastig omdat het vertegenwoordigen van dimensies boven de derde niet gemakkelijk is (we leven tenslotte in een driedimensionale wereld).

U kunt er echter naar streven om meer dimensies over te brengen op een of andere manier, bijvoorbeeld door grootte, vorm of kleur te gebruiken voor andere dimensies. Het is duidelijk dat dit geen gemakkelijke taak is en vaak is het resultaat verre van intuïtief. U kunt echter het idee van de punten in uw gegevensruimte begrijpen door systematisch veel grafieken af te drukken terwijl u de dimensies twee aan twee beschouwt. Dergelijke grafieken worden matrices van spreidingsplots genoemd.

Maak je geen zorgen over multidimensionaliteit. U verlengt de regels die u in twee of drie dimensies hebt geleerd, naar meerdere dimensies, dus als een regel in een tweedimensionale ruimte werkt, werkt deze ook op meerdere. Daarom verwijzen alle voorbeelden eerst naar tweedimensionale voorbeelden.

Berekeningsafstanden voor leren

Een algoritme kan leren door vectoren van getallen te gebruiken die afstandsmetingen gebruiken. Vaak is de ruimte die door uw vectoren wordt geïmpliceerd een metrische die een ruimte is waarvan de afstanden bepaalde specifieke voorwaarden respecteren:

Er zijn geen negatieve afstanden en uw afstand is alleen nul wanneer het beginpunt en het eindpunt samenvallen (niet-atoomactiviteit genoemd).
De afstand is hetzelfde van het ene naar het andere punt en omgekeerd (symmetrie genoemd).
De afstand tussen een beginpunt en een laatste punt is altijd groter dan of slechter gelijk aan de afstand van het eerste naar een derde punt en van daar naar het laatste punt (driehoeksongelijkheid < - wat betekent dat er geen snelkoppelingen zijn). Afstanden die een metrische ruimte meten, zijn de Euclidische afstand, de afstand van Manhattan en de afstand Chebyshev. Dit zijn alle afstanden die kunnen gelden voor numerieke vectoren.

Euclidische afstand

De meest voorkomende is de Euclidische afstand, ook beschreven als de l2-norm van twee vectoren (lees deze bespreking van l1, l2 en linfinity-normen). In een tweedimensionaal vlak wordt de Euclidische afstand opnieuw weergegeven als de rechte lijn die twee punten met elkaar verbindt en bereken je deze als de vierkantswortel van de som van het kwadratische verschil tussen de elementen van twee vectoren. In de vorige plot kan de Euclidische afstand tussen punten (1, 2) en (3, 3) worden berekend in R als sqrt ((1-3) ^ 2 + (2-3) ^ 2), wat resulteert in een afstand van ongeveer 2. 236.

Manhattan-afstand

Een andere bruikbare maat is de Manhattan-afstand (ook beschreven als de l1-norm van twee vectoren). Je berekent de Manhattan-afstand door de absolute waarde van het verschil tussen de elementen van de vectoren bij elkaar op te tellen. Als de Euclidische afstand de kortste route aangeeft, markeert de afstand van Manhattan de langste route, die lijkt op de richting van een taxi die zich in een stad verplaatst. (De afstand wordt ook wel taxicab of city-blok afstand genoemd.)

Bijvoorbeeld, de Manhattan-afstand tussen punten (1, 2) en (3, 3) is abs (1-3) en abs (2-3)), wat resulteert in 3.

Chebyshev-afstand

De Chebyshev-afstand of maximale metriek neemt het maximum van het absolute verschil tussen de elementen van de vectoren. Het is een afstandsmaat die kan weergeven hoe een koning in het schaakspel beweegt of, in de logistiek van het magazijn, de bewerkingen die een bovenloopkraan vereist om een kist van de ene plaats naar de andere te verplaatsen.

In machine learning kan de Chebyshev-afstand nuttig zijn wanneer je over veel dimensies moet nadenken en de meeste ervan zijn gewoon irrelevant of overbodig (in Chebyshev kies je degene waarvan het absolute verschil het grootst is). In het hierboven gebruikte voorbeeld is de afstand eenvoudigweg 2, de max tussen (1-3) en abs (2-3).