Huis Persoonlijke financiën Meten van similariteit tussen vectoren voor machine-learning - dummies

Meten van similariteit tussen vectoren voor machine-learning - dummies

Inhoudsopgave:

Video: Calculus III: Two Dimensional Vectors (Level 2 of 13) | Standard Position, Component Form 2024

Video: Calculus III: Two Dimensional Vectors (Level 2 of 13) | Standard Position, Component Form 2024
Anonim

U kunt voorbeelden uit uw gegevens eenvoudig vergelijken aan de hand van berekeningen als u ze allemaal als een vector beschouwt. De volgende informatie beschrijft hoe de overeenkomst tussen vectoren kan worden gemeten om taken uit te voeren zoals het berekenen van de afstand tussen vectoren voor leerdoeleinden.

Overeenkomstigheid

In een vectorvorm kunt u elke variabele in uw voorbeelden zien als een reeks coördinaten, waarbij elke variabele naar een positie in een andere ruimtedimensie wijst. Als een vector twee elementen heeft, dat wil zeggen dat deze slechts twee variabelen heeft, is het werken met het hetzelfde als het controleren van de positie van een item op een kaart door het eerste nummer te gebruiken voor de positie op de oost-west as en de tweede op de noordpool. Zuidas.

Voorbeelden van waarden die zijn uitgezet als punten op een grafiek.

De getallen tussen haakjes (1, 2) (3, 2) en (3, 3) zijn bijvoorbeeld allemaal voorbeelden van punten. Elk voorbeeld is een geordende lijst met waarden (een tuple genoemd) die gemakkelijk op een kaart kan worden gevonden en afgedrukt met behulp van de eerste waarde van de lijst voor x (de horizontale as) en de tweede voor y (de verticale as). Het resultaat is een scatterplot.

Als uw gegevensset in matrixvorm veel numerieke functies heeft (de kolommen), vertegenwoordigt idealiter het aantal functies de afmetingen van de gegevensruimte, terwijl de rijen (de voorbeelden) elk de afmetingen vertegenwoordigen punt, dat wiskundig een vector is. Wanneer je vector meer dan twee elementen heeft, wordt visualisatie lastig omdat het vertegenwoordigen van dimensies boven de derde niet gemakkelijk is (we leven tenslotte in een driedimensionale wereld).

U kunt er echter naar streven om meer dimensies over te brengen op een of andere manier, bijvoorbeeld door grootte, vorm of kleur te gebruiken voor andere dimensies. Het is duidelijk dat dit geen gemakkelijke taak is en vaak is het resultaat verre van intuïtief. U kunt echter het idee van de punten in uw gegevensruimte begrijpen door systematisch veel grafieken af ​​te drukken terwijl u de dimensies twee aan twee beschouwt. Dergelijke grafieken worden matrices van spreidingsplots genoemd.

Maak je geen zorgen over multidimensionaliteit. U verlengt de regels die u in twee of drie dimensies hebt geleerd, naar meerdere dimensies, dus als een regel in een tweedimensionale ruimte werkt, werkt deze ook op meerdere. Daarom verwijzen alle voorbeelden eerst naar tweedimensionale voorbeelden.

Berekeningsafstanden voor leren

Een algoritme kan leren door vectoren van getallen te gebruiken die afstandsmetingen gebruiken. Vaak is de ruimte die door uw vectoren wordt geïmpliceerd een metrische die een ruimte is waarvan de afstanden bepaalde specifieke voorwaarden respecteren:

  • Er zijn geen negatieve afstanden en uw afstand is alleen nul wanneer het beginpunt en het eindpunt samenvallen (niet-atoomactiviteit genoemd).
  • De afstand is hetzelfde van het ene naar het andere punt en omgekeerd (symmetrie genoemd).
  • De afstand tussen een beginpunt en een laatste punt is altijd groter dan of slechter gelijk aan de afstand van het eerste naar een derde punt en van daar naar het laatste punt (driehoeksongelijkheid < - wat betekent dat er geen snelkoppelingen zijn). Afstanden die een metrische ruimte meten, zijn de Euclidische afstand, de afstand van Manhattan en de afstand Chebyshev. Dit zijn alle afstanden die kunnen gelden voor numerieke vectoren.

Euclidische afstand

De meest voorkomende is de Euclidische afstand, ook beschreven als de l2-norm van twee vectoren (lees deze bespreking van l1, l2 en linfinity-normen). In een tweedimensionaal vlak wordt de Euclidische afstand opnieuw weergegeven als de rechte lijn die twee punten met elkaar verbindt en bereken je deze als de vierkantswortel van de som van het kwadratische verschil tussen de elementen van twee vectoren. In de vorige plot kan de Euclidische afstand tussen punten (1, 2) en (3, 3) worden berekend in R als sqrt ((1-3) ^ 2 + (2-3) ^ 2), wat resulteert in een afstand van ongeveer 2. 236.

Manhattan-afstand

Een andere bruikbare maat is de Manhattan-afstand (ook beschreven als de l1-norm van twee vectoren). Je berekent de Manhattan-afstand door de absolute waarde van het verschil tussen de elementen van de vectoren bij elkaar op te tellen. Als de Euclidische afstand de kortste route aangeeft, markeert de afstand van Manhattan de langste route, die lijkt op de richting van een taxi die zich in een stad verplaatst. (De afstand wordt ook wel taxicab of city-blok afstand genoemd.)

Bijvoorbeeld, de Manhattan-afstand tussen punten (1, 2) en (3, 3) is abs (1-3) en abs (2-3)), wat resulteert in 3.

Chebyshev-afstand

De Chebyshev-afstand of maximale metriek neemt het maximum van het absolute verschil tussen de elementen van de vectoren. Het is een afstandsmaat die kan weergeven hoe een koning in het schaakspel beweegt of, in de logistiek van het magazijn, de bewerkingen die een bovenloopkraan vereist om een ​​kist van de ene plaats naar de andere te verplaatsen.

In machine learning kan de Chebyshev-afstand nuttig zijn wanneer je over veel dimensies moet nadenken en de meeste ervan zijn gewoon irrelevant of overbodig (in Chebyshev kies je degene waarvan het absolute verschil het grootst is). In het hierboven gebruikte voorbeeld is de afstand eenvoudigweg 2, de max tussen (1-3) en abs (2-3).

Meten van similariteit tussen vectoren voor machine-learning - dummies

Bewerkers keuze

Hoe u Flash-video maakt en codeert - dummies

Hoe u Flash-video maakt en codeert - dummies

Als de pagina's die u maakt, zijn gewonnen ' t kan worden bekeken op mobiele apparaten (zoals een iPad of een smartphone), kunt u webpagina's maken met prachtige Flash-video. Adobe Flash Professional CS6 heeft een eigen ingebouwde video-encoder. Full-motionvideo in Flash is iets heel moois. U past de video aan voor het bekijken door de doelgroep ...

Hoe een aanpasbare interface te maken in CSS3 - dummies

Hoe een aanpasbare interface te maken in CSS3 - dummies

De grote variëteit en soorten schermen gebruikt om informatie weer te geven, maakt het nodig dat uw CSS3-commando's de gebruiker toestaan ​​om het formaat van de elementen naar wens aan te passen. In de meeste gevallen kunt u de gebruiker eenvoudig toestaan ​​om het element op elke gewenste grootte te maken. Er kunnen zich echter situaties voordoen waarin u de grootte van de grootte moet controleren ...

Hoe u een eenvoudige tabel op uw webpagina maakt - dummies

Hoe u een eenvoudige tabel op uw webpagina maakt - dummies

Tabellen laten u organiseer informatie op uw webpagina en geef het een georganiseerde uitstraling die uw bezoekers nuttig zullen vinden. Bij gebruik zoals bedoeld, hebben tabellen rijen en kolommen. Voor elke spot waar een rij en kolom elkaar kruisen, hebt u een tabelcel. Elke cel kan zijn eigen opmaak hebben: de gegevens erin ...

Bewerkers keuze

Hoe Postproduction Shareninging Filters werken - dummies

Hoe Postproduction Shareninging Filters werken - dummies

Verscherpingsfilters werken in postproductie door de randen (of aangrenzende gebieden met tonaal contrast) te benadrukken aan elkaar) in een afbeelding. Ze creëren een fijne highlight aan de donkere kant van de rand en een piepklein lowlight aan de lichtere kant van de rand. Dit toegevoegde contrast zorgt ervoor dat de randen er scherper uitzien vanaf een ...

HDR Work-Flow voor foto's met één belichting - dummies

HDR Work-Flow voor foto's met één belichting - dummies

In grote lijnen, enkele belichting hoog dynamisch bereik volgt dezelfde workflow als HDR-fotografie tussen haakjes. Er kunnen kleine verschillen zijn, dus hier is een overzicht van de werkstroom: configureer uw camera voor single-shot HDR. Het enige dat u zoekt, is de beste foto die u kunt maken. Besteed aandacht aan de lichtomstandigheden, het onderwerp, beweging en ...

Geavanceerde compacte en superzoomcamera's voor HDR-fotografie - dummies

Geavanceerde compacte en superzoomcamera's voor HDR-fotografie - dummies

Stap omhoog van compacte digitale camera's binnen het budgetbereik, vindt u duurdere compacte digitale camera's voor HDR-fotografie, ook wel high-end compacts, superzoomlenzen en dSLR-look-alikes genoemd. Er zijn zoveel vaak overlappende categorieën dat het je hoofd laat draaien. De twee dingen die deze reeks camera's gemeen hebben, zijn hun ...

Bewerkers keuze

In te schakelen Class Tracking in QuickBooks 2013 - dummies

In te schakelen Class Tracking in QuickBooks 2013 - dummies

Om activity-based costing te gebruiken (ABC ) in QuickBooks 2013 moet u de QuickBooks Class Tracking-functie inschakelen. Met Class Tracking kunt u inkomsten- en onkostentransacties categoriseren als niet alleen vallen in inkomsten- en uitgavenrekeningen, maar ook als vallen in bepaalde klassen. Volg deze stappen om Class Tracking in QuickBooks in te schakelen: Kies Bewerken → Voorkeuren ...

Gebruikt om een ​​exemplaar van een QuickBooks-gegevensbestand te gebruiken - dummies

Gebruikt om een ​​exemplaar van een QuickBooks-gegevensbestand te gebruiken - dummies

Ongeacht of de client verzendt handmatig een accountantskopie van een QuickBooks-gegevensbestand, e-mails een accountantsexemplaar, of verzendt een accountantskopie via de Intuit-bestandsoverdrachtservice, u gebruikt de kopie van de accountant door Bestand → Verzend bedrijfsdossier → Accountantskopie → Open & converteer overzetten te kiezen Bestand commando. Wanneer u deze opdracht kiest, geeft QuickBooks een ...

Hoe Audit Trails te gebruiken in QuickBooks - dummies

Hoe Audit Trails te gebruiken in QuickBooks - dummies

Als u besluit om meerdere gebruikers toegang te geven tot de QuickBooks-gegevens bestand, zult u de QuickBooks Audit Trail-functie waarderen, die bijhoudt wie welke wijzigingen aan het QuickBooks-gegevensbestand aanbrengt. U kunt transacties niet verwijderen uit de lijst of geschiedenis van de audittrail, behalve door gegevens te archiveren en te condenseren. Audit trail inschakelen ...