De limieten van beoordelingsgegevens in Machine Learning - dummies

Video: Installing, configuring and running the small Chinese AT1-0750X VFD 2025

Beoordelingsgegevens hebben beperkingen in het leren van machines. Voor aanbevelingssystemen die goed werken, moeten ze over u weten evenals andere mensen, beide zoals u en verschillend van u. Het verkrijgen van beoordelingsgegevens stelt een aanbevelingssysteem in staat om te leren van de ervaringen van meerdere klanten. Beoordelingsgegevens kunnen afkomstig zijn van een beoordeling (zoals het beoordelen van een product met sterren of cijfers) of een feit (een binaire 1/0 die eenvoudigweg verklaart dat u het product hebt gekocht, een film hebt gezien of bent gestopt met browsen op een bepaalde webpagina).

Ongeacht de gegevensbron of het type, beoordelingsgegevens hebben altijd betrekking op gedrag. Als u een film wilt beoordelen, moet u beslissen deze te bekijken, bekijken en vervolgens beoordelen op basis van uw ervaring met het bekijken van de film.Actueel aanbevelingssystemen leren op verschillende manieren van beoordelingsgegevens:

Gezamenlijke filtering: Komt overeen beoordelaars op basis van film- of productovereenkomsten die in het verleden zijn gebruikt. U kunt aanbevelingen krijgen op basis van items wordt leuk gevonden door mensen die op jou lijken of op items die lijken op die je leuk vindt.
Filteren op basis van inhoud: gaat verder dan het feit dat je een film hebt bekeken. Het onderzoekt de kenmerken ten opzichte van u en de film om te bepalen of een overeenkomst bestaat op basis van de grotere categorieën die de functies vertegenwoordigen. Als u bijvoorbeeld een vrouw bent die van actiefilms houdt, zoekt de aanbeveler naar suggesties die de kruising van deze twee categorieën omvatten.
Kennisaanbevelingen: Gebaseerd op metadata, zoals door gebruikers geuite voorkeuren en productbeschrijvingen. Het is afhankelijk van machine learning en is effectief wanneer u niet over genoeg gegevens over het gedrag beschikt om de gebruikers- of productkenmerken te bepalen. Dit wordt een koude start genoemd en vertegenwoordigt een van de moeilijkste aanbevelerstaken omdat u geen toegang hebt tot filteren op basis van samenwerking of op inhoud gebaseerde filtering.

Wanneer u collaboratieve filtering gebruikt, moet u de overeenkomst berekenen. Afgezien van Euclidean, Manhattan en Chebyshev afstanden, de rest van deze informatie bespreekt cosinus gelijkenis. Cosinus-overeenkomst meet de hoek cosinusafstand tussen twee vectoren, wat een moeilijk concept lijkt om te begrijpen, maar slechts een manier is om hoeken in gegevensruimten te meten.

Stel je een ruimte voor die bestaat uit functies en twee punten heeft. Je kunt de afstand tussen de punten meten. Je kunt bijvoorbeeld de Euclidische afstand gebruiken, wat een perfecte keuze is als je weinig dimensies hebt, maar die jammerlijk faalt als je meerdere dimensies hebt vanwege de vloek van dimensionaliteit.

Het idee achter de cosinusafstand is om in plaats daarvan de hoek te gebruiken die is gecreëerd door de twee punten die zijn verbonden met de oorsprong van de ruimte (het punt waarop alle dimensies nul zijn). Als de punten dichtbij zijn, is de hoek smal, ongeacht hoeveel dimensies er zijn. Als ze ver weg zijn, is de hoek vrij groot.

Cosinus-overeenkomst implementeert de cosinusafstand als een percentage en is vrij effectief om te vertellen of een gebruiker vergelijkbaar is met een andere of dat een film aan een andere kan worden gekoppeld omdat dezelfde gebruikers daar de voorkeur aan geven. In het volgende voorbeeld worden de films gevonden die de meest gelijkende films zijn als film 50, Star Wars.

afdrukken (colnames (MovieLense [50]))

[1] "Star Wars (1977)"

similar_movies <- overeenkomsten (MovieLense [50],

MovieLense [-50],

method = "cosine",

which = "items")

colnames (similar_movies) [which (similar_movies> 0. 70)]

[1] "Toy Story (1995)" < "Empire Strikes Back, The (1980)"

[3] "Raiders of the Lost Ark (1981)"

"Return of the Jedi (1983)"