Video: The nightmare videos of childrens' YouTube — and what's wrong with the internet today | James Bridle 2024
Een deel van Machine Learning For Dummies Cheatsheet < Machinaal leren omvat het gebruik van veel verschillende algoritmen. Deze tabel geeft u een kort overzicht van de sterke en zwakke punten van verschillende algoritmen.
Algoritme
het beste voor | pro's | nadelen | willekeurig forest |
geschikt voor vrijwel elk machine-leerprobleem | bioinformatica
kan parallel werken |
zelden overfits > Verwerkt automatisch ontbrekende waarden
Geen transformatie van variabelen Parameters hoeven niet te worden aangepast Kan door bijna iedereen met uitstekende resultaten worden gebruikt Moeilijk te interpreteren Zwakker bij regressie bij het schatten van waarden bij de uiteinden van de verdeling van responswaarden |
Versterkt in multiklasse-problemen in de richting van meer frequente klassen
Gradient Boosting Geschikt voor bijna elk machine-leerprobleem |
Zoekmachines (het probleem van leren op te lossen) > Het kan de meeste niet-lineaire functie benaderen | Beste in class-voorspeller
Automatische verwerking van ontbrekende waarden |
Geen noodzaak om een variabele te transformeren
Het kan te hoog worden als het wordt uitgevoerd voor te veel iteraties Gevoelig voor gegevens met ruis en uitbijters Werkt niet goed zonder parametrering |
Lineaire regressie
Basislijn predicaat tellingen Econometrische voorspellingen |
Modelleren van marketingreacties | Eenvoudig te begrijpen en uit te leggen
Het overschrijdt zelden Het gebruik van L1 & L2 regularisatie is effectief bij functiekeuze |
Snel om te trainen
Eenvoudig te volgen train op big data dankzij de stochastische versie Je moet hard werken om het te laten passen niet-lineaire functies Kan last hebben van uitbijters Ondersteuning van vectormachines |
Tekenherkenning
Beeldherkenning |
Tekst classificatie | Automatische niet-lineaire functiecreatie
Kan complexe niet-lineaire functies benaderen Moeilijk te interpreteren bij toepassing van niet-lineaire kernels |
Heeft te veel voorbeelden, na 10, 000 voorbeelden duurt het te lang om te trainen
K-nearest Neighbors |
Computer vision
Multilabel tagging |
Recommender-systemen | Spell checking problems
Snelle, luie training Kan op natuurlijke wijze extreme multiklasse-problemen aan (zoals taggen van tekst) Slow en omslachtig in de voorspelfase |
Kan corr ectly vanwege de vloek van de dimensionaliteit
Adaboost |
Gezichtsdetectie
verwerkt automatisch ontbrekende waarden |
Geen enkele variabele hoeft te worden | Het compenseert niet gemakkelijk | Weinig parameters om te wijzigen > Het kan veel verschillende zwakke leerlingen gebruiken
Gevoelig voor data en uitschieters met veel ruis Nooit de beste voorspellingen in zijn soort Naive Bayes Gezichtsherkenning |
Sentimentanalyse
Spamdetectie |
Tekstclassificatie | Eenvoudig en snel te implementeren, vereist niet te veel geheugen en kan worden gebruikt voor online leren
Eenvoudig te begrijpen Houdt rekening met eerdere kennis Sterke en onrealistische veronderstellingen over onafhankelijkheid van functies > Mislukt het schatten van zeldzame occurrences |
Lijdt aan irrelevante functies
Neurale netwerken Beeldherkenning |
Taalherkenning en vertaling
Spraakherkenning Visieherkenning |
Kan een niet-lineaire functie benaderen | Robuust voor uitbijters
Werkt alleen met een deel van de voorbeelden (de ondersteuningsvector s) Zeer moeilijk in te stellen Moeilijk af te stemmen vanwege te veel parameters en u moet ook de architectuur van het netwerk bepalen |
Moeilijk te interpreteren
Makkelijk te overfokken Logistische regressie < Resultaten bestellen op basis van waarschijnlijkheid |
Modelleren van marketingreacties
Eenvoudig te begrijpen en uit te leggen Het overschrijdt zelden Het gebruik van L1 & L2-regularisatie is effectief bij functiekeuze |
Het beste algoritme voor het voorspellen van kansen op een event | Snel om te trainen
Eenvoudig te trainen op big data dankzij de stochastische versie |
U moet hard werken om het te laten passen niet-lineaire functies
Kan last hebben van uitbijters SVD Recommender systemen Gegevens op een zinvolle manier kunnen herstructureren Moeilijk te begrijpen waarom gegevens op een bepaalde manier zijn geherstructureerd |
PCA
Collinariteit verwijderen |
Dimensies van gegevensset verminderen> Gegevensafmeting verminderen | duidt sterke lineaire aannames aan (componenten zijn een gewogen optelling van kenmerken) K-middelen | Segmentatie | Snel bij het vinden van clusters |
Kan uitbijters in meerdere dimensies detecteren | Lijdt aan multicollineariteit
Clusters zijn bolvormig, kunnen geen groepen met een andere vorm detecteren |
Onstabiel oplossingen, afhankelijk van initialisatie |
|