Video: The Third Industrial Revolution: A Radical New Sharing Economy 2025
Zodra u over alle tools en gegevens beschikt die nodig zijn om een voorspellend model te maken, begint het plezier. Over het algemeen zal het maken van een leermodel voor classificatietaken de volgende stappen omvatten:
-
Laad de gegevens.
-
Kies een classifier.
-
Train het model.
-
Visualiseer het model.
-
Test het model.
-
Evalueer het model.
Zowel de logistische regressie als de SVM-classificatiemodellen (Support Vector Machine) presteren redelijk goed met de Iris-gegevensset.
Sepal Length | Pagal Width | Bloemblaadlengte | Bloemblaaddikte | Target Class / Label |
---|---|---|---|---|
5. 1 | 3. 5 | 1. 4 | 0. 2 | Setosa (0) |
7. 0 | 3. 2 | 4. 7 | 1. 4 | Versicolor (1) |
6. 3 | 3. 3 | 6. 0 | 2. 5 | Virginica (2) |
Het logistische regressiemodel met parameter C = 1 was perfect in zijn voorspellingen, terwijl het SVM-model en het logistische regressiemodel met C = 150 slechts één voorspelling misten. De hoge nauwkeurigheid van beide modellen is inderdaad het gevolg van het hebben van een kleine gegevensset met datapunten die vrijwel lineair scheidbaar zijn.
Interessant is dat het logistische regressiemodel met C = 150 een beter uitziende beslissingsoppervlakgrafiek had dan die met C = 1, maar het presteerde niet beter. Dat is niet zo'n grote deal, aangezien de testset zo klein is. Als een andere willekeurige splitsing tussen trainingsset en testset was geselecteerd, hadden de resultaten gemakkelijk anders kunnen zijn.
Dit onthult een andere bron van complexiteit die opduikt in modelevaluatie: het effect van sampling, en hoe het kiezen van de trainings- en testsets de output van het model kan beïnvloeden. Cross-Validation-technieken kunnen de impact van willekeurige steekproeven op de prestaties van het model helpen minimaliseren.
Voor een grotere gegevensset met niet-lineair te scheiden gegevens, zou u verwachten dat de resultaten nog meer afwijken. Bovendien wordt het kiezen van het juiste model steeds moeilijker vanwege de complexiteit en de omvang van de gegevens. Wees bereid om veel tijd te besteden aan het afstemmen van uw parameters om een ideale pasvorm te krijgen.
Probeer bij het maken van voorspellende modellen een paar algoritmen en pas hun parameters volledig aan totdat u vindt wat het beste werkt voor uw gegevens. Vergelijk dan hun outputs met elkaar.