Inhoudsopgave:
- 1ste recht: bedrijfsdoelen
- 2de wet: bedrijfskennis
- 3de wet: datapreparatie
- 4e wet: rechtermodel
- 5e wet: patroon
- 6e wet: Versterking
- 7e wet: Voorspelling
- 8e wet: Waarde
- 9e wet: Wijzigen
Video: Safe and Sorry – Terrorism & Mass Surveillance 2024
Elk beroep heeft zijn leidende principes, ideeën die structuur en begeleiding bieden in het dagelijkse werk. Datamining is geen uitzondering. Hieronder volgen negen fundamentele ideeën om u te begeleiden terwijl u aan het werk gaat en een dataminer wordt. Dit zijn de 9 Wetten van Data Mining zoals ze oorspronkelijk werden verklaard door de baanbrekende data-mijnwerker, Thomas Khabaza.
1ste recht: bedrijfsdoelen
Dit is de eerste wet inzake datamining, oftewel: "Business Goals Law": Bedrijfsdoelen zijn de oorsprong van elke datamining-oplossing.
Je verkent data om informatie te vinden die je helpt om de business beter te runnen. Moet dit niet de mantra zijn van alle bedrijfsgegevensanalyses? Natuurlijk zou het moeten! Toch richten beginnende datamijnwerkers zich vaak op technologie en andere details, die misschien interessant zijn, maar niet zijn afgestemd op de behoeften en doelen van uitvoerende besluitvormers.
Voordat u iets anders gaat doen, moet u een gewoonte ontwikkelen om bedrijfsdoelstellingen te identificeren en u bij elke stap in het gegevensmijnproces op die doelen te richten. Het is veelbetekenend dat deze wet voorop staat. Iedereen moet begrijpen dat datamining een proces is met een doel.
2de wet: bedrijfskennis
Dit is de tweede wet inzake datamining, oftewel "Business Knowledge Law": Bedrijfskennis staat centraal in elke stap van het dataminingproces.
Data mining geeft de macht aan de mensen - zakenmensen - die hun zakelijke kennis, ervaring en inzicht gebruiken, samen met dataminingmethoden, om betekenis in data te vinden.
U hoeft geen chique statisticus te zijn om datamining te doen, maar u moet wel iets weten over wat de gegevens betekenen en hoe het bedrijf werkt. Alleen als u de gegevens begrijpt en het probleem dat u moet oplossen, kunnen dataminingprocessen u helpen nuttige informatie te vinden en in gebruik te nemen.
3de wet: datapreparatie
Dit is de derde wet op datamining, oftewel "Data Preparation Law": Voorbereiding van gegevens is meer dan de helft van elk dataminingproces.
Traditionele statistici hebben vaak de mogelijkheid om nieuwe gegevens te verzamelen om specifieke onderzoeksvragen aan te pakken. Ze kunnen rigoureuze processen gebruiken om experimenten te plannen, enquêtevragenlijsten te ontwerpen of anderszins hoogwaardige gegevens te verzamelen die goed zijn afgestemd op specifieke onderzoeksdoelen. Toch besteden ze nog steeds veel tijd aan het opschonen en voorbereiden van gegevens voor analyse.
Datamijnwerkers moeten daarentegen bijna altijd werken met de gegevens die beschikbaar zijn. Ze gebruiken bestaande bedrijfsrecords, openbare gegevens of de gegevens die ze kunnen kopen.De kans is groot dat al die gegevens zijn verzameld voor een ander doel dan datamining en zonder een rigoureus plan of zorgvuldig gegevensverzamelingsproces. Data mijnwerkers besteden dus veel tijd aan gegevensvoorbereiding.
4e wet: rechtermodel
Dit is de 4e wet van datamining, oftewel "NFL-DM": Het juiste model voor een bepaalde toepassing kan alleen experimenteel worden ontdekt.
Deze wet is ook bekend onder de afgekorte NFL-DM, wat betekent dat er geen gratis lunch is voor de datamining.
Ten eerste, wat is een model? Het is een vergelijking die een patroon vertegenwoordigt dat wordt waargenomen in gegevens. Tenminste, het vertegenwoordigt het patroon op een ruwe manier. Wiskundige modellen van echte dingen zijn nooit perfect! Dit is een feit van het leven, en het is net zo waar voor nucleaire fysici als voor data mijnwerkers.
In datamining worden modellen met vallen en opstaan geselecteerd. Je zult met verschillende modeltypen experimenteren.
5e wet: patroon
Dit is de 5e wet van datamining: Er zijn altijd patronen.
Als gegevenswerker kunt u gegevens verkennen op zoek naar nuttige patronen. Met andere woorden, u zult zoeken naar zinvolle relaties tussen de variabelen in de gegevens. Het begrijpen van deze relaties geeft een beter begrip van het bedrijf en betere voorspellingen van wat er in de toekomst zal gebeuren. Het belangrijkste is dat inzichtspatronen in de gegevens u in staat stellen invloed uit te oefenen op wat er in de toekomst zal gebeuren.
U vindt altijd patronen. De gegevens hebben altijd iets om u te vertellen. Soms bevestigt het dat wat je hebt gedaan goed is. Dat lijkt misschien niet zo opwindend, maar het zegt tenminste dat je op de goede weg bent geweest. Andere dagen kunnen de gegevens u vertellen dat uw huidige bedrijfspraktijken niet werken. Dat is opwindend, en hoewel het op de korte termijn misschien niet prettig is, is het kennen van de waarheid een belangrijke stap naar verbetering.
6e wet: Versterking
Dit is de zesde wet op datamining, oftewel "Insight Law": Data mining versterkt de perceptie in het zakelijke domein.
Dataminingmethoden stellen u in staat uw bedrijf beter te begrijpen dan u zonder hen had kunnen doen. Dataminingmethoden helpen u een vergrootglas of een microscoop te gebruiken, waardoor u effecten kunt ontdekken die moeilijk of onmogelijk te detecteren zijn via de gewone rapportage.
Datamining is niet onmiddellijk.
Ontdekking en leren via datamining is een interactief proces. Je maakt ontdekkingen, ontdekt er een beetje van, en gebruikt wat je hebt ontdekt om actie te ondernemen. De resultaten van elke actie die u probeert, leveren meer gegevens op en met die gegevens kunt u iets meer begrijpen. Het is een cyclus van ontdekking en de cyclus gaat door zolang je doorgaat met verkennen en experimenteren.
7e wet: Voorspelling
Dit is de 7e wet van datamining, oftewel "Voorspellingswetgeving": Voorspelling verhoogt informatie lokaal door generalisatie.
Datamining helpt u om wat u weet betere voorspellingen (of schattingen) te maken van dingen die u niet kent. Datamining maakt gebruik van gegevens- en modelleringsmethoden om uw informele verwachtingen te vervangen door gegevensgestuurde, consistente en nauwkeurigere schattingen.
8e wet: Waarde
Hier is de 8e wet van datamining, oftewel "Waardewet": De waarde van de resultaten van een datamining wordt niet bepaald door de nauwkeurigheid of stabiliteit van voorspellende modellen.
Datamijnwerkers maken zich geen zorgen over de theorie. Als dataminer weet je misschien nooit de theorie achter de statistische modellen die je gebruikt. Misschien is dat net zo goed, want in datamining, ga je die modellen gebruiken op manieren die niet noodzakelijk aansluiten bij de theorie erachter.
U zoekt naar modellen die correcte voorspellingen produceren (en u gebruikt testen in plaats van statistische theorie om dat te beoordelen). Maar u kunt zich misschien meer zorgen maken over andere zaken, zoals of het model zakelijk zinvol is, u informeren over onverwachte voorspellende factoren of dat het praktisch is om op uw werkplek te gebruiken.
9e wet: Wijzigen
Dit is de 9e wet van datamining, oftewel "Law of Change": Alle patronen zijn onderhevig aan verandering.
De wereld verandert voortdurend. Het model dat vandaag grote voorspellingen doet, kan morgen zinloos zijn. Dit is een feit van het leven voor alle data-analisten, niet alleen voor data miners.