Data Mining - dummies - Persoonlijke financiën 2025

Het onderscheidende kenmerk van datamining, in vergelijking met bevraging, rapportage of zelfs OLAP, is dat u informatie kunt krijgen zonder dat u specifieke vragen hoeft te stellen.

Datamining heeft twee hoofdrollen in uw Business Intelligence-missie:

De rol "Vertel mij wat er kan gebeuren": De eerste rol van datamining is voorspellend, waarin u in feite zegt: "Vertel me wat zou kunnen gebeuren. "Door verborgen kennis in uw datawarehouse op te slaan, worden waarschijnlijkheden en de waarschijnlijkheid van toekomstige trends en voorvallen uitgefloten en aan u gepresenteerd.
De rol "Vertel mij iets interessants": Naast mogelijke toekomstige gebeurtenissen en gebeurtenissen, probeert data mining ook interessante informatie op te halen waarvan je waarschijnlijk zou moeten weten, zoals een bijzonder ongebruikelijke relatie tussen de verkoop van twee verschillende producten en hoe die relatie varieert afhankelijk van de plaatsing in uw winkels.

Hoewel veel van deze interessante weetjes waarschijnlijk bestaan, welke vragen zou u stellen als u een query of OLAP-tool zou gebruiken en hoe zou u de resultaten interpreteren? Datamining helpt je bij deze moeilijke taak om uit te zoeken welke vragen je moet stellen door veel van het gruntwerk voor je te doen.

Datamining in specifieke zakelijke missies

Datamining is met name geschikt voor deze specifieke soorten zakelijke missies:

Detecting fraud
Bepaling marketingprogramma-effectiviteit
Selecteren van wie, van een groot klantenbestand of de algemene bevolking, moet u zich richten als onderdeel van een marketingprogramma
De levenscyclus van klanten beheren, inclusief de missie voor klantenbehoud
Geavanceerde modellering van bedrijfsprocessen en what-if-scenario's uitvoeren

Denk na over wat zich achter elk van de zakelijke missies in de voorgaande lijst bevindt:

Een grote hoeveelheid gegevens
Een nog groter aantal aantal combinaties van verschillende stukjes gegevens
Intensieve analyse van resultaten, meestal met complexe algoritmen en geavanceerde statistische technieken

Denk nu na over wat u zou moeten doen als u een rapportage- of OLAP-tool zou gebruiken om deze missies te volbrengen. Je zou het vrijwel onmogelijk vinden om een van de voorgaande missies grondig uit te voeren als je een vraag moest stellen en een resultaat moest krijgen, een andere vraag moest stellen en een ander resultaat moest krijgen, en dan die stappen blijven herhalen.

Datamining en kunstmatige intelligentie

Als u al minstens een decennium werkzaam bent in de informatietechnologie (IT), klinken sommige van de voorgaande termen misschien vaag bekend.Ontgrendelde verborgen kennis? Voorspellende functionaliteit? Wacht even - dat is kunstmatige intelligentie!

Vanaf de vroegste dagen van commerciële computeractiviteiten was er een enorme interesse in het ontwikkelen van "denkapparaten" die grote hoeveelheden gegevens kunnen verwerken en beslissingen kunnen nemen op basis van die analyse.

De belangstelling voor kunstmatige intelligentie (AI) bereikte halverwege de jaren tachtig zijn hoogtepunt. Op dat moment werkten databaseleveranciers aan het produceren van knowledge base management-systemen (KBMS's); andere leveranciers kwamen uit met expertsysteem shells, of op KI gebaseerde frameworks voor applicatieontwikkeling die technieken zoals forward-chaining en back-chain-chaining gebruikten om gebruikers te adviseren over beslissingen; en neurale netwerken werden gepositioneerd als de volgende grote AI-ontwikkeling.

De belangstelling voor AI nam af in het begin van de jaren negentig, toen de verwachtingen groter waren dan de beschikbare mogelijkheden en andere waanzin, zoals migratie van client / server en (natuurlijk) datawarehousing, centraal stond.

Nu is AI terug!

De AI-techniek met het grootste profiel die wordt gebruikt in datamining, is neurale netwerken. Neurale netwerken werden oorspronkelijk beschouwd als een verwerkingsmodel dat de manier zou nabootsen waarop het menselijk brein problemen oplost, met behulp van neuronen en zeer parallelle verwerking om patroonoplossingen te doen.

Het toepassen van neuraal netwerkalgoritmen op de gebieden van business intelligence die door data mining worden afgehandeld (opnieuw, voorspellend en "vertel me iets interessants" missies) lijkt een natuurlijke match te zijn.

Hoewel het data mining / neurale netwerkspel zeker de moeite waard is om te controleren, moet je het voorzichtig doen. Je kunt veel interessante en opwindende technologieën vinden die, in de handen van degenen die de algoritmen niet begrijpen, waarschijnlijk zullen mislukken.

Met de juiste kennis en opleiding kunt u zich er echter volledig voor inzetten om dit type verwerking in uw business intelligence-kader op te nemen als de technische analyse voor de OLAP-gerichte bedrijfsanalyse.

Datamining en statistieken

Het meer ontwikkelde gebied van datamining is de toepassing van geavanceerde statistische technieken tegen de grote hoeveelheden gegevens in uw datawarehouse. Verschillende tools gebruiken verschillende soorten statistische technieken, toegesneden op de specifieke gebieden die ze proberen aan te pakken.

Zonder een statistische achtergrond zou je veel van datamining verwarrend kunnen vinden. U moet veel werk verzetten om de algoritmen te trainen en regels te maken om te zorgen voor de juiste resultaten met grotere datasets. Stel dat u zich op uw gemak voelt met dit concept, of een collega hebt die u hierbij kan helpen, zijn hier enkele van de algemenere algoritmen:

Classificatiealgoritmen: Voorspellen van een of meer discrete variabelen, gebaseerd op de andere attributen in de dataset. Door middel van classificatiealgoritmen kan de dataminingtool grote hoeveelheden gegevens bekijken en u vervolgens laten weten dat bijvoorbeeld: "Klanten die minstens twee generaties productaankopen hebben behouden, hebben de volgende kenmerken: ze hebben een inkomen van minimaal $ 75.000, en ze hebben hun eigen huis."
Regressie-algoritmen: Voorspel een of meer continue variabelen, zoals winst of verlies, op basis van andere kenmerken in de gegevensset. Regressiealgoritmen worden aangestuurd door historische informatie die in de loop van de tijd aan het datamining-instrument wordt gepresenteerd, beter bekend als tijdreeks -informatie.
Segmentatie-algoritmen: deel gegevens in groepen of clusters van items met vergelijkbare eigenschappen.
Associatie-algoritmen: Vind correlaties tussen verschillende attributen in een dataset. De meest voorkomende toepassing van dit soort algoritmen maakt associatiefregels die u kunt gebruiken in een marktmandanalyse. Let op: als een klant bijvoorbeeld een bepaald softwarepakket koopt, heeft hij of zij een kans van 65 procent om binnen twee weken ten minste twee productspecifieke add-on packs te kopen.
Sequentieanalysealgoritmen: Vat frequente reeksen of episoden in gegevens samen, zoals een webpadstroom.