Inhoudsopgave:
- De typen analyses identificeren
- Identificatie van veelvoorkomende uitdagingen in Analytics
- Wrangelen van onbewerkte gegevens tot bruikbare inzichten
Video: Christian Yelich: Defying analytics en route to an MVP season 2024
Uw onbewerkte gegevens omzetten in bruikbare informatie is de eerste stap in de voortgang van de gegevens die u heeft verzameld tot iets dat je echt ten goede komt. Bedrijfskundige gegevenswetenschappers gebruiken gegevensanalyse om inzichten uit onbewerkte gegevens te genereren.
De typen analyses identificeren
Hieronder worden, in volgorde van toenemende complexiteit, de vier typen gegevensanalyse weergegeven die u waarschijnlijk zult tegenkomen:
-
Beschrijvende analyse: Dit type analyse geeft antwoord op de vraag: "Wat is er gebeurd? "Beschrijvende analyses zijn gebaseerd op historische en actuele gegevens. Een bedrijfsanalist of een bedrijfsgerichte gegevenswetenschapper baseert moderne bedrijfsinformatie op beschrijvende analyses.
-
Diagnostische analyse: u gebruikt dit type analyse om antwoorden op de vraag te vinden: 'Waarom gebeurde er iets dergelijks? "Of" wat ging er mis? "Diagnostische analyses zijn handig voor het afleiden en afleiden van het succes of falen van subcomponenten van elk op gegevens gebaseerd initiatief.
-
Predictive analytics: Hoewel dit type analyse is gebaseerd op historische en huidige gegevens, gaan voorspellende analyses een stap verder dan beschrijvende analyses. Voorspellende analyses omvatten complexe modelopbouw en analyse om een toekomstige gebeurtenis of trend te voorspellen. In een zakelijke context zouden deze analyses worden uitgevoerd door de bedrijfsgerichte gegevenswetenschapper.
-
Prescriptieve analyse: Dit type analyse is bedoeld om processen, structuren en systemen te optimaliseren door middel van geïnformeerde actie die is gebaseerd op voorspellende analyses - in essentie vertelt u wat u moet doen op basis van een gefundeerde schatting van wat er zal gebeuren. Zowel bedrijfsanalisten als bedrijfsgerichte gegevenswetenschappers kunnen prescriptieve analyses genereren, maar hun methoden en gegevensbronnen verschillen.
Idealiter zou een bedrijf zich moeten bezighouden met alle vier soorten gegevensanalyses, maar prescriptieve analyse is het meest directe en effectieve middel om waarde te genereren uit gegevensinzichten.
Identificatie van veelvoorkomende uitdagingen in Analytics
Analytics vormt in het algemeen een onderneming met minstens twee uitdagingen. Ten eerste hebben organisaties het vaak erg moeilijk om nieuwe medewerkers te vinden met specifieke vaardigheden die analytics bevatten. Ten tweede hebben zelfs ervaren analisten vaak moeite om complexe inzichten te communiceren op een manier die begrijpelijk is voor managementbeslissers.
Om deze uitdagingen te overwinnen, moet de organisatie een cultuur maken en onderhouden die analytische producten waardeert en accepteert. Het bedrijf moet werken om alle niveaus van de organisatie te onderwijzen, zodat het management een basisconcept voor analyse heeft en het succes dat kan worden behaald door deze te implementeren.
Omgekeerd moeten bedrijfsgerichte gegevenswetenschappers over een zeer solide kennis van zaken in het algemeen en in het bijzonder een goed begrip van het bedrijf beschikken. Een sterke bedrijfskennis is een van de drie belangrijkste vereisten van elke bedrijfsgerichte gegevenswetenschapper - de andere twee zijn een sterk codeerkennis en sterke kwantitatieve analysevaardigheden via wiskunde en statistische modellering.
Wrangelen van onbewerkte gegevens tot bruikbare inzichten
Gegevensstrijd is een ander belangrijk deel van het werk dat nodig is om gegevens om te zetten in inzichten. Als u analyses van onbewerkte gegevens wilt maken, moet u bijna altijd gegevensruzie gebruiken - de processen en procedures die u gebruikt om gegevens van het ene formaat en structuur naar het andere formaat te wissen en te converteren, zodat de gegevens nauwkeurig zijn en in de formaatanalysehulpmiddelen en -scripts die nodig zijn voor consumptie.
De volgende lijst belicht een paar van de praktijken en problemen die het meest relevant zijn voor data-ruzie:
-
Data-extractie: De business-centrische data scientist moet eerst vaststellen welke datasets relevant zijn voor het probleem en vervolgens voldoende hoeveelheden gegevens extraheren die nodig zijn om het probleem op te lossen. (Dit extractieproces wordt gewoonlijk data mining genoemd.)
-
Gegevens mungen: Gegevens mungen bestaat uit het opschonen van de ruwe gegevens die via data mining zijn geëxtraheerd en vervolgens worden geconverteerd naar een indeling die zorgt voor een gemakkelijker gebruik van de gegevens. (Mung begon het leven als een destructief proces, waarbij je iets herkenbaars omzet in iets dat onherkenbaar was, dus de uitdrukking Mash Until No Good of MUNG.)
-
Gegevensbeheer: Data governance-standaarden zijn standaarden die worden gebruikt als kwaliteitscontrolemaatregel om ervoor te zorgen dat handmatige en geautomatiseerde gegevensbronnen voldoen aan de datastandaarden van het betreffende model. Normen voor gegevensbeheer moeten worden toegepast, zodat de gegevens in de juiste korreligheid zijn wanneer deze worden opgeslagen en klaargemaakt voor gebruik.
Granulariteit is een maat voor het detailniveau van een dataset. De granulariteit van gegevens wordt bepaald door de relatieve grootte van de subgroepen waarin de gegevens worden verdeeld.
-
Gegevensarchitectuur: IT-architectuur staat centraal. Als uw gegevens worden geïsoleerd in afzonderlijke, vaste opslagplaatsen - die beruchte gegevenssilo's waar iedereen over klaagt - dan is deze alleen beschikbaar voor een paar mensen binnen een bepaalde branche. In elkaar geschoven gegevensstructuren resulteren in scenario's waarbij een meerderheid van de gegevens van een organisatie eenvoudigweg niet beschikbaar is voor gebruik door de organisatie in het algemeen. (Het is onnodig om te zeggen dat siloconstructuren ongelooflijk verspillend en inefficiënt zijn.)
Als het uw doel is om de meeste waarde en inzicht te verkrijgen uit de bedrijfsgegevens van uw organisatie, moet u ervoor zorgen dat de gegevens worden opgeslagen in een centraal datawarehouse en niet in afzonderlijke silo's.