Video: Multiple Regression - Dummy variables and interactions - example in Excel 2024
Door Judith Hurwitz, Alan Nugent, Fern Halper, Marcia Kaufman
Bedrijven moeten een praktische manier vinden om met big data om te gaan concurrerend te blijven - om nieuwe manieren te leren om groeiende hoeveelheden vast te leggen en te analyseren van informatie over klanten, producten en diensten. Gegevens worden steeds complexer op gestructureerde en ongestructureerde manieren. Nieuwe gegevensbronnen zijn afkomstig van machines, zoals sensoren; sociale bedrijfssites; en website-interactie, zoals klikstreamgegevens. Om aan deze veranderende zakelijke vereisten te voldoen, moet de juiste informatie op het juiste moment beschikbaar zijn.
Big data definiëren: volume, snelheid en variëteit
Met big data kunnen organisaties grote hoeveelheden ongelijksoortige gegevens op de juiste snelheid en op het juiste moment opslaan, beheren en manipuleren. Om de juiste inzichten te verkrijgen, worden big data meestal opgesplitst in drie karakteristieken:
-
Volume: Hoeveel gegevens
-
Snelheid: Hoe snel gegevens worden verwerkt
-
Variëteit: De verschillende soorten gegevens
Hoewel het handig is om big data in de drie V's te vereenvoudigen, kan het misleidend en overdreven simplistisch zijn. U beheert bijvoorbeeld een relatief kleine hoeveelheid zeer uiteenlopende, complexe gegevens, of u verwerkt mogelijk een enorme hoeveelheid zeer eenvoudige gegevens. Die eenvoudige gegevens kunnen allemaal gestructureerd of ongestructureerd zijn.
Nog belangrijker is de vierde V, waarachtigheid. Hoe nauwkeurig zijn die gegevens bij het voorspellen van bedrijfswaarde? Hebben de resultaten van een big data-analyse eigenlijk zin? Gegevens moeten kunnen worden geverifieerd op basis van zowel nauwkeurigheid als context. Een innovatief bedrijf wil mogelijk enorme hoeveelheden gegevens in realtime kunnen analyseren om snel de waarde van die klant en het potentieel om extra aanbiedingen aan die klant te bieden, te beoordelen. Het is noodzakelijk om de juiste hoeveelheid en typen gegevens te identificeren die in realtime kunnen worden geanalyseerd om de bedrijfsresultaten te beïnvloeden.
Big data bevat alle soorten gegevens, waaronder gestructureerde gegevens en ongestructureerde gegevens van e-mails, sociale media, tekststromen, enzovoort. Dit soort gegevensbeheer vereist dat bedrijven gebruikmaken van zowel hun gestructureerde als ongestructureerde gegevens.
Unstructured Data begrijpen
Unstructured data is anders dan gestructureerde data omdat de structuur ervan onvoorspelbaar is. Voorbeelden van ongestructureerde gegevens zijn documenten, e-mails, blogs, digitale afbeeldingen, video's en satellietbeelden. Het bevat ook enkele gegevens die zijn gegenereerd door machines of sensoren. In feite zijn ongestructureerde gegevens verantwoordelijk voor het merendeel van de gegevens die zich op het bedrijfsterrein van uw bedrijf bevinden, evenals extern van uw bedrijf in online privé- en openbare bronnen zoals Twitter en Facebook.
In het verleden konden de meeste bedrijven deze enorme hoeveelheid gegevens niet vastleggen of opslaan. Het was gewoon te duur of te overweldigend. Zelfs als bedrijven de gegevens konden vastleggen, beschikten ze niet over de tools om de gegevens eenvoudig te analyseren en de resultaten te gebruiken om beslissingen te nemen. Zeer weinig tools kunnen deze enorme hoeveelheden gegevens bevatten. De gereedschappen die bestonden waren complex in gebruik en leverden geen resultaten op binnen een redelijk tijdsbestek.
Uiteindelijk werden degenen die echt de enorme inspanning wilden doen om deze gegevens te analyseren gedwongen om met snapshots van gegevens te werken. Dit heeft het ongewenste effect dat belangrijke gebeurtenissen ontbreken omdat ze zich niet in een bepaalde momentopname bevonden.
Eén benadering die steeds meer wordt gewaardeerd als een manier om bedrijfswaarde uit ongestructureerde gegevens te halen, is tekstanalyse, het analyseren van ongestructureerde tekst, het extraheren van relevante informatie en het omzetten in gestructureerde informatie die vervolgens kan worden op verschillende manieren worden benut. De analyse- en extractieprocessen profiteren van technieken die hun oorsprong vinden in computationele taalkunde, statistiek en andere informatica-disciplines.
De rol van traditionele operationele gegevens in de Big Data-omgeving
Weten welke gegevens worden opgeslagen en waar deze worden opgeslagen, zijn essentiële bouwstenen in uw implementatie van big data. Het is onwaarschijnlijk dat u RDBMS's zult gebruiken voor de kern van de implementatie, maar het is zeer waarschijnlijk dat u moet vertrouwen op de gegevens die zijn opgeslagen in RDBMS's om het hoogste niveau van waarde voor het bedrijf met big data te creëren.
De meeste grote en kleine bedrijven slaan waarschijnlijk de meeste van hun belangrijke operationele informatie op in relationele databasebeheersystemen (RDBMS's), die zijn gebouwd op een of meer relaties en worden weergegeven met tabellen. Deze tabellen worden bepaald door de manier waarop de gegevens worden opgeslagen. De gegevens worden opgeslagen in databaseobjecten, tabellen genaamd - geordend in rijen en kolommen. RDBMS's volgen een consistente aanpak in de manier waarop gegevens worden opgeslagen en opgehaald.
Om de meeste bedrijfswaarde te halen uit uw realtime analyse van ongestructureerde gegevens, moet u die gegevens begrijpen in samenhang met uw historische gegevens over klanten, producten, transacties en bewerkingen. Met andere woorden, u moet uw ongestructureerde gegevens integreren met uw traditionele operationele gegevens.
Basisbeginselen van Big Data Infrastructure
Big data draait alles om hoge snelheid, grote volumes en een grote verscheidenheid aan gegevens, dus de fysieke infrastructuur zal de implementatie letterlijk "maken of breken". De meeste big data-implementaties moeten goed beschikbaar zijn, dus de netwerken, servers en fysieke opslag moeten veerkrachtig en overbodig zijn.
Veerkracht en redundantie hangen met elkaar samen. Een infrastructuur, of een systeem, is bestand tegen storingen of verandert wanneer voldoende overtollige middelen aanwezig zijn om in actie te komen. Veerkracht helpt bij het elimineren van enkele faalpunten in uw infrastructuur. Als er bijvoorbeeld slechts één netwerkverbinding bestaat tussen uw bedrijf en internet, hebt u geen netwerkredundantie en is de infrastructuur niet bestand tegen een netwerkuitval.
In grote datacenters met bedrijfscontinuïteitsvereisten is de meeste redundantie aanwezig en kan deze worden gebruikt om een big data-omgeving te creëren. Bij nieuwe implementaties hebben de ontwerpers de verantwoordelijkheid om de implementatie in kaart te brengen naar de behoeften van het bedrijf op basis van kosten en prestaties.
Big data beheren met Hadoop: HDFS en MapReduce
Hadoop, een open source softwareframework, gebruikt HDFS (het Hadoop Distributed File System) en MapReduce om big data te analyseren op clusters van commodity-hardware, dat wil zeggen in een gedistribueerde computeromgeving.
Het Hadoop Distributed File System (HDFS) is ontwikkeld om bedrijven toe te staan grotere hoeveelheden gegevens eenvoudig en pragmatisch te beheren. Hadoop maakt het mogelijk grote problemen op te splitsen in kleinere elementen, zodat analyse snel en kosteneffectief kan worden uitgevoerd. HDFS is een veelzijdige, veerkrachtige, geclusterde benadering voor het beheren van bestanden in een big data-omgeving.
HDFS is niet de eindbestemming voor bestanden. Het is eerder een data-service die een unieke reeks mogelijkheden biedt die nodig zijn wanneer datavolumes en -snelheid hoog zijn.
MapReduce is een softwarematig raamwerk waarmee ontwikkelaars programma's kunnen schrijven die enorme hoeveelheden ongestructureerde gegevens parallel kunnen verwerken in een gedistribueerde groep processors. MapReduce is door Google ontworpen als een manier om efficiënt een reeks functies tegen een grote hoeveelheid gegevens in batch-modus uit te voeren.
Het onderdeel "kaart" distribueert het programmeringsprobleem of de taken over een groot aantal systemen en behandelt de plaatsing van de taken op een manier die de belasting in evenwicht brengt en herstel van fouten beheert. Nadat de verdeelde berekening is voltooid, aggregeert een andere functie met de naam "verkleinen" alle elementen weer samen om een resultaat te bieden. Een voorbeeld van MapReduce gebruik zou zijn om te bepalen hoeveel pagina's van een boek zijn geschreven in elk van de 50 verschillende talen.
Het fundament leggen voor uw Big Data-strategie
Bedrijven zwemmen in big data. Het probleem is dat ze vaak niet weten hoe ze die gegevens pragmatisch moeten gebruiken om de toekomst te kunnen voorspellen, belangrijke bedrijfsprocessen kunnen uitvoeren of eenvoudig nieuwe inzichten kunnen opdoen. Het doel van uw big data-strategie en -plan moet zijn om een pragmatische manier te vinden om gegevens te gebruiken voor voorspelbaarder bedrijfsresultaten.
Begin uw big data-strategie door een ontdekkingsproces aan te vatten. U moet grip krijgen op welke gegevens u al heeft, waar deze is, wie de eigenaar en beheerder is van de gegevens en hoe deze momenteel wordt gebruikt. Wat zijn bijvoorbeeld de externe gegevensbronnen waarop uw bedrijf vertrouwt? Dit proces kan u veel inzichten opleveren:
-
U kunt bepalen hoeveel gegevensbronnen u hebt en hoeveel overlapping er bestaat.
-
U kunt hiaten identificeren in kennis over die gegevensbronnen.
-
U kunt ontdekken dat u veel dubbele gegevens in een bepaald gebied van het bedrijf hebt en bijna geen gegevens in een ander gebied.
-
U kunt zich ervan vergewissen dat u afhankelijk bent van gegevens van derden die niet zo nauwkeurig zijn als zou moeten.
Besteed de tijd die u nodig hebt om dit ontdekkingsproces te doen, want dit zal de basis vormen voor uw planning en uitvoering van uw big data-strategie.