Huis Persoonlijke financiën Big Data voor Dummy's Cheat Sheet - dummies

Big Data voor Dummy's Cheat Sheet - dummies

Video: Multiple Regression - Dummy variables and interactions - example in Excel 2024

Video: Multiple Regression - Dummy variables and interactions - example in Excel 2024
Anonim

Door Judith Hurwitz, Alan Nugent, Fern Halper, Marcia Kaufman

Bedrijven moeten een praktische manier vinden om met big data om te gaan concurrerend te blijven - om nieuwe manieren te leren om groeiende hoeveelheden vast te leggen en te analyseren van informatie over klanten, producten en diensten. Gegevens worden steeds complexer op gestructureerde en ongestructureerde manieren. Nieuwe gegevensbronnen zijn afkomstig van machines, zoals sensoren; sociale bedrijfssites; en website-interactie, zoals klikstreamgegevens. Om aan deze veranderende zakelijke vereisten te voldoen, moet de juiste informatie op het juiste moment beschikbaar zijn.

Big data definiëren: volume, snelheid en variëteit

Met big data kunnen organisaties grote hoeveelheden ongelijksoortige gegevens op de juiste snelheid en op het juiste moment opslaan, beheren en manipuleren. Om de juiste inzichten te verkrijgen, worden big data meestal opgesplitst in drie karakteristieken:

  • Volume: Hoeveel gegevens

  • Snelheid: Hoe snel gegevens worden verwerkt

  • Variëteit: De verschillende soorten gegevens

Hoewel het handig is om big data in de drie V's te vereenvoudigen, kan het misleidend en overdreven simplistisch zijn. U beheert bijvoorbeeld een relatief kleine hoeveelheid zeer uiteenlopende, complexe gegevens, of u verwerkt mogelijk een enorme hoeveelheid zeer eenvoudige gegevens. Die eenvoudige gegevens kunnen allemaal gestructureerd of ongestructureerd zijn.

Nog belangrijker is de vierde V, waarachtigheid. Hoe nauwkeurig zijn die gegevens bij het voorspellen van bedrijfswaarde? Hebben de resultaten van een big data-analyse eigenlijk zin? Gegevens moeten kunnen worden geverifieerd op basis van zowel nauwkeurigheid als context. Een innovatief bedrijf wil mogelijk enorme hoeveelheden gegevens in realtime kunnen analyseren om snel de waarde van die klant en het potentieel om extra aanbiedingen aan die klant te bieden, te beoordelen. Het is noodzakelijk om de juiste hoeveelheid en typen gegevens te identificeren die in realtime kunnen worden geanalyseerd om de bedrijfsresultaten te beïnvloeden.

Big data bevat alle soorten gegevens, waaronder gestructureerde gegevens en ongestructureerde gegevens van e-mails, sociale media, tekststromen, enzovoort. Dit soort gegevensbeheer vereist dat bedrijven gebruikmaken van zowel hun gestructureerde als ongestructureerde gegevens.

Unstructured Data begrijpen

Unstructured data is anders dan gestructureerde data omdat de structuur ervan onvoorspelbaar is. Voorbeelden van ongestructureerde gegevens zijn documenten, e-mails, blogs, digitale afbeeldingen, video's en satellietbeelden. Het bevat ook enkele gegevens die zijn gegenereerd door machines of sensoren. In feite zijn ongestructureerde gegevens verantwoordelijk voor het merendeel van de gegevens die zich op het bedrijfsterrein van uw bedrijf bevinden, evenals extern van uw bedrijf in online privé- en openbare bronnen zoals Twitter en Facebook.

In het verleden konden de meeste bedrijven deze enorme hoeveelheid gegevens niet vastleggen of opslaan. Het was gewoon te duur of te overweldigend. Zelfs als bedrijven de gegevens konden vastleggen, beschikten ze niet over de tools om de gegevens eenvoudig te analyseren en de resultaten te gebruiken om beslissingen te nemen. Zeer weinig tools kunnen deze enorme hoeveelheden gegevens bevatten. De gereedschappen die bestonden waren complex in gebruik en leverden geen resultaten op binnen een redelijk tijdsbestek.

Uiteindelijk werden degenen die echt de enorme inspanning wilden doen om deze gegevens te analyseren gedwongen om met snapshots van gegevens te werken. Dit heeft het ongewenste effect dat belangrijke gebeurtenissen ontbreken omdat ze zich niet in een bepaalde momentopname bevonden.

Eén benadering die steeds meer wordt gewaardeerd als een manier om bedrijfswaarde uit ongestructureerde gegevens te halen, is tekstanalyse, het analyseren van ongestructureerde tekst, het extraheren van relevante informatie en het omzetten in gestructureerde informatie die vervolgens kan worden op verschillende manieren worden benut. De analyse- en extractieprocessen profiteren van technieken die hun oorsprong vinden in computationele taalkunde, statistiek en andere informatica-disciplines.

De rol van traditionele operationele gegevens in de Big Data-omgeving

Weten welke gegevens worden opgeslagen en waar deze worden opgeslagen, zijn essentiële bouwstenen in uw implementatie van big data. Het is onwaarschijnlijk dat u RDBMS's zult gebruiken voor de kern van de implementatie, maar het is zeer waarschijnlijk dat u moet vertrouwen op de gegevens die zijn opgeslagen in RDBMS's om het hoogste niveau van waarde voor het bedrijf met big data te creëren.

De meeste grote en kleine bedrijven slaan waarschijnlijk de meeste van hun belangrijke operationele informatie op in relationele databasebeheersystemen (RDBMS's), die zijn gebouwd op een of meer relaties en worden weergegeven met tabellen. Deze tabellen worden bepaald door de manier waarop de gegevens worden opgeslagen. De gegevens worden opgeslagen in databaseobjecten, tabellen genaamd - geordend in rijen en kolommen. RDBMS's volgen een consistente aanpak in de manier waarop gegevens worden opgeslagen en opgehaald.

Om de meeste bedrijfswaarde te halen uit uw realtime analyse van ongestructureerde gegevens, moet u die gegevens begrijpen in samenhang met uw historische gegevens over klanten, producten, transacties en bewerkingen. Met andere woorden, u moet uw ongestructureerde gegevens integreren met uw traditionele operationele gegevens.

Basisbeginselen van Big Data Infrastructure

Big data draait alles om hoge snelheid, grote volumes en een grote verscheidenheid aan gegevens, dus de fysieke infrastructuur zal de implementatie letterlijk "maken of breken". De meeste big data-implementaties moeten goed beschikbaar zijn, dus de netwerken, servers en fysieke opslag moeten veerkrachtig en overbodig zijn.

Veerkracht en redundantie hangen met elkaar samen. Een infrastructuur, of een systeem, is bestand tegen storingen of verandert wanneer voldoende overtollige middelen aanwezig zijn om in actie te komen. Veerkracht helpt bij het elimineren van enkele faalpunten in uw infrastructuur. Als er bijvoorbeeld slechts één netwerkverbinding bestaat tussen uw bedrijf en internet, hebt u geen netwerkredundantie en is de infrastructuur niet bestand tegen een netwerkuitval.

In grote datacenters met bedrijfscontinuïteitsvereisten is de meeste redundantie aanwezig en kan deze worden gebruikt om een ​​big data-omgeving te creëren. Bij nieuwe implementaties hebben de ontwerpers de verantwoordelijkheid om de implementatie in kaart te brengen naar de behoeften van het bedrijf op basis van kosten en prestaties.

Big data beheren met Hadoop: HDFS en MapReduce

Hadoop, een open source softwareframework, gebruikt HDFS (het Hadoop Distributed File System) en MapReduce om big data te analyseren op clusters van commodity-hardware, dat wil zeggen in een gedistribueerde computeromgeving.

Het Hadoop Distributed File System (HDFS) is ontwikkeld om bedrijven toe te staan ​​grotere hoeveelheden gegevens eenvoudig en pragmatisch te beheren. Hadoop maakt het mogelijk grote problemen op te splitsen in kleinere elementen, zodat analyse snel en kosteneffectief kan worden uitgevoerd. HDFS is een veelzijdige, veerkrachtige, geclusterde benadering voor het beheren van bestanden in een big data-omgeving.

HDFS is niet de eindbestemming voor bestanden. Het is eerder een data-service die een unieke reeks mogelijkheden biedt die nodig zijn wanneer datavolumes en -snelheid hoog zijn.

MapReduce is een softwarematig raamwerk waarmee ontwikkelaars programma's kunnen schrijven die enorme hoeveelheden ongestructureerde gegevens parallel kunnen verwerken in een gedistribueerde groep processors. MapReduce is door Google ontworpen als een manier om efficiënt een reeks functies tegen een grote hoeveelheid gegevens in batch-modus uit te voeren.

Het onderdeel "kaart" distribueert het programmeringsprobleem of de taken over een groot aantal systemen en behandelt de plaatsing van de taken op een manier die de belasting in evenwicht brengt en herstel van fouten beheert. Nadat de verdeelde berekening is voltooid, aggregeert een andere functie met de naam "verkleinen" alle elementen weer samen om een ​​resultaat te bieden. Een voorbeeld van MapReduce gebruik zou zijn om te bepalen hoeveel pagina's van een boek zijn geschreven in elk van de 50 verschillende talen.

Het fundament leggen voor uw Big Data-strategie

Bedrijven zwemmen in big data. Het probleem is dat ze vaak niet weten hoe ze die gegevens pragmatisch moeten gebruiken om de toekomst te kunnen voorspellen, belangrijke bedrijfsprocessen kunnen uitvoeren of eenvoudig nieuwe inzichten kunnen opdoen. Het doel van uw big data-strategie en -plan moet zijn om een ​​pragmatische manier te vinden om gegevens te gebruiken voor voorspelbaarder bedrijfsresultaten.

Begin uw big data-strategie door een ontdekkingsproces aan te vatten. U moet grip krijgen op welke gegevens u al heeft, waar deze is, wie de eigenaar en beheerder is van de gegevens en hoe deze momenteel wordt gebruikt. Wat zijn bijvoorbeeld de externe gegevensbronnen waarop uw bedrijf vertrouwt? Dit proces kan u veel inzichten opleveren:

  • U kunt bepalen hoeveel gegevensbronnen u hebt en hoeveel overlapping er bestaat.

  • U kunt hiaten identificeren in kennis over die gegevensbronnen.

  • U kunt ontdekken dat u veel dubbele gegevens in een bepaald gebied van het bedrijf hebt en bijna geen gegevens in een ander gebied.

  • U kunt zich ervan vergewissen dat u afhankelijk bent van gegevens van derden die niet zo nauwkeurig zijn als zou moeten.

Besteed de tijd die u nodig hebt om dit ontdekkingsproces te doen, want dit zal de basis vormen voor uw planning en uitvoering van uw big data-strategie.

Big Data voor Dummy's Cheat Sheet - dummies

Bewerkers keuze

Setup Menu 3 op de Rebel T6i / 750D - dummies

Setup Menu 3 op de Rebel T6i / 750D - dummies

Er wachten nogal wat aanpassingsmogelijkheden op de Setup-menu van de Rebel T6i / 750D 3. Setup-menu 3, weergegeven in de volgende afbeelding, bevat de volgende aanpassingsmogelijkheden: Schermkleur: standaard bevat het scherm Opname-instellingen opnamegegevens in het wit op een eenvoudige zwarte achtergrond. Er worden grijstinten in grijstinten gebruikt en accenten worden meestal oranje gemarkeerd. ...

Bewerkers keuze

Tekst invoeren en in een PowerPoint-dia passen - dummies

Tekst invoeren en in een PowerPoint-dia passen - dummies

Tekst aan een inhoud toevoegen tijdelijke aanduiding in Microsoft PowerPoint, klik op het gebied Klik om tekst toe te voegen en typ wat u wilt. Als u een ander type inhoud wilt toevoegen, klikt u op het pictogram in de tijdelijke aanduiding voor het gewenste type. Als u meer tekst typt dan in dat tekstvak past (vooral gebruikelijk voor ...

Voor senioren: de Prullenbak van uw computer leegmaken - dummies

Voor senioren: de Prullenbak van uw computer leegmaken - dummies

De Prullenbak op uw computer bevat onlangs verwijderde items. Uw oude bestanden bevinden zich in de Prullenbak en u kunt ze ophalen totdat u deze leegt of totdat deze de maximale maximale grootte heeft bereikt, en Windows automatisch enkele bestanden dumpt. Nadat u de Prullenbak hebt leeggemaakt, zijn alle bestanden daarin niet beschikbaar voor ...

Hoe tekst in te voeren in een Microsoft Office-document - dummies

Hoe tekst in te voeren in een Microsoft Office-document - dummies

Nadat u een document hebt gemaakt, bent u klaar om te beginnen met typen. Tekst op de pagina plaatsen (of op het scherm) is een beetje anders in elk van de drie grote Microsoft Office-toepassingen: Word, Excel en PowerPoint. Woord: Het belangrijkste werkgebied van het programma is een lege lei waarop u rechtstreeks kunt typen. Klik gewoon in de ...

Bewerkers keuze

Animatie maken met de HTML5-canvastag - dummies

Animatie maken met de HTML5-canvastag - dummies

Hoewel de HTML5-canvastag misschien niet als vervanging voor Flash als mechanisme voor het implementeren van games en animaties in de browser, is het redelijk eenvoudig om animaties aan een canvasafbeelding toe te voegen. De sleutel is om de animatiefuncties te gebruiken die al in de browser zijn ingebouwd. Basisstructuur van de animatielus in HTML5-canvas Een animatie ...

Hoe externe stijlen maken in CSS3 - dummies

Hoe externe stijlen maken in CSS3 - dummies

De meeste ontwikkelaars gebruiken externe stijlen in CSS3 om te verkleinen de hoeveelheid werk die nodig is om een ​​site te onderhouden. Een. CSS-bestand bevat alle stijlen voor de site, wat betekent dat het veranderen van een stijl voor de hele site net zo eenvoudig is als het veranderen van dat ene bestand (in plaats van elke pagina). Omdat de wijziging plaatsvindt in slechts ...

Hoe u volledige interactieve CSS3-toepassingen maakt met YUI - dummies

Hoe u volledige interactieve CSS3-toepassingen maakt met YUI - dummies

De Yahoo! Gebruikersinterface (YUI) -bibliotheek (Yuilibrary) is een complete ontwikkeling - API verwant met jQuery en jQuery UI CSS3 gecombineerd in sommige opzichten en rijker dan deze bibliotheken in andere. Dit is een complexe API die is ontworpen om aan de behoeften van grotere applicaties te voldoen. Eigenlijk moet je echt de tutorials doorlopen, ...