Huis Persoonlijke financiën Aanpassen van Business Intelligence-producten voor verwerking van grote gegevens - dummies

Aanpassen van Business Intelligence-producten voor verwerking van grote gegevens - dummies

Inhoudsopgave:

Video: Privacy, Security, Society - Computer Science for Business Leaders 2016 2024

Video: Privacy, Security, Society - Computer Science for Business Leaders 2016 2024
Anonim

Traditionele Business Intelligence-producten waren niet echt ontworpen om met grote gegevens om te gaan, dus ze kunnen enige aanpassing vereisen. Ze zijn ontworpen om te werken met zeer gestructureerde, goed begrepen gegevens, vaak opgeslagen in een relationele gegevensrepository en weergegeven op uw desktop- of laptopcomputer. Deze traditionele business intelligence-analyse wordt meestal toegepast op snapshots van gegevens in plaats van de volledige hoeveelheid beschikbare gegevens. Wat is er anders aan big data-analyse?

Big data data

Big data bestaat uit gestructureerde, semi-gestructureerde en ongestructureerde data. Je hebt er vaak veel van en het kan behoorlijk ingewikkeld zijn. Wanneer u erover nadenkt om dit te analyseren, moet u zich bewust zijn van de potentiële kenmerken van uw gegevens:

  • het kan afkomstig zijn van niet-vertrouwde bronnen. Big data-analyse omvat vaak het verzamelen van gegevens uit verschillende bronnen. Deze kunnen zowel interne als externe gegevensbronnen omvatten. Hoe betrouwbaar zijn deze externe informatiebronnen? Hoe betrouwbaar zijn bijvoorbeeld gegevens van sociale media zoals een tweet? De informatie kan afkomstig zijn van een niet-geverifieerde bron. De integriteit van deze gegevens moet in de analyse worden beschouwd.

  • Het kan vies zijn. Dirty data verwijst naar onnauwkeurige, onvolledige of onjuiste gegevens. Dit kan het verkeerd spelden van woorden omvatten; een sensor die is gebroken, niet goed is gekalibreerd of op de een of andere manier is beschadigd; of zelfs dubbele gegevens. Dataskundigen discussiëren over waar de gegevens moeten worden schoongemaakt - dicht bij de bron of in realtime.

    Natuurlijk zegt een school van denken dat de vuile gegevens helemaal niet moeten worden gereinigd omdat het interessante uitschieters kan bevatten. De reinigingsstrategie zal waarschijnlijk afhangen van de bron en het type gegevens en het doel van uw analyse. Als u bijvoorbeeld een spamfilter ontwikkelt, is het doel om de slechte elementen in de gegevens te detecteren, zodat u deze niet wilt opschonen.

  • De signaal / ruis-verhouding kan laag zijn. Met andere woorden, het signaal (bruikbare informatie) kan slechts een klein percentage van de gegevens zijn; het geluid is de rest. Een klein signaal uit lawaaierige gegevens kunnen extraheren, maakt deel uit van het voordeel van big data-analyse, maar u moet zich ervan bewust zijn dat het signaal inderdaad klein kan zijn.

  • Dit kan realtime zijn. In veel gevallen probeert u real-time datastreams te analyseren.

Big data-governance wordt een belangrijk onderdeel van de analytische vergelijking. Onder bedrijfsanalyse zullen verbeteringen moeten worden aangebracht in besturingsoplossingen om te zorgen dat de nieuwe gegevensbronnen waarheidsgetrouw zijn, vooral omdat deze wordt gecombineerd met bestaande vertrouwde gegevens die zijn opgeslagen in een magazijn.Gegevensbeveiliging en privacyoplossingen moeten ook worden verbeterd om het beheren / beheren van big data die is opgeslagen in nieuwe technologieën te ondersteunen.

Analytische algoritmen voor big data

Als u analyse van big data overweegt, moet u zich ervan bewust zijn dat wanneer u verder dan de desktop gaat, de gebruikte algoritmen vaak moeten worden aangepast, de interne code zonder de externe werking te beïnvloeden. Het mooie van een big data-infrastructuur is dat je een model kunt draaien dat vroeger uren of dagen in minuten kostte.

Hiermee kunt u honderden keren herhalen op het model. Als u echter een regressie uitvoert op een miljard rijen gegevens in een gedistribueerde omgeving, moet u rekening houden met de resourcevereisten met betrekking tot de hoeveelheid gegevens en de locatie in het cluster. Uw algoritmen moeten gegevensbewust zijn.

Bovendien beginnen leveranciers nieuwe analyses aan te bieden die zijn ontworpen om dicht bij de grote gegevensbronnen te worden geplaatst om de gegevens te analyseren. Deze benadering van het uitvoeren van analyses dichter bij de gegevensbronnen minimaliseert de hoeveelheid opgeslagen gegevens door alleen de hoogwaardige gegevens te behouden. Het stelt u ook in staat om de gegevens eerder te analyseren, wat van cruciaal belang is voor real-time besluitvorming.

Natuurlijk zullen analyses blijven evolueren. U hebt bijvoorbeeld realtime visualisatiemogelijkheden nodig om real-time gegevens weer te geven die voortdurend veranderen. Hoe plot je praktisch een miljard punten op een grafiekplot? Of, hoe werkt u met de voorspellende algoritmen zodat ze snel genoeg en diep genoeg analyses uitvoeren om een ​​steeds groter wordende, complexe dataset te gebruiken? Dit is een gebied van actief onderzoek.

Ondersteuning voor Big data-infrastructuur

Het volstaat om te zeggen dat als u een platform zoekt, dit het volgende moet bereiken:

  • Integreer technologieën: De infrastructuur moet nieuwe big data-technologieën integreren met traditionele technologieën om alle soorten big data te kunnen verwerken en deze door traditionele analyses verbruikbaar te maken.

  • Bewaar grote hoeveelheden ongelijksoortige gegevens: Er kan een gehard Hadoop-systeem nodig zijn dat grote hoeveelheden gegevens in rust kan verwerken / opslaan / beheren, ongeacht of het gestructureerd, semigestructureerd of ongestructureerd is.

  • Gegevens in beweging verwerken: Een stroomberekeningscapaciteit kan nodig zijn om gegevens in beweging te verwerken die continu worden gegenereerd door sensoren, slimme apparaten, video, audio en logbestanden om real-time besluitvorming te ondersteunen.

  • Magazijngegevens: Mogelijk hebt u een oplossing nodig die is geoptimaliseerd voor operationele of diepe analytische werklasten om de groeiende hoeveelheden vertrouwde gegevens op te slaan en te beheren.

En natuurlijk hebt u de mogelijkheid nodig om de gegevens die u al hebt, samen met de resultaten van de big data-analyse te integreren.

Aanpassen van Business Intelligence-producten voor verwerking van grote gegevens - dummies

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...