Huis Persoonlijke financiën Streaming van gegevensstromen - dummies

Streaming van gegevensstromen - dummies

Anonim

Wanneer gegevensstromen enorm zijn hoeveelheden, het opslaan van alles kan moeilijk of zelfs onmogelijk zijn. Sterker nog, misschien is het niet eens handig om alles op te slaan. Hier zijn enkele cijfers van slechts enkele van wat u kunt verwachten te gebeuren binnen een enkele minuut op internet:

  • 150 miljoen e-mails verzonden
  • 350.000 nieuwe tweets verzonden op Twitter
  • 2. 4 miljoen zoekopdrachten aangevraagd op Google
  • 700.000 mensen aangemeld bij hun account op Facebook

Gezien dergelijke volumes lijkt het niet efficiënt om de gegevens de hele dag te verzamelen voor incrementele analyse. Je bewaart het eenvoudigweg ergens en analyseert het op het volgende of op een latere dag (wat de wijdverspreide archiefstrategie is die typisch is voor databases en datawarehouses). Nuttige gegevensvragen hebben echter de neiging om naar de meest recente gegevens in de stream te vragen en gegevens worden minder nuttig wanneer deze ouder worden (in sommige sectoren, zoals financieel, kan een dag veel tijd zijn).

Bovendien kun je verwachten dat nog meer gegevens morgen aankomen (de hoeveelheid gegevens neemt dagelijks toe) en dat maakt het moeilijk, zo niet onmogelijk, om gegevens uit opslagplaatsen te halen terwijl je nieuwe gegevens pusht. Oude gegevens uit de repositories halen naarmate nieuwe gegevens binnenstromen, lijkt op de straf van Sisyphus. Sisyphus ontving, zoals een Griekse mythe vertelt, een vreselijke straf van de god Zeus: gedwongen om een ​​immense kei eeuwig op de top van een heuvel te laten rollen, alleen om hem elke keer weer naar beneden te zien rollen.

Soms kunnen dingen nog moeilijker worden afgehandeld, maar gegevens kunnen zo snel en in zulke grote hoeveelheden aankomen dat het schrijven naar schijf onmogelijk is: nieuwe informatie komt sneller dan de tijd die nodig is om het naar de harde schijf. Dit is een typisch probleem van deeltjesexperimenten met deeltjesversnellers zoals de Large Hadron Collider, waarbij wetenschappers moeten beslissen welke gegevens moeten worden bewaard. Natuurlijk kunt u gegevens tijdelijk in de wachtrij plaatsen, maar niet te lang, omdat de wachtrij snel groeit en onmogelijk wordt om te onderhouden. Als de wachtrijgegevens bijvoorbeeld in het geheugen worden bewaard, leidt dit snel tot een fout die niet in het geheugen is opgeslagen.

Omdat nieuwe gegevensstromen de eerdere verwerking van oude gegevens mogelijk overbodig maken en uitstelgedrag geen oplossing is, hebben mensen meerdere strategieën bedacht om ogenblikkelijk om te gaan met enorme en veranderlijke gegevensbedragen. Mensen gebruiken drie manieren om met grote hoeveelheden gegevens om te gaan:

  • Opgeslagen: Sommige gegevens worden opgeslagen omdat dit kan helpen bij het beantwoorden van onduidelijke vragen later. Deze methode is gebaseerd op technieken om deze onmiddellijk op te slaan en later zeer snel te analyseren, ongeacht hoe massief deze is.
  • Samengevat: Sommige gegevens worden samengevat omdat het niet logisch is om alles bij elkaar te houden zoals het is; alleen de belangrijke gegevens worden bewaard.
  • Verbruikt: de resterende gegevens worden verbruikt omdat het gebruik ervan vooraf is bepaald. Algoritmen kunnen de gegevens direct in informatie lezen, verwerken en omzetten. Daarna vergeet het systeem de gegevens voor altijd.

Als je het hebt over massieve gegevens die binnenkomen in een computersysteem, zul je het vaak horen in vergelijking met water: streaminggegevens, gegevensstromen, data brandslang.

U ontdekt hoe datastromen eruitzien als het consumeren van kraanwater: door de kraan te openen kunt u het water in bekers of drinkflessen bewaren, of u kunt het gebruiken om te koken, voedsel te schrobben, borden te reinigen of handen te wassen. In elk geval is het meeste of al het water weg, maar het blijkt zeer nuttig en zelfs vitaal.

Streaming van gegevensstromen - dummies

Bewerkers keuze

Tien Helpbronnen voor Junos OS - dummies

Tien Helpbronnen voor Junos OS - dummies

Dit is een top-tien lijst met bronnen die u moet zoeken meer informatie over softwarebewerkingen, training en ondersteuning voor Junos - alle extra details die u mogelijk nodig heeft om Junos OS te kunnen configureren en bedienen in uw eigen netwerkimplementaties. CLI Help-commando's Bent u op zoek naar meer achtergrondinformatie over hoe een bepaalde functie ...

De functie van de drie vlakken van Junos netwerk OS - dummies

De functie van de drie vlakken van Junos netwerk OS - dummies

De architectuur van de Junos opererende systeem verdeelt de functies van besturing, services en doorsturen op verschillende niveaus. Elk van de vlakken van Junos OS biedt een kritieke set van functionaliteit in de werking van het netwerk. Besturingsvlak van het Junos-netwerkbesturingssysteem (NOS) Alle functies van het besturingsvlak lopen op ...

De basisprincipes van BGP-routebealing - dummy's

De basisprincipes van BGP-routebealing - dummy's

Het configureren van Border Gateway Protocol (BGP) kan nogal lastig zijn, vooral met grote aantallen peersessies die handmatig moeten worden geconfigureerd. In feite kan in een groot netwerk de full-mesh-vereiste voor IBGP een provisioning-nachtmerrie zijn. BGP's antwoord op de IBGP-paring-configuratie-nachtmerrie die het volledige maaswerk is, wordt routeberefening genoemd. Route ...

Bewerkers keuze

Noodzakelijke elementen voor SEO om hoge trefwoorden te krijgen - dummies

Noodzakelijke elementen voor SEO om hoge trefwoorden te krijgen - dummies

Als de allerbeste locatie op het web staat op de pagina een van de zoekmachines, je moet de SEO-elementen kennen die je daar kunnen brengen. Een goede plek om te beginnen is met zoekwoorden. Zoekmachines gebruiken geavanceerde processen om zoekwoordgebruik en andere factoren te categoriseren en analyseren om erachter te komen ...

Persberichten als bron van SEO-inhoud - dummies

Persberichten als bron van SEO-inhoud - dummies

Het leuke aan persberichten is dat u ze zonder toestemming op uw website kunt gebruiken, en sommige zullen al voor de zoekmachine zijn geoptimaliseerd. Het doel van een persbericht is om het uit te sturen en te zien wie het ophaalt. U hoeft geen contact op te nemen met de eigenaar van het persbericht, omdat ...

Kies een domeinnaam die geoptimaliseerd is voor zoekmachines - dummies

Kies een domeinnaam die geoptimaliseerd is voor zoekmachines - dummies

Zelfs de domeinnaam van uw site moet geoptimaliseerd voor zoekmachines. Zoekmachines lezen uniforme resource locators (URL's), op zoek naar sleutelwoorden erin. Bijvoorbeeld als u een website heeft met de domeinnaam knaagdierracen. com en iemand zoekt Google op knaagdierenraces, Google ziet rodent-racing als een wedstrijd; omdat er een streepje verschijnt tussen de twee ...

Bewerkers keuze

Praxis Elementair onderwijs Examen-Economie - dummies

Praxis Elementair onderwijs Examen-Economie - dummies

U zult enkele basisconcepten van de economie voor de Praxis moeten kennen Elementair onderwijs examen. Elementaire economie onderzoekt de wens voor, de productie van en de verkoop en het gebruik van geld, zowel lokaal als wereldwijd. Het onderwijzen van economie omvat concepten zoals behoeften versus behoeften, kosten en meer tot nadenken stemmende onderwerpen, zoals de volgende: ...

Praxis Elementair onderwijs voor Dummy's Cheat Sheet - dummies

Praxis Elementair onderwijs voor Dummy's Cheat Sheet - dummies

Het Praxis basisonderwijs: Curriculum, instructie en beoordeling examen (5017) bestrijkt een breed scala van wat u moet weten over basisonderwijs. Als u het Praxis Elementary Education: Content Knowledge-examen (5018) neemt, moet u zich ervan bewust zijn dat het de dekking beperkt tot de inhoud van de vier hoofdonderwerpen die een elementaire leraar is ...

Praxis Core For Dummies Cheat Sheet - dummies

Praxis Core For Dummies Cheat Sheet - dummies

Voordat je te opgewonden raakt, begrijp dat de informatie die volgt niet klopt eigenlijk niet over het bedriegen van de Praxis. Het gaat echt meer om de meest efficiënte manieren om je voor te bereiden op het examen. Maar "voorbereidingsblad" heeft niet helemaal dezelfde reden. Trouwens, vals spelen is niet nodig als je weet wat je aan het doen bent, en ...