Distributed Computing Basics for Big Data - dummies

in te schakelen. Als uw bedrijf een big data-project overweegt, is het belangrijk dat u een aantal basisprincipes van gedistribueerde computers begrijpt eerste. Er is geen enkel gedistribueerd computermodel omdat computerbronnen op verschillende manieren kunnen worden gedistribueerd.

U kunt bijvoorbeeld een reeks programma's op dezelfde fysieke server distribueren en berichtenservice gebruiken om hen in staat te stellen te communiceren en informatie door te geven. Het is ook mogelijk om veel verschillende systemen of servers te hebben, elk met een eigen geheugen, die kunnen samenwerken om één probleem op te lossen.

Waarom distributed computing nodig is voor big data

Niet voor alle problemen is gedistribueerd computergebruik vereist. Als er geen grote tijdsbeperking bestaat, kan complexe verwerking via een gespecialiseerde service op afstand plaatsvinden. Wanneer bedrijven complexe gegevensanalyses moesten uitvoeren, zou IT gegevens verplaatsen naar een externe service of entiteit waar veel reservehulpbronnen beschikbaar waren voor verwerking.

Het was niet dat bedrijven wilden wachten om de resultaten te krijgen die ze nodig hadden; het was gewoon niet economisch haalbaar om voldoende computerresources te kopen om aan deze nieuwe eisen tegemoet te komen. In veel situaties zouden organisaties alleen selecties van gegevens vastleggen in plaats van te proberen alle gegevens vast te leggen vanwege kosten. Analisten wilden alle gegevens, maar moesten genoegen nemen met momentopnamen in de hoop op het juiste moment de juiste gegevens te verzamelen.

Belangrijke doorbraken in hardware en software hebben een revolutie teweeggebracht in de datamanagementsector. Ten eerste hebben innovatie en vraag het vermogen verhoogd en de prijs van hardware verlaagd. Er ontstond nieuwe software die goed wist te profiteren van deze hardware door processen zoals load-balancing en -optimalisatie te automatiseren over een groot aantal knooppunten.

De software bevat ingebouwde regels die begrepen dat bepaalde workloads een bepaald prestatieniveau vereisten. De software behandelde alle knooppunten alsof ze simpelweg één grote verzameling waren voor computer-, opslag- en netwerkactiva, en verplaatste processen zonder onderbreking naar een ander knooppunt als een knooppunt faalde, met behulp van de technologie van virtualisatie.

De veranderende economie van computers en big data

Fast-forward en veel is veranderd. In de afgelopen jaren zijn de kosten voor de aanschaf van computer- en opslagbronnen drastisch afgenomen. Geholpen door virtualisatie veranderden commodity-servers die geclusterd konden worden en blades die in een rack konden worden genetwerkt, de economische aspecten van computing. Deze verandering viel samen met innovatie in software-automatiseringsoplossingen die de beheersbaarheid van deze systemen drastisch hebben verbeterd.

De mogelijkheid om gebruik te maken van distributed computing en parallelle verwerkingstechnieken heeft het landschap dramatisch getransformeerd en de latentie drastisch verminderd. Er zijn speciale gevallen, zoals High Frequency Trading (HFT), waarbij lage latentie alleen kan worden bereikt door servers fysiek op één locatie te lokaliseren.

Het probleem met latency voor big data

Een van de eeuwige problemen met het beheren van gegevens - met name grote hoeveelheden gegevens - is de impact van latentie. Latentie is de vertraging binnen een systeem op basis van vertragingen bij de uitvoering van een taak. Latency is een probleem in elk aspect van computergebruik, inclusief communicatie, gegevensbeheer, systeemprestaties en meer.

Als u ooit een draadloze telefoon hebt gebruikt, hebt u uit de eerste hand latentie ervaren. Het is de vertraging in de overdracht tussen u en uw beller. Soms heeft latentie weinig invloed op de klanttevredenheid, bijvoorbeeld als bedrijven achter de schermen resultaten moeten analyseren om een nieuwe productrelease te plannen. Dit vereist waarschijnlijk geen onmiddellijke reactie of toegang.

Hoe dichter een klant reageert op het moment van een beslissing, hoe meer latentie van belang is.

Gedistribueerde computer- en parallelle verwerkingstechnieken kunnen een aanzienlijk verschil maken in de latency die klanten, leveranciers en partners ervaren. Veel big data-applicaties zijn afhankelijk van lage latentie vanwege de grote gegevensvereisten voor snelheid en het volume en de verscheidenheid van de gegevens. Het is misschien niet mogelijk om een big data-toepassing te bouwen in een omgeving met hoge latentie als hoge prestaties vereist zijn. De noodzaak om de gegevens bijna realtime te verifiëren, kan ook worden beïnvloed door latentie. Wanneer u te maken hebt met real-time gegevens, betekent een hoge latentie het verschil tussen succes en mislukking.

Grote vraag naar gegevens voldoet aan oplossingen

De groei van het internet als platform voor alles, van handel tot medicijnen, veranderde de vraag naar een nieuwe generatie gegevensbeheer. In de late jaren 1990, motor-en internetbedrijven zoals Google, Yahoo! en Amazon. com waren in staat om hun bedrijfsmodellen uit te breiden door gebruik te maken van goedkope hardware voor computergebruik en opslag.

Vervolgens hadden deze bedrijven een nieuwe generatie softwaretechnologieën nodig waarmee ze inkomsten konden genereren uit de enorme hoeveelheden gegevens die ze van klanten verzamelden. Deze bedrijven konden niet wachten op resultaten van analytische verwerking. Ze hadden de mogelijkheid nodig om deze gegevens in bijna realtime te verwerken en te analyseren.