Inhoudsopgave:
- De big data hypervisor
- Abstractie en big data-virtualisatie
- Implementeer virtualisatie om met big data te werken
Video: Scale Computing Micro Datacenter in a Box 2024
Virtualisatie scheidt resources en services van de onderliggende fysieke bezorgomgeving, waardoor u vele virtuele systemen binnen één enkel fysiek systeem kunt creëren. Een van de belangrijkste redenen waarom bedrijven virtualisatie hebben geïmplementeerd, is het verbeteren van de prestaties en de efficiëntie van het verwerken van een diverse mix van workloads
De big data hypervisor
In een ideale wereld, wil je je geen zorgen maken over de onderliggende besturingssysteem en de fysieke hardware. Een hypervisor is de technologie die ervoor zorgt dat het delen van bronnen op een ordelijke en herhaalbare manier plaatsvindt.
De hypervisor bevindt zich op de laagste niveaus van de hardware-omgeving en gebruikt een dunne laag code om dynamische bronnen te delen. De hypervisor laat het lijken alsof elk besturingssysteem de fysieke bronnen helemaal voor zichzelf heeft.
In de wereld van big data moet u mogelijk veel verschillende besturingsomgevingen ondersteunen. De hypervisor wordt een ideaal leveringsmechanisme voor de technologische componenten van de big data-stack. Met de hypervisor kunt u dezelfde toepassing op veel systemen weergeven zonder dat u die toepassing fysiek naar elk systeem hoeft te kopiëren.
Als extra voordeel kan het vanwege de hypervisor-architectuur verschillende besturingssystemen laden alsof ze gewoon een andere toepassing zijn. De hypervisor is dus een heel praktische manier om dingen snel en efficiënt gevirtualiseerd te krijgen.
De gastbesturingssystemen zijn de besturingssystemen die op de virtuele machines worden uitgevoerd. Met virtualisatietechnologie kunt u de hypervisor instellen om de bronnen van de fysieke computer te splitsen. Resources kunnen bijvoorbeeld 50/50 of 80/20 worden verdeeld tussen twee gastbesturingssystemen.
Het mooie van deze regeling is dat de hypervisor al het zware werk doet. Het gastbesturingssysteem maakt het niet uit dat het wordt uitgevoerd in een virtuele partitie; het denkt dat het een computer helemaal voor zichzelf heeft.
U vindt in feite twee typen hypervisors:
-
Type 1 hypervisors worden rechtstreeks op het hardwareplatform uitgevoerd. Ze bereiken een hogere efficiëntie omdat ze rechtstreeks op het platform worden uitgevoerd.
-
Type 2-hypervisors uitvoeren op het hostbesturingssysteem. Ze worden vaak gebruikt wanneer er een behoefte bestaat om een breed scala aan I / O-apparaten te ondersteunen.
Abstractie en big data-virtualisatie
Om IT-middelen en -services te virtualiseren, worden ze gescheiden van de onderliggende fysieke bezorgingsomgeving.De term voor deze scheidingshandeling wordt abstractie genoemd. Abstractie is een sleutelbegrip in big data. MapReduce en Hadoop zijn gedistribueerde computeromgevingen waarin alles is geabstraheerd. Het detail is geabstraheerd zodat de ontwikkelaar of analist zich geen zorgen hoeft te maken over waar de gegevenselementen zich bevinden.
Abstractie minimaliseert de complexiteit van iets door de details te verbergen en alleen de relevante informatie te verstrekken. Als je bijvoorbeeld iemand ophaalt die je nog nooit eerder hebt ontmoet, kan hij je vertellen waar hij is en wat hij gaat dragen. Hij hoeft u niet te vertellen waar hij is geboren, hoeveel geld hij heeft op de bank, zijn geboortedatum, enzovoort.
Dat is het idee met abstractie - het gaat om het bieden van een specificatie op hoog niveau in plaats van uitvoerig in te gaan op hoe iets werkt.
Implementeer virtualisatie om met big data te werken
Virtualisatie helpt uw IT-omgeving slim genoeg te maken voor big data-analyse. Door alle elementen van uw infrastructuur, inclusief hardware, software en opslag, te optimaliseren, krijgt u de efficiëntie die nodig is om grote hoeveelheden gestructureerde en ongestructureerde gegevens te verwerken en te beheren. Met big data moet u gestructureerde en ongestructureerde gegevens in een gedistribueerde omgeving openen, beheren en analyseren.
Big data veronderstelt verspreiding. In de praktijk zal elke vorm van MapReduce beter werken in een gevirtualiseerde omgeving. U hebt de mogelijkheid nodig om workloads te verplaatsen op basis van vereisten voor compute power en opslag.
Met virtualisatie kunt u grotere problemen aanpakken die nog niet zijn beschreven. U weet misschien niet van tevoren hoe snel u moet opschalen.
Met virtualisatie kunt u een verscheidenheid aan operationele big data-winkels ondersteunen. Een graafgegevensbestand kan bijvoorbeeld worden gecentreerd als een afbeelding.
Het meest directe voordeel van virtualisatie is ervoor te zorgen dat MapReduce-engines beter werken. Virtualisatie zal leiden tot betere schaal en betere prestaties voor MapReduce. Elk van de Map- en Reduce-taken moet onafhankelijk worden uitgevoerd. Als de MapReduce-engine parallel is en is geconfigureerd om in een virtuele omgeving te worden uitgevoerd, kunt u de beheeroverhead verminderen en uitbreidingen en contracties in de taakworkloads toestaan.
MapReduce zelf is inherent parallel en gedistribueerd. Door de MapReduce-engine in een virtuele container te encapsuleren, kunt u uitvoeren wat u nodig hebt wanneer u het nodig hebt. Met virtualisatie verhoogt u uw gebruik van de activa waarvoor u al hebt betaald door ze te veranderen in generieke pools van bronnen.