Video: Data-analyse geeft inzicht in prestaties Olympische schaatsers 2024
Alleen het hebben van een snellere computer is niet genoeg om het juiste prestatieniveau te garanderen voor het verwerken van big data. U moet componenten van uw Big Data-service via een reeks knooppunten kunnen distribueren. Bij distributed computing is een -node een element dat zich in een cluster van systemen of in een rack bevindt.
Een knooppunt bevat meestal CPU, geheugen en een soort schijf. Een knooppunt kan echter ook een blade-CPU en geheugen zijn die afhankelijk zijn van opslag in de omgeving binnen een rack.
In een big data-omgeving worden deze knooppunten meestal geclusterd om schaal te bieden. U kunt bijvoorbeeld beginnen met een big data-analyse en doorgaan met het toevoegen van meer gegevensbronnen. Om tegemoet te komen aan de groei voegt een organisatie eenvoudig meer knooppunten toe aan een cluster, zodat deze kan worden opgeschaald om tegemoet te komen aan groeiende behoeften.
Het is echter niet voldoende om gewoon het aantal knooppunten in het cluster uit te breiden. Het is veeleer belangrijk om een deel van de big data-analyse naar verschillende fysieke omgevingen te kunnen sturen. Wanneer u deze taken verzendt en hoe u ze beheert, maakt u het verschil tussen succes en mislukking.
In sommige complexe situaties wilt u wellicht verschillende algoritmen parallel uitvoeren, zelfs binnen dezelfde cluster, om de vereiste analyse snelheid te bereiken. Waarom zou je verschillende big data-algoritmen parallel uitvoeren binnen hetzelfde rack? Hoe dichter bij elkaar de distributies van functies zijn, hoe sneller ze kunnen uitvoeren.
Hoewel het mogelijk is om big data-analyse over netwerken te distribueren om te profiteren van de beschikbare capaciteit, moet u dit type distributie uitvoeren op basis van prestatie-eisen. In sommige situaties neemt de verwerkingssnelheid een achterstand in. In andere situaties is het behalen van resultaten echter een vereiste. In deze situatie wilt u ervoor zorgen dat de netwerkfuncties zich dicht bij elkaar bevinden.
Over het algemeen moet de big data-omgeving worden geoptimaliseerd voor het type analysetaak. Daarom is schaalbaarheid de hoeksteen van het succesvol werken met big data. Hoewel het theoretisch mogelijk zou zijn om een big data-omgeving binnen één grote omgeving te exploiteren, is het niet praktisch.
Om de behoefte aan schaalbaarheid in big data te begrijpen, hoeft alleen gekeken te worden naar schaalbaarheid van de cloud en moeten zowel de vereisten als de aanpak worden begrepen. Net als cloud computing vereisen big data de opname van snelle netwerken en goedkope clusters van hardware die kunnen worden gecombineerd in racks om de prestaties te verbeteren. Deze clusters worden ondersteund door software-automatisering die dynamische schaalverdeling en taakverdeling mogelijk maakt.
Het ontwerp en de implementatie van MapReduce zijn uitstekende voorbeelden van hoe gedistribueerd computergebruik big data operationeel zichtbaar en betaalbaar kan maken. In essentie vormen bedrijven een van de unieke keerpunten in informatietechnologie waarbij technologische concepten op het juiste moment samenkomen om de juiste problemen op te lossen. De combinatie van distributed computing, verbeterde hardwaresystemen en praktische oplossingen, zoals MapReduce en Hadoop, verandert gegevensbeheer op diepgaande manieren.