Inhoudsopgave:
Een kernprincipe van Hadoop is schaalvergroting met extra slave-knooppunten om te voldoen aan de toenemende vereisten voor gegevensopslag en -verwerking. In een schaalmodel moet u het clusterontwerp zorgvuldig overwegen, omdat tientallen en zelfs honderden slave-knooppunten uiteindelijk moeten worden hersteld, gevoed, in een netwerk en gekoeld.
Serverfactorfactoren
Een van de eerste keuzes waarmee IT-architecten worden geconfronteerd bij het ontwerpen van een Hadoop-cluster, is welke van de volgende twee formulierfactoren moet worden gebruikt voor Hadoop-knooppunten:
-
Bladserver: Ontworpen voor maximale dichtheid, u kunt zoveel mogelijk van deze baby's in één rek proppen. Blade-servers passen in blade-behuizingen, die veel standaard servercomponenten hebben, zoals speciale opslag, netwerken, voeding en koeling. Deze componenten worden gedeeld tussen de bladeservers, wat betekent dat elke bladeserver afzonderlijk veel kleiner kan zijn.
Bladeservers zijn een aantrekkelijke keuze aan het oppervlak, omdat u een standaard rack kunt gebruiken en tussen 40 en 50 van deze bladeservers kunt inzetten. Het probleem met het gebruik van blades voor Hadoop-implementaties is dat ze op bepaalde gedeelde componenten vertrouwen, wat niet overeenkomt met Hadoops shared-nothing-architectuur, waarbij elk van de slave-knooppunten op zichzelf staat en over eigen resources beschikt.
Belangrijker is dat messen weinig ruimte hebben voor lokaal aangesloten opslag, vaak met niet meer dan twee of drie schijfposities. Dit is een niet-starter voor Hadoop, omdat slave-knooppunten veel meer speciale opslagcapaciteit nodig hebben.
-
Rackserver: Complete servers zonder gedeelde componenten en ruimte voor hardware-uitbreiding, rackservers zijn de echte keuze voor Hadoop omdat ze mooi op zichzelf staan. Een rackserver die op de juiste manier is geconfigureerd om een Hadoop-slaafknoop te zijn, neemt doorgaans twee RU in beslag, dus u kunt er 20 in een standaard rack plaatsen.
Kosten van eigendom
Bij het kiezen en ontwerpen van een slaafknooppunt zijn uw belangrijkste overwegingen typisch de initiële inkoopkosten en het opslagvolume. De cost of ownership is echter ook belangrijk. Het is echter een prima evenwichtsoefening, omdat keuzes die van invloed zijn op aanschafkosten, energieverbruik, koeling, hardwareprestaties en dichtheid vaak tegengesteld zijn. Om u te helpen goede keuzes te maken, volgt hier een (vrij specifiek) advies:
-
Reserve redundante voedingen voor de hoofdknooppunten. Het gebruik van redundante voedingen voor slave-knooppunten is overkill - een stroomstoring in een slaafknooppunt zou het cluster niet erg beïnvloeden.Het gebruik van redundante voedingen op alle slaveknooppunten zou het stroomverbruik echter verhogen en meer warmte genereren.
-
Kies de gemiddelde kloksnelheid voor slave knooppunt-CPU's. CPU's met hogere kloksnelheden kosten niet alleen meer, maar gebruiken ook meer stroom en genereren veel meer warmte.
-
Kies rackservers die zijn ontworpen voor Hadoop. Met de stijgende populariteit van Hadoop bieden alle grote hardwareleveranciers nu rackservers aan die ideale slaafknooppunten zijn, met 12 tot 20 schijfposities voor lokaal aangesloten opslag.
Rackservers die zijn ontworpen om te werken als Hadoop-slaaf-knooppunten, zijn doorgaans te groot om in een formulierfactor van één spoorwegonderneming te passen, maar het opnemen van twee spoorwegondernemingen kan leiden tot verspilling van ruimte. Voor een efficiënter gebruik van de ruimte hebben bepaalde hardwareleveranciers rackservers vrijgegeven die meerdere slaafknooppunten in één chassis proppen.
Bijvoorbeeld, in deze gecomprimeerde vorm kan een standaard rack maar liefst 27 slave-knooppunten hebben (zelfs met netwerkswitches), waarbij elke slave-node ruimte heeft voor 15 schijfstations voor HDFS. Het resultaat van deze regeling is een veel hogere dichtheid en beter gebruik van de ruimte in het datacenter.