Slave-knooppunt en schijfdefecten in HDFS - dummies

Video: The Third Industrial Revolution: A Radical New Sharing Economy 2024

Net als dood en belastingen, zijn schijfstoringen (en voldoende tijd, zelfs knooppunt- of rack-fouten) onvermijdelijk in Hadoop Distributed File System (HDFS). In het getoonde voorbeeld zou het cluster kunnen blijven functioneren, zelfs als een rack zou falen. De prestaties zouden te lijden hebben omdat je de helft van je verwerkingsbronnen hebt verloren, maar het systeem is nog steeds online en alle gegevens zijn nog steeds beschikbaar.

In een scenario waarin een schijfstation of een slaafknooppunt uitvalt, komt de centrale metadataserver voor HDFS (genaamd de NameNode) er uiteindelijk achter dat de bestandsblokken die zijn opgeslagen op de bron niet meer beschikbaar zijn. Als Slave Node 3 bijvoorbeeld faalt, zou dit betekenen dat blokken A, C en D niet-gecompliceerd zijn.

Met andere woorden, te weinig exemplaren van deze blokken zijn beschikbaar in HDFS. Wanneer HDFS constateert dat een blok niet meer wordt toegepast, bestelt het een nieuw exemplaar.

Om verder te gaan met het voorbeeld, zegt u dat Slave Node 3 na enkele uren weer online komt. Ondertussen heeft HDFS ervoor gezorgd dat er drie exemplaren van alle bestandsblokken zijn. Dus nu hebben blokken A, C en D vier exemplaren per stuk en zijn te vaak uitgebreid . Net als bij niet-gecorrigeerde blokken, zal de centrale metadataserver met HDFS hier ook achter komen en één exemplaar van elk bestand dat moet worden verwijderd bestellen.

Een mooi resultaat van de beschikbaarheid van gegevens is dat wanneer er schijfstoringen optreden, het niet nodig is om defecte harde schijven onmiddellijk te vervangen. Dit kan effectiever worden gedaan met regelmatig geplande intervallen.