De oorsprong en het ontwerp van Hadoop - dummies

Video: Animatiefilm Oorsprong 2024

Dus wat is precies dit ding met de grappige naam - Hadoop? In de kern is Hadoop een raamwerk voor het opslaan van gegevens over grote clusters van < commodity hardware - dagelijkse computerhardware die betaalbaar en gemakkelijk beschikbaar is - en toepassingen uitvoert tegen die gegevens. Een cluster is een groep onderling verbonden computers (bekend als knooppunten ) die kunnen samenwerken aan hetzelfde probleem.

Het gebruik van netwerken van betaalbare rekenbronnen om bedrijfsinzicht te verwerven, is de belangrijkste waardepropositie van Hadoop.

Wat die naam betreft, Hadoop, zoek daar geen grote betekenis, het is gewoon de naam die de zoon van Doug Cutting gaf aan zijn opgezette olifant. (Doug Cutting is natuurlijk de mede-bedenker van Hadoop.) De naam is uniek en gemakkelijk te onthouden - kenmerken die het tot een uitstekende keuze maakten.

Hadoop bestaat uit twee hoofdcomponenten: een gedistribueerd verwerkingsraamwerk MapReduce genoemd (dat nu wordt ondersteund door een component genaamd YARN) en een gedistribueerd bestandssysteem dat bekend staat als het Hadoop-gedistribueerde bestandssysteem of HDFS.

Een toepassing die op Hadoop draait, verdeelt zijn werk verdeeld over de knooppunten (machines) in het cluster en HDFS slaat de gegevens op die worden verwerkt. Een Hadoop-cluster kan duizenden machines overspannen, waar HDFS gegevens opslaat, en MapReduce-taken verwerken de gegevens dicht bij de gegevens, waardoor de I / O-kosten laag blijven. MapReduce is extreem flexibel en maakt de ontwikkeling van een breed scala aan applicaties mogelijk.

Zoals u misschien al vermoedde, is een Hadoop-cluster een vorm van

computercluster, een type cluster dat voornamelijk wordt gebruikt voor computationele doeleinden. In een rekencluster kunnen veel computers ( rekenknooppunten ) rekenwerklasten delen en profiteren van een zeer grote totale bandbreedte in het cluster. Hadoop-clusters bestaan meestal uit een paar

hoofdknooppunten, die de opslag- en verwerkingssystemen in Hadoop besturen, en veel slave-knooppunten, die alle gegevens van het cluster opslaan en is ook waar de gegevens worden verwerkt.