Video: Animatiefilm Oorsprong 2024
Dus wat is precies dit ding met de grappige naam - Hadoop? In de kern is Hadoop een raamwerk voor het opslaan van gegevens over grote clusters van < commodity hardware - dagelijkse computerhardware die betaalbaar en gemakkelijk beschikbaar is - en toepassingen uitvoert tegen die gegevens. Een cluster is een groep onderling verbonden computers (bekend als knooppunten ) die kunnen samenwerken aan hetzelfde probleem.
Wat die naam betreft, Hadoop, zoek daar geen grote betekenis, het is gewoon de naam die de zoon van Doug Cutting gaf aan zijn opgezette olifant. (Doug Cutting is natuurlijk de mede-bedenker van Hadoop.) De naam is uniek en gemakkelijk te onthouden - kenmerken die het tot een uitstekende keuze maakten.
Een toepassing die op Hadoop draait, verdeelt zijn werk verdeeld over de knooppunten (machines) in het cluster en HDFS slaat de gegevens op die worden verwerkt. Een Hadoop-cluster kan duizenden machines overspannen, waar HDFS gegevens opslaat, en MapReduce-taken verwerken de gegevens dicht bij de gegevens, waardoor de I / O-kosten laag blijven. MapReduce is extreem flexibel en maakt de ontwikkeling van een breed scala aan applicaties mogelijk.
computercluster, een type cluster dat voornamelijk wordt gebruikt voor computationele doeleinden. In een rekencluster kunnen veel computers ( rekenknooppunten ) rekenwerklasten delen en profiteren van een zeer grote totale bandbreedte in het cluster. Hadoop-clusters bestaan meestal uit een paar
hoofdknooppunten, die de opslag- en verwerkingssystemen in Hadoop besturen, en veel slave-knooppunten, die alle gegevens van het cluster opslaan en is ook waar de gegevens worden verwerkt.