Lokale en gedistribueerde speltypes voor het uitvoeren van varkensscripts in Hadoop - dummies

Video: HACKLOG 2x22 - Attacchi Local e Remote File Inclusion 2024

Voordat u uw eerste Pig-script in Hadoop kunt uitvoeren, moet u weten hoe Pig-programma's kunnen worden verpakt met de Pig-server.

Pig heeft twee modi voor het uitvoeren van scripts:

Lokale modus: Alle scripts worden uitgevoerd op een enkele machine zonder Hadoop MapReduce en HDFS te gebruiken. Dit kan handig zijn voor het ontwikkelen en testen van Pig-logica. Als u een kleine set gegevens gebruikt voor de ontwikkelaar of uw code test, kan de lokale modus sneller zijn dan via de MapReduce-infrastructuur.

Lokale modus vereist geen Hadoop. Wanneer u in de lokale modus werkt, wordt het Pig-programma uitgevoerd in de context van een lokale Java Virtual Machine en is de gegevenstoegang via het lokale bestandssysteem van een enkele computer. Lokale modus is eigenlijk een lokale simulatie van MapReduce in de klasse LocalJobRunner van Hadoop.
MapReduce-modus (ook bekend als Hadoop-modus): Varken wordt uitgevoerd op de Hadoop-cluster. In dit geval wordt de Pig-script omgezet in een reeks MapReduce-taken die vervolgens worden uitgevoerd op de Hadoop-cluster.

Als je een terabyte aan gegevens hebt waarop je bewerkingen wilt uitvoeren en je wilt een programma interactief ontwikkelen, zul je snel merken dat dingen aanzienlijk vertragen en je kunt je opslag beginnen te laten groeien. Met de lokale modus kunt u op een meer interactieve manier met een subset van uw gegevens werken, zodat u de logica (en de bugs) van uw Pig-programma kunt achterhalen.

Nadat u de dingen hebt ingesteld zoals u ze wilt en uw bewerkingen worden soepel uitgevoerd, kunt u het script vervolgens uitvoeren op de volledige gegevensset met de MapReduce-modus.