Video: Peppa Pig Español Latino LIVE ? Días de juego con Peppa ❤️ Peppa la cerdita 2024
In de kern is Pig Latin een gegevensstroom taal, waarin u een gegevensstroom en een reeks transformaties definieert die worden toegepast op de gegevens terwijl deze stromen via uw applicatie. Dit staat in contrast met een besturingsstroom (zoals C of Java), waarin u een reeks instructies schrijft.
In beheerstroomtalen, gebruikt u constructs zoals loops en conditionele logica (zoals een if-statement). Je zult geen loops en if statements vinden in Pig Latin.
Als je enigszins wilt overtuigen dat werken met Pig een veel eenvoudigere rij is om te schoffelen dan om programma's te schrijven en te verkleinen, begin dan met het bekijken van enkele echte Pig-syntaxis:
A = LOAD 'data_file. tekst';. B = GROEP …; … C = FILTER …;. DUMP B;. WINKEL C IN 'Resultaten';
Een deel van de tekst in dit voorbeeld ziet er eigenlijk uit als Engels, toch? Niet te eng, althans op dit moment. Als u om de beurt naar elke regel kijkt, ziet u de basisstroom van een Pig-programma. (Merk op dat deze code deel kan uitmaken van een script of kan worden uitgegeven op de interactieve shell genaamd Grunt.)
-
Laden: u laadt (LADEN) eerst de gegevens die u wilt manipuleren.
Net als bij een typische MapReduce-taak worden die gegevens opgeslagen in HDFS. Voor een Pig-programma om toegang te krijgen tot de gegevens, vertelt u Pig eerst welk bestand of welke bestanden moeten worden gebruikt. Voor die taak gebruikt u de opdracht LOAD 'data_file'.
Hier kan 'data_file' een HDFS-bestand of een directory specificeren. Als een map is opgegeven, worden alle bestanden in die map in het programma geladen.
Als de gegevens zijn opgeslagen in een bestandsindeling die niet nationaal toegankelijk is voor Pig, kunt u optioneel de functie USING toevoegen aan de LOAD-opdracht om een door de gebruiker gedefinieerde functie op te geven die kan worden gelezen (en interpreteer) de gegevens.
-
Transformeren: u voert de gegevens uit via een reeks transformaties die, ver onder de motorkap en ver verwijderd van alles waar u zich zorgen over moet maken, worden vertaald in een reeks taken Kaart en Verkleinen.
De transformatielogica is waar alle gegevensmanipulatie plaatsvindt. Hier kunt u FILTER uit rijen die niet van belang zijn, FILTEREN van twee sets gegevensbestanden, GROEPSgegevens om aggregaties samen te stellen, ORDER resultaten, en nog veel, veel meer.
-
Dump: ten slotte dumpt u (DUMP) de resultaten naar het scherm
of
Store (STORE) de resultaten ergens in een bestand.
U gebruikt meestal de opdracht DUMP om de uitvoer naar het scherm te sturen wanneer u fouten in uw programma's aantreft. Wanneer uw programma in productie gaat, wijzigt u simpelweg de DUMP-oproep in een STORE-oproep zodat alle resultaten van het uitvoeren van uw programma's worden opgeslagen in een bestand voor verdere verwerking of analyse.