Video: Apache OOZIE | OOZIE in Hadoop | OOZIE Workflows | COSO IT 2024
Oozie-workflows in de kern gerichte grafieken zijn, waar je acties (Hadoop-applicaties) en dataflow kunt definiëren, maar zonder looping - wat betekent dat je kunt ' t definieer een structuur waarbij u een specifieke bewerking steeds opnieuw uitvoert totdat aan een of andere voorwaarde is voldaan (bijvoorbeeld een for-lus).
Oozie-workflows zijn vrij flexibel omdat u op voorwaarden gebaseerde beslissingen en gevorkte paden voor parallelle uitvoering kunt definiëren. U kunt ook een breed scala aan acties uitvoeren.
In deze afbeelding ziet u een werkstroom met de basisfuncties van Oozie-workflows. Eerst wordt een Pig-script uitgevoerd en dit wordt onmiddellijk gevolgd door een beslissingsboom. Afhankelijk van de status van de uitvoer, kan de besturingsstroom direct naar een HDFS-bestandshandeling (Hadoop Distributed File System) gaan (bijvoorbeeld een copyToLocal-bewerking) of naar een vorkactie.
Als de besturingsstroom naar de vorkactie gaat, worden twee taken tegelijkertijd uitgevoerd: een MapReduce-taak en een Hive-query. De besturingsstroom gaat vervolgens naar de HDFS-bewerking zodra zowel de MapReduce-taak als de Hive-query zijn voltooid. Na de HDFS-bewerking is de workflow voltooid.
Oozie-workflowdefinities worden geschreven in XML, op basis van het Hadoop Process Definition Language (hPDL) -schema. Dit specifieke schema is op zijn beurt gebaseerd op het XPDL-schema (XML Process Definition Language), een productonafhankelijke standaard voor het modelleren van definities van bedrijfsprocessen.
Een Oozie-workflow bestaat uit een reeks acties die worden gecodeerd door XML-knooppunten. Er zijn verschillende soorten knooppunten die verschillende soorten acties of besturingsstroomrichtlijnen vertegenwoordigen. Elke Oozie-workflow heeft zijn eigen XML-bestand, waarin elk knooppunt en de onderlinge verbindingen zijn gedefinieerd.
Werkstroomknooppunten vereisen allemaal unieke identificatiegegevens omdat ze worden gebruikt om het volgende knooppunt te identificeren dat in de werkstroom moet worden verwerkt. Dit betekent dat de volgorde waarin de acties worden uitgevoerd, afhankelijk is van waar het knooppunt van een actie in de workflow-XML wordt weergegeven. Bekijk de volgende lijst om te zien hoe dit concept eruit zou zien, dat een voorbeeld toont van de basisstructuur van een XML-bestand van een Oozie-workflow.
… … "Killed job."
In dit voorbeeld heeft u naast de start-, eind- en kill-knooppunten twee actieknooppunten. Elk actieknooppunt vertegenwoordigt een toepassing of een opdracht die wordt uitgevoerd.