Video: Pentaho's Big Data Integration Workflow 2024
Om big data-workflows te begrijpen, moet u begrijpen wat een proces is en hoe het zich verhoudt tot de workflow in gegevensintensieve omgevingen. Processen zijn meestal ontworpen als end-to-end-structuren van hoog niveau die nuttig zijn voor het nemen van beslissingen en het normaliseren van hoe dingen in een bedrijf of organisatie worden gedaan.
Werkstromen daarentegen zijn taakgericht en vereisen vaak specifiekere gegevens dan processen. Processen bestaan uit een of meer workflows die relevant zijn voor de algemene doelstelling van het proces.
In veel opzichten zijn big data-workflows vergelijkbaar met standaardworkflows. In feite zijn in elke workflow gegevens nodig in de verschillende fasen om de taken uit te voeren. Overweeg de workflow in een zorgsituatie.
Een elementaire workflow is het proces van 'bloed afnemen'. "Bloedonderzoek is een noodzakelijke taak die nodig is om het algemene diagnostische proces te voltooien. Als er iets gebeurt en er geen bloed is afgenomen of als de gegevens van die bloedtest verloren zijn gegaan, heeft dit een directe invloed op de waarachtigheid of waarachtigheid van de algehele activiteit.
Wat gebeurt er wanneer u een workflow introduceert die afhankelijk is van een grote gegevensbron? Hoewel u mogelijk bestaande werkstromen kunt gebruiken, kunt u er niet vanuit gaan dat een proces of werkstroom correct zal werken door alleen een grote gegevensbron te vervangen door een standaardbron. Dit werkt misschien niet omdat standaard gegevensverwerkingsmethoden niet de verwerkingsbenaderingen of prestaties hebben om de complexiteit van de big data te verwerken.
Het zorgvoorbeeld richt zich op de noodzaak om een analyse uit te voeren nadat het bloed van de patiënt is afgenomen. In de standaard gegevensworkflow wordt het bloed getypt en vervolgens worden bepaalde chemische tests uitgevoerd op basis van de vereisten van de zorgverlener.
Het is onwaarschijnlijk dat deze workflow de tests begrijpt die nodig zijn voor het identificeren van specifieke biomarkers of genetische mutaties. Als u big data-bronnen voor biomarkers en mutaties aanleverde, zou de workflow mislukken. Het is niet big data-bewust en moet worden aangepast of herschreven om big data te ondersteunen.
De beste methode voor het begrijpen van werkstromen en het effect van big data is om het volgende te doen:
-
Identificeer de big data-bronnen die u moet gebruiken.
-
Breng de big data-types in kaart met uw workflowdatatypes.
-
Zorg dat u de verwerkingssnelheid en opslagtoegang hebt om uw werkstroom te ondersteunen.
-
Selecteer de gegevensopslag die het best geschikt is voor de gegevenstypen.
-
Wijzig de bestaande workflow om ruimte te maken voor big data of maak een nieuwe big data-workflow.
Nadat u uw big data-workflows hebt gehad, moeten deze nauwkeurig worden aangepast, zodat ze uw analyse niet zullen overbelasten of vervuilen.Veel big data-bronnen bevatten bijvoorbeeld geen goed gedefinieerde gegevensdefinities en metagegevens over de elementen van die bronnen. Soms zijn deze gegevensbronnen niet schoongemaakt. U moet ervoor zorgen dat u over het juiste niveau van kennis beschikt over de bronnen die u gaat gebruiken.