Video: Frans Duijts - Lekker Aan De Rol 2024
ETL-hulpmiddelen combineren drie belangrijke functies (uitpakken, transformeren, laden) die nodig zijn om gegevens uit één grote gegevensomgeving te halen en zet het in een andere data-omgeving. Traditioneel werd ETL gebruikt met batchverwerking in omgevingen met datawarehouses. Data warehouses bieden zakelijke gebruikers een manier om informatie te consolideren om gegevens te analyseren en te rapporteren die relevant zijn voor hun zakelijke focus. ETL-hulpmiddelen worden gebruikt om gegevens om te zetten naar het formaat dat door data warehouses wordt vereist.
De transformatie vindt plaats op een tussenlocatie voordat de gegevens in het datawarehouse worden geladen. Veel softwareleveranciers, waaronder IBM, Informatica, Pervasive, Talend en Pentaho, bieden ETL-softwaretools.
ETL biedt de onderliggende infrastructuur voor integratie door drie belangrijke functies uit te voeren:
-
Uitpakken: Gegevens uit de brondatabase lezen.
-
Transformeren: Converteer de indeling van de geëxtraheerde gegevens zodat deze overeenkomt met de vereisten van de doeldatabase. Transformatie wordt gedaan door regels te gebruiken of door gegevens samen te voegen met andere gegevens.
-
Laad: schrijf gegevens naar de doeldatabase.
ETL evolueert echter om integratie te ondersteunen in veel meer dan traditionele datawarehouses. ETL kan integratie tussen transactionele systemen, operationele gegevensopslag, BI-platforms, MDM-hubs, de cloud en Hadoop-platforms ondersteunen. ETL-softwareleveranciers breiden hun oplossingen uit om big data-extractie, -transformatie en -belasting tussen Hadoop en traditionele datamanagementplatforms te bieden.
ETL- en softwaretools voor andere gegevensintegratieprocessen, zoals gegevensschoning, profilering en auditing, werken allemaal aan verschillende aspecten van de gegevens om ervoor te zorgen dat de gegevens betrouwbaar worden geacht. ETL-tools integreren met tools voor gegevenskwaliteit en veel tools bevatten gegevensreiniging, datamapping en het identificeren van datarangges. Met ETL extraheer je alleen de gegevens die je nodig hebt voor de integratie.
ETL-tools zijn nodig voor het laden en converteren van gestructureerde en ongestructureerde gegevens naar Hadoop. Geavanceerde ETL-tools kunnen parallel meerdere bestanden lezen en schrijven van en naar Hadoop om te vereenvoudigen hoe gegevens worden samengevoegd tot een gemeenschappelijk transformatieproces. Sommige oplossingen bevatten bibliotheken met vooraf gebouwde ETL-transformaties voor zowel de transactie- als interactiegegevens die op Hadoop of een traditionele netwerkinfrastructuur worden uitgevoerd.
Gegevensomzetting is het proces waarbij het gegevensformaat wordt gewijzigd, zodat het door verschillende toepassingen kan worden gebruikt.Dit kan een verandering betekenen van het formaat waarin de gegevens zijn opgeslagen in het formaat dat nodig is voor de toepassing die de gegevens zal gebruiken. Dit proces omvat ook toewijzings -instructies, zodat toepassingen worden verteld hoe de benodigde gegevens moeten worden verwerkt.
Het proces van gegevenstransformatie wordt veel complexer gemaakt vanwege de enorme groei van de hoeveelheid ongestructureerde gegevens. Een zakelijke toepassing, zoals een klantrelatiebeheer, heeft specifieke vereisten voor de manier waarop gegevens moeten worden opgeslagen. De gegevens zijn waarschijnlijk gestructureerd in de geordende rijen en kolommen van een relationele database. Gegevens zijn semi-gestructureerd of ongestructureerd als ze niet voldoen aan de vereisten voor rigide indelingen.
De informatie in een e-mailbericht wordt bijvoorbeeld als ongestructureerd beschouwd. Een deel van de belangrijkste informatie van een bedrijf is in ongestructureerde en semi-gestructureerde vormen zoals documenten, e-mailberichten, complexe berichtenformaten, interacties met klantenondersteuning, transacties en informatie afkomstig van verpakte applicaties zoals ERP en CRM.
Hulpprogramma's voor gegevenstransformatie zijn niet ontworpen om goed samen te werken met ongestructureerde gegevens. Als gevolg hiervan hebben bedrijven die ongestructureerde informatie moeten opnemen in de besluitvorming over bedrijfsprocessen te maken gehad met een aanzienlijke hoeveelheid handmatige codering om de vereiste gegevensintegratie tot stand te brengen.
Gezien de groei en het belang van ongestructureerde gegevens voor besluitvorming, beginnen ETL-oplossingen van grote leveranciers gestandaardiseerde benaderingen aan te bieden voor het transformeren van ongestructureerde gegevens zodat deze gemakkelijker kunnen worden geïntegreerd met operationele gestructureerde gegevens.