De basisprincipes van Big Data Integration - dummies

Video: Meet Your Master - Getting to Know Your Brain: Crash Course Psychology #4 2024

De fundamentele elementen van het big data-platform beheren gegevens op nieuwe manieren in vergelijking met de traditionele relationele database. Dit komt door de behoefte aan schaalbaarheid en hoge prestaties die vereist zijn om zowel gestructureerde als ongestructureerde gegevens te beheren.

Componenten van het big data-ecosysteem, variërend van Hadoop tot NoSQL DB, MongoDB, Cassandra en HBase, hebben allemaal hun eigen aanpak voor het extraheren en laden van gegevens. Als gevolg hiervan moeten uw teams mogelijk nieuwe vaardigheden ontwikkelen om het integratieproces op al deze platforms te beheren. Veel best practices voor datamanagement van uw bedrijf zullen echter nog belangrijker worden naarmate u de wereld van big data betreedt.

Hoewel big data een nieuw niveau van integratiecomplexiteit introduceert, zijn de fundamentele basisbeginselen nog steeds van toepassing. Uw bedrijfsdoelstelling moet gericht zijn op het leveren van kwaliteit en vertrouwde gegevens aan de organisatie op het juiste moment en in de juiste context.

Om dit vertrouwen te waarborgen, moet u gemeenschappelijke regels opstellen voor de gegevenskwaliteit met de nadruk op nauwkeurigheid en volledigheid van gegevens. Daarnaast hebt u een alomvattende aanpak nodig voor het ontwikkelen van bedrijfsmetadata, het bijhouden van datalijn en governance om de integratie van uw gegevens te ondersteunen.

Tegelijkertijd evolueren traditionele tools voor data-integratie om de toenemende verscheidenheid aan ongestructureerde data en het toenemende volume en de snelheid van big data aan te kunnen. Terwijl traditionele vormen van integratie nieuwe betekenissen krijgen in een grote gegevenswereld, hebben uw integratietechnologieën een gemeenschappelijk platform nodig dat gegevenskwaliteit en profilering ondersteunt.

Om goede zakelijke beslissingen te nemen op basis van big data-analyse, moet deze informatie worden vertrouwd en begrepen op alle niveaus van de organisatie. Hoewel het waarschijnlijk niet duur of tijdrovend zal zijn om zich te veel zorgen te maken over de gegevenskwaliteit in de verkennende fase van een big data-analyse, moeten uiteindelijk kwaliteit en vertrouwen een rol spelen als de resultaten moeten worden opgenomen in het bedrijfsproces.

Informatie moet op een vertrouwde, gecontroleerde, consistente en flexibele manier aan de onderneming worden geleverd, ongeacht de vereisten die specifiek zijn voor afzonderlijke systemen of toepassingen. Om dit doel te bereiken, zijn drie basisprincipes van toepassing:

U moet een gemeenschappelijk begrip van gegevensdefinities creëren. In de beginfasen van uw big data-analyse heeft u waarschijnlijk niet hetzelfde niveau van controle over gegevensdefinities als met uw operationele gegevens.Zodra u echter de patronen hebt geïdentificeerd die het meest relevant zijn voor uw bedrijf, hebt u de mogelijkheid nodig om gegevenselementen toe te wijzen aan een gemeenschappelijke definitie.
U moet een set dataservices ontwikkelen om de gegevens te kwalificeren en consistent en uiteindelijk betrouwbaar te maken. Wanneer uw ongestructureerde en grote gegevensbronnen zijn geïntegreerd met gestructureerde operationele gegevens, moet u erop kunnen vertrouwen dat de resultaten zinvol zijn.
U hebt een gestroomlijnde manier nodig om uw grote gegevensbronnen en recordsystemen te integreren. Om goede beslissingen te nemen op basis van de resultaten van uw big data-analyse, moet u op het juiste moment en met de juiste context informatie verstrekken. Uw big data-integratieproces moet zorgen voor consistentie en betrouwbaarheid.

Om gegevens te integreren in gemengde toepassingsomgevingen, haalt u gegevens op uit de ene gegevensomgeving (bron) naar een andere gegevensomgeving (doel). Extract, transform en load (ETL) -technologieën zijn gebruikt om dit te bereiken in traditionele datawarehouse-omgevingen. De rol van ETL evolueert om nieuwe datamanagementomgevingen zoals Hadoop aan te kunnen.

In een big data-omgeving moet u mogelijk tools combineren die batch-integratieprocessen ondersteunen (via ETL) met real-time integratie en federatie via meerdere bronnen. Een farmaceutisch bedrijf moet bijvoorbeeld gegevens die zijn opgeslagen in zijn Master Data Management (MDM) -systeem combineren met big data-bronnen over medische uitkomsten van drugsgebruik door klanten.

Bedrijven gebruiken MDM om het verzamelen, aggregeren, consolideren en leveren van consistente en betrouwbare gegevens op een gecontroleerde manier in de hele onderneming te vergemakkelijken. Daarnaast worden nieuwe tools zoals Sqoop en Scribe gebruikt om de integratie van big data-omgevingen te ondersteunen. Je vindt ook een toenemende nadruk op het gebruik van extract, load en transform (ELT) -technologieën. Deze technologieën worden hierna beschreven.