Hoe de architecturale basis voor grote gegevens kan worden ingesteld - dummies

Het is belangrijk om een sterke architecturale basis te leggen als je succesvol wilt zijn met big data. Naast het ondersteunen van de functionele vereisten, is het belangrijk om de vereiste prestaties te ondersteunen. Uw behoeften zullen afhangen van de aard van de analyse die u ondersteunt. Je hebt de juiste hoeveelheid rekenkracht en snelheid nodig.

Uw architectuur moet ook de juiste hoeveelheid redundantie hebben, zodat u bent beschermd tegen onverwachte latentie en downtime.

Begin met het stellen van de volgende vragen:

Hoeveel gegevens moet uw organisatie vandaag en in de toekomst beheren?
Hoe vaak moet uw organisatie gegevens in realtime of bijna realtime beheren?
Hoeveel risico kan uw organisatie zich veroorloven? Is uw branche onderworpen aan strikte vereisten op het gebied van beveiliging, compliance en governance?
Hoe belangrijk is snelheid voor uw behoefte om gegevens te beheren?
Hoe zeker of precies moeten de gegevens zijn?

Interfaces en feeds voor big data

Om te begrijpen hoe big data in de echte wereld werken, is het belangrijk om te beginnen met het begrijpen van de noodzaak van interfaces en feeds. Wat big data groot maakt, is feitelijk dat het afhankelijk is van het verzamelen van veel gegevens uit veel bronnen.

Daarom zullen open API's (Application Programming Interfaces) de kern vormen van elke big data-architectuur. Houd er bovendien rekening mee dat er op elk niveau en tussen elke laag van de stapel interfaces bestaan. Zonder integratiediensten kunnen big data niet plaatsvinden.

Redundante big data-fysieke infrastructuur

De ondersteunende fysieke infrastructuur is van fundamenteel belang voor de werking en schaalbaarheid van een big data-architectuur. Zonder de beschikbaarheid van robuuste fysieke infrastructuren zouden big data waarschijnlijk niet als zo'n belangrijke trend naar voren zijn gekomen. Om een onverwachte of onvoorspelbare hoeveelheid gegevens te ondersteunen, moet een fysieke infrastructuur voor big data anders zijn dan die voor traditionele gegevens.

De fysieke infrastructuur is gebaseerd op een gedistribueerd computermodel. Dit betekent dat gegevens fysiek op veel verschillende locaties kunnen worden opgeslagen en aan elkaar kunnen worden gekoppeld via netwerken, het gebruik van een gedistribueerd bestandssysteem en verschillende big data-analysehulpmiddelen en -toepassingen.

Redundantie is belangrijk omdat u te maken hebt met zoveel gegevens uit zoveel verschillende bronnen. Redundantie bestaat in vele vormen. Als uw bedrijf een privécloud heeft gemaakt, wilt u dat redundantie wordt gebouwd in de privéomgeving, zodat deze kan worden uitgebreid om veranderende workloads te ondersteunen.

Als uw bedrijf interne IT-groei wil beheersen, kan het externe cloudservices gebruiken om zijn interne resources te vergroten. In sommige gevallen kan deze redundantie de vorm aannemen van een Software as a Service (SaaS) -aanbod waarmee bedrijven verfijnde gegevensanalyses kunnen uitvoeren als een service. De SaaS-aanpak biedt lagere kosten, snellere startup en naadloze evolutie van de onderliggende technologie.

Big Data-beveiligingsinfrastructuur

Hoe belangrijker big data-analyse wordt voor bedrijven, hoe belangrijker het is om die gegevens te beveiligen. Als u bijvoorbeeld een gezondheidszorgbedrijf bent, wilt u waarschijnlijk big data-applicaties gebruiken om de demografische veranderingen of verschuivingen in de behoeften van de patiënt te bepalen. Deze gegevens over uw kiezers moeten zowel worden beschermd om te voldoen aan de nalevingsvereisten als om de privacy van de patiënten te beschermen.

U moet rekening houden met wie de gegevens mag zien en onder welke omstandigheden dit is toegestaan. U moet de identiteit van gebruikers kunnen verifiëren en de identiteit van patiënten kunnen beschermen.

Operationele big data-bronnen

Het is belangrijk om te begrijpen dat u alle gegevensbronnen moet opnemen die u een volledig beeld van uw bedrijf geven en hoe de gegevens van invloed zijn op de manier waarop u uw bedrijf bestuurt. Naarmate de wereld verandert, is het belangrijk om te begrijpen dat operationele gegevens nu een bredere verzameling gegevensbronnen moeten omvatten, waaronder ongestructureerde bronnen, zoals gegevens van sociale media in al zijn vormen.

U vindt nieuwe opkomende benaderingen voor gegevensbeheer in de big data-wereld, inclusief document-, grafiek-, kolom- en georuimtelijke database-architecturen. Gezamenlijk worden deze NoSQL, of niet alleen SQL, databases genoemd. In essentie moet u de gegevensarchitecturen toewijzen aan de soorten transacties.

Als u dit wel doet, zorgt u ervoor dat de juiste gegevens beschikbaar zijn wanneer u deze nodig hebt. U hebt ook gegevensarchitecturen nodig die complexe ongestructureerde inhoud ondersteunen. U moet zowel relationele databases als niet-relationele databases opnemen in uw benadering van het gebruik van big data. Het is ook noodzakelijk om ongestructureerde gegevensbronnen op te nemen, zoals inhoudbeheersystemen, zodat u dichter bij die 360-graden bedrijfsvisie kunt komen.

Al deze operationele gegevensbronnen hebben verschillende gemeenschappelijke kenmerken:

Ze vertegenwoordigen registratiesystemen die de kritieke gegevens bijhouden die nodig zijn voor real-time dagelijkse werking van het bedrijf.
Ze worden voortdurend bijgewerkt op basis van transacties die plaatsvinden binnen bedrijfseenheden en via internet.
Om deze bronnen een juiste weergave van het bedrijf te bieden, moeten ze gestructureerde en ongestructureerde gegevens combineren.
Deze systemen moeten ook in staat zijn om te schalen om duizenden gebruikers op een consistente basis te ondersteunen. Dit kunnen transactionele e-commercesystemen, CRM-systemen of callcenter-applicaties zijn.