Laag 1 van de Big Data Stack: beveiligingsinfrastructuur - dummies

Beveiliging en privacyvereisten, laag 1 van de big data-stack, zijn vergelijkbaar aan de vereisten voor conventionele data-omgevingen. De beveiligingsvereisten moeten nauw aansluiten bij specifieke bedrijfsbehoeften. Sommige unieke uitdagingen doen zich voor wanneer big data onderdeel wordt van de strategie:

Gegevenstoegang: Gebruikerstoegang tot onbewerkte of berekende big data heeft ongeveer hetzelfde niveau van technische vereisten als niet-big data-implementaties. De gegevens zouden alleen beschikbaar moeten zijn voor diegenen die een legitieme zakelijke behoefte hebben aan het onderzoeken of ermee omgaan. De meeste basisplatforms voor gegevensopslag beschikken over strenge beveiligingsschema's en worden uitgebreid met een federatieve identiteitsmogelijkheid, die de juiste toegang biedt tot de vele lagen van de architectuur.
Toepassingstoegang: Toepassingstoegang tot gegevens is ook relatief eenvoudig vanuit een technisch perspectief. De meeste API's bieden bescherming tegen ongeoorloofd gebruik of toegang. Dit beschermingsniveau is waarschijnlijk voldoende voor de meeste big data-implementaties.
Gegevensversleuteling: Gegevensversleuteling is het meest uitdagende aspect van beveiliging in een big data-omgeving. In traditionele omgevingen benadrukken coderen en decoderen van gegevens de bronnen van het systeem. Dit probleem wordt nog verergerd door big data. De eenvoudigste benadering is om meer en sneller rekenvermogen te bieden. Een meer gematigde aanpak is om de gegevenselementen te identificeren die dit beveiligingsniveau vereisen en alleen de benodigde items te coderen.
Bedreigingsdetectie: Het opnemen van mobiele apparaten en sociale netwerken verhoogt exponentieel zowel de hoeveelheid gegevens als de kansen voor beveiligingsbedreigingen. Het is daarom belangrijk dat organisaties een benadering op meerdere peilers van beveiliging toepassen.

Fysieke infrastructuur maakt dus alles mogelijk en de beveiligingsinfrastructuur beschermt alle elementen in uw big data-omgeving. Het volgende niveau in de stapel zijn de interfaces die bidirectionele toegang bieden tot alle componenten van de stapel - van bedrijfstoepassingen tot datafeeds van internet.

Een belangrijk onderdeel van het ontwerp van deze interfaces is het creëren van een consistente structuur die zowel binnen als buiten het bedrijf, maar ook met technologiepartners en zakelijke partners kan worden gedeeld.

Decennia lang hebben programmeurs API's gebruikt om toegang te bieden tot en van software-implementaties. Tool- en technologieproviders gaan tot het uiterste om ervoor te zorgen dat het een relatief eenvoudige taak is om nieuwe applicaties te maken met behulp van hun producten.Hoewel het zeer nuttig is, is het soms noodzakelijk voor IT-professionals om aangepaste of eigen API's te maken die exclusief zijn voor het bedrijf.

Mogelijk moet u dit doen voor een concurrentievoordeel, een behoefte die uniek is voor uw organisatie of een andere zakelijke vraag, en het is geen eenvoudige taak. API's moeten goed worden gedocumenteerd en onderhouden om de waarde voor het bedrijf te behouden. Om deze reden kiezen sommige bedrijven ervoor API-toolkits te gebruiken om een start te maken met deze belangrijke activiteit.

API-toolkits hebben een aantal voordelen ten opzichte van intern ontwikkelde API's. De eerste is dat de API-toolkits producten zijn die worden gemaakt, beheerd en onderhouden door een onafhankelijke derde partij. Ten tweede zijn ze ontworpen om een specifieke technische vereiste op te lossen.

Uitdagingen voor grote gegevens vereisen een enigszins andere benadering van API-ontwikkeling of -acceptatie. Omdat veel van de gegevens ongestructureerd zijn en buiten de controle van uw bedrijf worden gegenereerd, is een nieuwe techniek, Natural Language Processing (NLP), in opkomst als de voorkeursmethode voor het koppelen van big data aan uw applicatieprogramma's.

NLP stelt u in staat vragen met natuurlijke taalsyntaxis te formuleren in plaats van een formele querytaal zoals SQL. Voor de meeste big data-gebruikers is het veel eenvoudiger om te vragen "Geef alle gehuwde mannelijke consumenten tussen 30 en 40 jaar oud die in het zuidoosten van de Verenigde Staten wonen en fans van NASCAR zijn" dan om een SQL-query van 30 regels te schrijven voor het antwoord.

Omdat de meeste gegevensverzameling en beweging zeer vergelijkbare kenmerken hebben, kunt u een reeks services ontwerpen om grote gegevensitems in het opslagsysteem van uw keuze te verzamelen, opschonen, transformeren, normaliseren en opslaan.

Om zoveel flexibiliteit te creëren als nodig, kon de fabriek worden aangestuurd met interfacebeschrijvingen geschreven in Extensible Markup Language (XML). Met dit abstractieniveau kunnen eenvoudig en snel specifieke interfaces worden gemaakt zonder dat voor elke gegevensbron specifieke services hoeven te worden gebouwd.

In de praktijk zou u een beschrijving van SAP- of Oracle-toepassingsinterfaces kunnen maken met behulp van iets als XML. Elke interface zou dezelfde onderliggende software gebruiken om gegevens te migreren tussen de big data-omgeving en de productie-applicatieomgeving, onafhankelijk van de specifieke kenmerken van SAP of Oracle. Als u gegevens van sociale sites op internet moet verzamelen, is de praktijk identiek.

Beschrijf de interfaces naar de sites in XML en schakel vervolgens de services in om de gegevens heen en weer te verplaatsen. Meestal zijn deze interfaces gedocumenteerd voor gebruik door interne en externe technologen.