Video: Road to Enterprise Architecture for Big Data Applications 2024
In perspectief komt het doel van het ontwerpen van een architectuur voor data-analyse neer op het bouwen van een raamwerk voor het vastleggen, sorteren en analyseren van big data voor het doel van het ontdekken van bruikbare resultaten.
Denken aan de architectuur die big data omzet in bruikbare resultaten.Er is geen juiste manier om de architecturale omgeving voor big data-analyse te ontwerpen. De meeste ontwerpen moeten echter aan de volgende vereisten voldoen om de uitdagingen die big data kunnen bieden te ondersteunen. Deze criteria kunnen hoofdzakelijk in zes lagen worden verdeeld en kunnen als volgt worden samengevat:
- Uw architectuur moet een groot gegevensplatform bevatten voor opslag en berekening, zoals Hadoop of Spark, dat kan opschalen.
- Uw architectuur moet grootschalige software en big data-tools bevatten die in staat zijn om big data te analyseren, op te slaan en op te halen. Deze kunnen bestaan uit de componenten van Spark, of de componenten van het Hadoop-ecosysteem (zoals Mahout en Apache Storm). Misschien wilt u ook een grootschalige grootschalige tool adopteren die door data scientists in uw bedrijf wordt gebruikt. Deze omvatten Radoop van RapidMiner, IBM Watson en vele anderen.
- Uw architectuur moet virtualisatie ondersteunen. Virtualisatie is een essentieel onderdeel van cloud computing, omdat hiermee meerdere besturingssystemen en applicaties tegelijkertijd op dezelfde server kunnen worden uitgevoerd. Vanwege deze mogelijkheid gaan virtualisatie en cloud computing vaak hand in hand. Je zou ook een private cloud in je architectuur kunnen adopteren. Een private cloud biedt dezelfde architectuur als een openbare cloud, behalve dat de services in een private cloud via een firewall beperkt zijn tot een bepaald aantal gebruikers. Amazon Elastic Computer Cloud is een van de grootste leveranciers van private cloud-oplossingen en opslagruimte voor bedrijven en kan opschalen als ze groeien.
- Uw architectuur moet mogelijk realtime analyses bieden als uw onderneming met snelle gegevens werkt (gegevens die in een snel tempo in streams stromen). In een scenario waarin u een infrastructuur moet overwegen die het afleiden van inzichten uit gegevens in vrijwel realtime kan ondersteunen zonder te wachten tot gegevens naar schijf worden geschreven. De streamingbibliotheek van Apache Spark kan bijvoorbeeld worden gelijmd met andere componenten om analyses op snelle gegevensstromen te ondersteunen.
- Uw architectuur moet rekening houden met Big Data-beveiliging door een systeem van governance te creëren rond de levering van toegang tot de gegevens en de resultaten. De grote architectuur voor gegevensbeveiliging moet in overeenstemming zijn met de standaard beveiligingspraktijken en -beleidslijnen in uw organisatie die de toegang tot gegevensbronnen regelen.
Als u op zoek bent naar een robuuste tool waarmee u aan de slag kunt met gegevensanalyse zonder dat u over expertise op het gebied van algoritmen en complexiteit bij het bouwen van voorspellende modellen beschikt, moet u onder meer KNIME, RapidMiner of IBM Watson proberen.
De meeste van de voorgaande tools bieden een uitgebreide, gebruiksklare toolbox die bestaat uit functies waarmee u aan de slag kunt. RapidMiner heeft bijvoorbeeld een groot aantal algoritmen uit verschillende staten van de levenscyclus van de voorspellende analyse, dus het biedt een eenvoudig pad om analysemodellen snel te combineren en in te zetten.
Met RapidMiner kunt u snel uw gegevens laden en voorbereiden, voorspellende modellen maken en evalueren, gegevensprocessen in uw toepassingen gebruiken en deze delen met uw zakelijke gebruikers. Met zeer weinig klikken kunt u gemakkelijk een eenvoudig voorspellend analysemodel bouwen.
Drag-and-drop-analyses met RapidMiner.RapidMiner kan zowel door beginners als experts worden gebruikt. RapidMiner Studio is een open-source software voor voorspellende analyse met een eenvoudig te gebruiken grafische interface waar u algoritmen kunt verslepen voor het laden van gegevens, voorverwerking van gegevens, algoritmen voor voorspellende analyse en modelevaluaties om uw gegevensanalyseproces te bouwen.
RapidMiner is gebouwd om gegevenswetenschappers een uitgebreide toolbox te bieden die bestaat uit meer dan duizend verschillende bewerkingen en algoritmen. De gegevens kunnen snel worden geladen, ongeacht of uw gegevensbron zich in Excel, Access, MS SQL, MySQL, SPSS, Salesforce of een ander formaat bevindt dat wordt ondersteund door RapidMiner. Naast het laden van gegevens, het voorspellen van modelbouw en modelevaluatie, biedt deze tool u ook hulpmiddelen voor gegevensvisualisatie met instelbare zelforganiserende kaarten en 3D-grafieken.
RapidMiner biedt een API (Open Extension Application Programming Interface) waarmee u uw eigen algoritmen kunt integreren in elke pipeline die in RapidMiner is ingebouwd. Het is ook compatibel met veel platforms en kan op grote besturingssystemen worden uitgevoerd. Er is een opkomende online community van data scientists die RapidMiner gebruiken waar ze hun processen kunnen delen en vragen kunnen stellen en beantwoorden.
Een andere gemakkelijk te gebruiken tool die veel wordt gebruikt in de wereld van analyses is KNIME. KNIME staat voor de Konstanz Information Miner. Het is een open source data-analyse waarmee u voorspellende modellen kunt bouwen met behulp van een datapijplijnconcept. De tool biedt drag-and-drop-componenten voor ETL (extractie, transformatie en laden) en componenten voor voorspellende modellering en datavisualisatie.
KNIME en RapidMiner zijn hulpmiddelen waarmee u uw data science-team kunt inschakelen om eenvoudig aan de slag te gaan met het bouwen van voorspellende modellen. Voor een uitstekend gebruik van het KNIME-mesje, bekijk de paper "De zeven technieken voor dimensionaliteitsverminde- ring. "
RapidMiner Radoop is een product van RapidMiner dat de toolbox voor voorspellende analyses uitbreidt naar RapidMiner Studio voor het uitvoeren van Hadoop- en Spark-omgevingen.Radoop kapselt MapReduce, Pig, Mahout en Spark in. Nadat u uw workflows op Radoop hebt gedefinieerd, worden instructies in de Hadoop- of Spark-omgeving uitgevoerd, zodat u geen voorspellende modellen hoeft te programmeren, maar u zich moet concentreren op modelevaluatie en ontwikkeling van nieuwe modellen.
Voor de veiligheid ondersteunt Radoop de Kerberos-authenticatie en integreert het met Apache Ranger en Apache Sentry.