Tips voor Data Warehousing Consultants - dummies
De meeste informatie op deze website met betrekking tot data warehousing is primair gericht op de gebruikersgemeenschap en hoe de mensen erin consultants kunnen vinden en behouden voor hun data warehousing-projecten. Als u een data warehousing consultant bent, dan zijn hier enkele tips: blijf op de hoogte van alle veranderingen die plaatsvinden in de ...
Traditionele gegevensopslag betekent het analyseren van traditionele gegevenstypen - dummies
Bij het plannen van data warehousing, onthoud dat de gegevens van vandaag landschap omvat nu een duizelingwekkende reeks nieuwe informatiekanalen, nieuwe gegevensbronnen en nieuwe vereisten voor analyse en rapportage. Volgens analistengroepen is bijna 80 tot 85 procent van de gegevens van vandaag ongestructureerd, en nieuwe informatiekanalen zoals web, e-mail, voice over IP, instant ...
Waarschuwingen voor Big Data Cloud-gebruikers - dummies
Waarschuwing! Op cloud gebaseerde services kunnen een economische oplossing bieden voor uw behoeften aan big data, maar de cloud heeft zijn problemen. Het is belangrijk om je huiswerk te maken voordat je je big data daar naartoe verplaatst. Hier zijn enkele zaken die u moet overwegen: Gegevensintegriteit: u moet ervoor zorgen dat uw provider de juiste bedieningselementen heeft om te zorgen voor ...
Bekijk externe gegevens vanuit het perspectief van een gebruiker - dummies
Hier is een overzicht van hoe een gebruiker van een datawarehouse externe ziet gegevens en het belang ervan. Overweeg deze twee tabellen. Deze tabel toont de verkoopprestaties voor Good Guys, Inc. en de volgende tabel toont de verkoopprestaties van de concurrerende Bad Guys, Inc. Good Guys, Inc. Regio voor verkoopprestaties 2007 Q1 Resultaten 2008 Q1 ...
Welke functionaliteit biedt een Querying en Reporting Tool? - dummies
Om u te helpen de functionaliteit te begrijpen die een query- en rapportagetool biedt, beschrijft deze lijst enkele van de taken die zij u kunnen helpen uitvoeren: Regelmatige rapporten uitvoeren. Uw organisatie kan regelmatig standaardrapporten produceren die afkomstig zijn van een operationeel systeem of van gegevens die zijn geëxtraheerd uit een of meer van die systemen. Maak georganiseerde lijsten. ...
Wat is middleware? - dummies
Losjes gedefinieerd, middleware is een set van services die verschillende functies uitvoeren in een gedistribueerde computeromgeving, over een brede reeks server- en clientsystemen. In essentie is middleware een computersoftware die softwarecomponenten verbindt. Hier zijn enkele soorten middleware-services: Beveiliging: verifieert een bepaald clientprogramma op een systeemcomponent om te verifiëren, ...
De idee achter multidimensionale databases - dummies
Multidimensionale databases (MDDB's) ontdoen de conventies van hun relationele voorouders en organiseren gegevens op een manier die zeer bevorderlijk is voor multidimensionale analyse. Om multidimensionale databases te begrijpen, moet u daarom eerst de basisbeginselen begrijpen van de analytische functies die worden uitgevoerd met de gegevens die daarin zijn opgeslagen. Multidimensionale analyse is opgebouwd rond een paar eenvoudige gegevensorganisatie ...
Ongestructureerde gegevens in een Big Data-omgeving - dummies
Ongestructureerde gegevens zijn gegevens die geen gespecificeerd formaat volgen voor big data. Als 20 procent van de gegevens die beschikbaar zijn voor bedrijven bestaat uit gestructureerde gegevens, is de overige 80 procent ongestructureerd. Ongestructureerde data zijn eigenlijk de meeste data die je tegenkomt. Tot voor kort ondersteunde de technologie echter niet echt veel met ...
Waarom zijn externe gegevens belangrijk voor uw gegevensmagazijn? - dummies
Externe gegevens - van buiten uw eigen bedrijf - zijn om uw eenvoudige reden belangrijk voor uw datawarehouse: om ervoor te zorgen dat u de juiste zakelijke beslissingen neemt, moet u de grote lijnen zien, wat meestal betekent dat u kan niet alle antwoorden vinden die zijn opgeslagen in de verschillende computertoepassingen en databases van uw bedrijf. Hier zijn ...
Waarom zou u Hadoop moeten gebruiken voor Big Data? - dummies
Zoekmachine-innovators zoals Yahoo! en Google werd geconfronteerd met een probleem met moerasgegevens. Ze moesten een manier vinden om inzicht te krijgen in de enorme hoeveelheden gegevens die hun motoren verzamelden. Deze bedrijven moesten zowel begrijpen welke informatie ze verzamelden als hoe ze die gegevens konden gebruiken om hun ...
Enterprise Data Management en Big Data - dummies
Enterprise Data Management (EDM) is een belangrijk proces in big data voor inzicht in en controle over de economische aspecten van gegevens in uw onderneming of organisatie. Hoewel EDM niet vereist is voor big data, zal de juiste toepassing van EDM bijdragen aan een betere integratie, controle en bruikbaarheid van big data. EDM is een alomvattende aanpak voor ...
Wat is een relationeel databasebeheersysteem? - dummies
Vergeet alles over de wiskundige grondslagen van het relationele model, de principes van normalisatie en andere zeer technische aspecten van RDBMSs. Als u geïnteresseerd bent, raadpleeg dan een van de vele beschikbare studieboeken waarin de principes en technologie van RDBMS uitvoerig worden besproken. Een RDBMS is een softwaresysteem dat relationele databases beheert. Dus, wat is een relationele database? ...
Wat moet het management weten over gegevensopslag? - dummies
Ergens in uw organisatiehiërarchie heeft iemand controle over gebudgetteerde fondsen die hij of zij kan toewijzen aan uw data warehousing-project of aan een ander project elders in de organisatie, om hoofdapparatuur aan te schaffen (meer computers, bijvoorbeeld ), of om een ander doel te betalen. Wie moet er worden verkocht in het data warehousing-project ...
Experimenteren met Direct Marketing - dummies
Misschien wel de meest gebruikte toepassing voor experimenten in datamining, legitieme gecontroleerde experimenten net zoals degenen dat wetenschappers gebruiken, is direct marketing. Direct marketing houdt in dat u contact moet opnemen met individuele personen. Wanneer u een tekst of een e-mail van een verkoper ontvangt, is dat direct marketing. Traditionele postordercatalogi, telefoontjes van liefdadigheidsinstellingen en campagneletters van ...
Wat te zetten in een datamart - dummies
Als een datamart een kleinschalige versie is van een datawarehouse, komt deze vraag naar voren: wat betekent "kleinere schaal" met betrekking tot de inhoud van een datamart? Het antwoord op deze vraag is meestal dat de gegevens een subset van de algemene bedrijfsgegevens zijn. Geografiegegrensde data Een datamart kan ...
Waarom de cloud imperatief is voor Big Data - dummies
Er bestaan talloze combinaties van implementatie- en leveringsmodellen voor grote gegevens in de cloud. U kunt bijvoorbeeld een openbare cloud IaaS of een private cloud IaaS gebruiken. Wat betekent dit voor big data en waarom past de cloud er goed bij? Welnu, big data vereist gedistribueerde clusters van rekenkracht, ...
Uitbreiden van uw gegevenslaag met NoSQL - dummies
Een database doet één ding heel goed: het slaat gegevens op. Omdat alle applicaties echter aanvullende software nodig hebben, is het de moeite waard ervoor te zorgen dat uw geselecteerde NoSQL-database beschikt over de tools en partnersoftware die de uitgebreide functionaliteit biedt die u nodig hebt. Niet garanderen dat uitgebreide functionaliteit wordt ondersteund, betekent dat je uiteindelijk gaat installeren ...
Hoe het aantal elementen in een datastream te vinden - dummies
Ook al is een Bloom filter kan objecten volgen die uit een stream komen, het kan niet zeggen hoeveel objecten er zijn. Een bitvector gevuld door enen kan (afhankelijk van het aantal hashes en de kans op een botsing) het ware aantal hash-objecten op hetzelfde adres verbergen. Het onderscheiden aantal weten ...
Gegevens correct formatteren - dummies
Mensen gebruiken ervaring wanneer zij de gegevens interpreteren die ze zien, maar computers niet. Uw datamining-software zal zijn best doen om het soort gegevens in elke kolom te identificeren, maar gegevenstypen zijn vaak dubbelzinnig. Wanneer u een lijst met ZIP-codes ziet, probeert u ze niet toe te voegen en af te trekken. U weet dat zij ...
Vijf Big Data Best Practices - dummies
Big data bevindt zich nog maar in de beginfase, maar het is nooit te vroeg om aan de slag met best practices. Zoals met elke belangrijke aankomende technologie, is het belangrijk om een strategie te hebben en te weten waar je naartoe gaat. Stel een big data-wegenkaart op In deze fase experimenteer je met big data ...
Vijf plannen voor succes met grote gegevens - dummies
Terwijl big data zich nog maar in de eerste fasen bevindt, wilt u plannen voor succes. Het is nooit te vroeg om te beginnen met plannen en goede praktijken, zodat u kunt profiteren van wat u leert en de ervaring die u opdoet. Plan uw big data-doelen Veel organisaties beginnen hun big data-reis ...
Grafieken als algoritmische datastructuren - dummies
Grafieken zijn een vorm van gemeenschappelijke datastructuur die wordt gebruikt in algoritmen. U ziet grafieken die worden gebruikt in plaatsen zoals kaarten voor GPS en allerlei andere plaatsen waar de top-down benadering van een boomstructuur niet zal werken. Een grafiek is een soort van boomextensie. Net als bij bomen, hebt u knooppunten die verbinding maken ...
3 Hadoop Clusterconfiguraties - dummies
Veel van de beslissingen die u moet nemen in termen van samenstelling van rekken en netwerken zijn afhankelijk van de schaal van uw Hadoop-cluster. Het heeft drie belangrijke permutaties.
Algoritmen in bedrijf nemen - dummies
Het menselijk ras bevindt zich nu op een ongelooflijke kruising van ongekende hoeveelheden gegevens, gegenereerd door steeds meer kleinere en krachtige hardware, en geanalyseerd door algoritmen die ditzelfde proces heeft helpen ontwikkelen. Het is niet alleen een kwestie van volume, wat op zichzelf een moeilijke uitdaging is. Zoals geformaliseerd door het onderzoeksbureau Gartner in 2001 en ...
Apache Boor - dummies
Apache Boor is een kandidaat-project in de Apache incubator. Apache Drill is echter niet bijzonder ziekelijk. De kandidaat-technologieën van de Apache Software Foundation (ASF) beginnen allemaal als incubatorprojecten voordat ze officiële ASF-technologieën worden. U kunt lezen over de Apache Incubator. Je kunt over Drill lezen. Geïnspireerd door de Dremel-technologie van Google, is het vermelde prestatiedoel voor ...
Apache Bigtop en Hadoop - dummies
Om u te helpen aan de slag te gaan met Hadoop, hier vindt u instructies voor het snel downloaden en instellen up Hadoop op je eigen laptop. Uw cluster zal in een pseudo-gedistribueerde modus op een virtuele machine worden uitgevoerd, dus u hebt geen speciale hardware nodig. Een virtuele machine (VM) is een gesimuleerde computer waarop u kunt werken ...
Cloudera Impala en Hadoop - dummies
Cloudera is een toonaangevende Apache Hadoop-software- en -serviceprovider in de big data-markt. Net als Apache Drill probeert de Impala-technologie van Cloudera de reactietijd van interactieve query's voor Hadoop-gebruikers te verbeteren. Apache Hive heeft een bekend en krachtig query-mechanisme voor Hadoop-gebruikers opgeleverd, maar de responstijden zijn vaak onaanvaardbaar vanwege de afhankelijkheid van Hive ...
ACID versus BASE-gegevensopslag - dummies
Een kenmerk van relationele databasesystemen is bekend als ACID-conformiteit. Zoals je misschien al geraden hebt, is ACID een acroniem - de individuele letters, bedoeld om een kenmerk van individuele databasetransacties te beschrijven, kunnen worden uitgebreid zoals beschreven in deze lijst: Atomiciteit: de databasetransactie moet volledig slagen of volledig mislukken. Gedeeltelijk succes is ...
Configureren van Oozie-workflows - dummies
Als een workflow-engine, kunt u met Oozie een set Hadoop-toepassingen uitvoeren in een opgegeven volgorde die bekend is als een workflow. U kunt Oozie-workflows op drie manieren configureren, afhankelijk van uw specifieke omstandigheden. U kunt de config-standaard gebruiken. xml-bestand: definieert parameters die niet veranderen voor de workflow. De baan. properties file: Defines ...
10 Hadoop-bronnen die de moeite waard zijn als een bladwijzer - dummies
Volgen zijn tien geweldige Hadoop-bronnen die het waard zijn om een bladwijzer in uw browser. Met deze bronnen kunt u een plan voor een leven lang leren opstellen voor Hadoop. Centraal zenuwstelsel: Apache. org De Apache Software Foundation (ASF) is de centrale community voor open source softwareprojecten. Niet zomaar een project kan een Apache-project zijn - ...
Gegevenstransformatie in Hadoop - dummies
Het idee van op Hadoop geïnspireerde ETL-motoren heeft de afgelopen jaren veel tractie gewonnen. Per slot van rekening is Hadoop een flexibel platform voor gegevensopslag en -verwerking dat enorme hoeveelheden gegevens en bewerkingen op die gegevens kan ondersteunen. Tegelijkertijd is het fouttolerant en biedt het de mogelijkheid voor kapitaal- en softwarekosten ...
Gegevensblokken in het Hadoop Distributed File System (HDFS) - dummies
Wanneer u een bestand in HDFS, splitst het systeem het op in een set individuele blokken en slaat deze blokken op in verschillende slaafknooppunten in het Hadoop-cluster. Dit is normaal, omdat alle bestandssystemen bestanden in blokken onderverdelen voordat ze op schijf worden opgeslagen. HDFS heeft geen ...
Data Warehouse Modernisation met Hadoop - dummies
Data warehouses staan nu onder druk, in een poging om te gaan met hogere eisen aan hun eindige middelen. Hadoop kan aanzienlijke opluchting bieden in deze datawarehouse-situatie. De snelle toename van de hoeveelheid gegevens die in de wereld wordt gegenereerd, heeft ook gevolgen gehad voor datawarehouses omdat de hoeveelheid gegevens die ze beheren toeneemt, deels omdat ...
Ooozie-workflows ontwikkelen in Hadoop - dummies
Oozie-workflows vormen in de kern gerichte grafieken, waarin u acties kunt definiëren (Hadoop-toepassingen) en gegevensstroom, maar zonder lus - wat betekent dat je geen structuur kunt definiëren waarin je een specifieke bewerking steeds opnieuw uitvoert totdat aan een of andere voorwaarde is voldaan (bijvoorbeeld een for-lus). Oozie-workflows zijn vrij flexibel in die zin dat ...
Vergeleken met Hadoop-distributies - dummies
Zult u ontdekken dat het Hadoop-ecosysteem vele componenten heeft, die allemaal als hun eigen bestaan bestaan Apache-projecten. Omdat Hadoop aanzienlijk is gegroeid en nog enkele belangrijke verdere wijzigingen heeft ondergaan, zijn verschillende versies van deze open source communityonderdelen mogelijk niet volledig compatibel met andere componenten. Dit levert aanzienlijke problemen op voor mensen die op zoek zijn naar ...
Factoren die de schaal van statistische analyse in Hadoop vergroten - dummies
De reden dat mensen hun gegevens samplen voor het uitvoeren van de statistische analyse in Hadoop is dit soort analyse vaak aanzienlijke computerresources nodig. Dit gaat niet alleen om gegevensvolumes: er zijn vijf belangrijke factoren die de schaal van statistische analyse beïnvloeden: deze is eenvoudig, maar we moeten het vermelden: de hoeveelheid gegevens op ...
Gegevens comprimeren in Hadoop - dummies
De enorme datavolumes die realiteit zijn in een typische Hadoop-implementatie maken compressie een noodzaak. Datacompressie bespaart u beslist veel opslagruimte en zal de beweging van die gegevens in uw cluster zeker versnellen. Het is niet verrassend dat een aantal beschikbare compressieschema's, codecs genaamd, beschikbaar zijn voor ...
Hadapt en Hadoop - dummies
Eind van het jaar 2010, werd Hadapt opgericht als een start-up door twee Yale University-studenten en een assistent-professor in de informatica. Professor Daniel Abadi en Kamil Bajda-Pawlikowski, een promovendus van de afdeling informatica van Yale, hadden aan het onderzoeksproject HadoopDB gewerkt. Nadat dit artikel werd gepubliceerd, Justin Borgman, een student van ...
Google Dremel en Hadoop - dummies
Voor de meeste mensen doet de term Dremel denken aan een handig, snel, koppelgereedschap dat goed werkt voor een verscheidenheid aan klussen in en rond het huis. Maar wist u dat Google een Dremel heeft gemaakt? In plaats van een ander mechanisch hulpmiddel te produceren, koos Google echter voor een snelle softwaretool die is bedoeld voor interactieve analyse van big data. ...