Video: Google I/O 2012 - Crunching Big Data with BigQuery 2024
Voor de meeste mensen doet de term Dremel denken aan een handig gereedschap met hoge snelheid en een laag koppel, dat goed werkt voor verschillende taken in en rond het huis. Maar wist u dat Google een Dremel heeft gemaakt? In plaats van een ander mechanisch hulpmiddel voor draagbare apparaten te produceren, koos Google een snelle softwaretool die is bedoeld voor interactieve analyse van big data.
Zoals met andere Google-technologieën die delen van het Hadoop-ecosysteem inspireerden, zoals MapReduce, Google File System (HDFS) en BigTable (zie HBase), ontwikkelde Google Dremel voor intern gebruik en publiceerde vervolgens een paper met een beschrijving van het doel en ontwerp van de technologie. (Met andere woorden, Dremel is niet iets dat u kunt downloaden en gebruiken op uw Hadoop-cluster.)
Google gebruikt Dremel voor verschillende taken, waaronder het analyseren van door web gecrawlde documenten, het detecteren van spam per e-mail, het verwerken van crashrapporten van toepassingen en meer. De BigQuery-service van Google gebruikt eigenlijk Dremel.
Google heeft de MapReduce-technologie ontworpen voor batchverwerking via enorme gegevenssets. Naarmate hun behoeften evolueerden, nam ook hun technologie toe en Google besloot om Dremel te creëren om de prestaties te verbeteren voor interactieve query's tegen big data-sets.
De MapReduce-benadering biedt schaalbaarheid en fouttolerantie voor query's, maar het is fundamenteel een op batch gebaseerd systeem, dus reactietijden voor kleinere query's (query's waarbij slechts een klein deel van een volledige gegevensset is betrokken). zijn vaak niet wat gebruikers verwachten.
Daarom ontwikkelde Google een technologie voor query-uitvoering die is ontworpen voor interactieve query's, die wordt uitgevoerd op tussenliggende servers bovenop het Google-bestandssysteem (GFS). (Denk eraan, GFS was de inspiratie voor Apache HDFS, dat het bestandssysteem van Hadoop is.)
Net als bij Hive gebruikt Dremel een SQL-achtige taal (bekend bij de meeste programmeurs) en gebruikt hij een kolomvormige gegevenslay-out. Dremel biedt een snelle, interactieve queryreactie terwijl de schaalbaarheid en fouttolerantie in Apache Hive behouden blijven. In de whitepaper van Dremel legt Google uit hoe het binnen enkele seconden aggregatiequery's over tabellen met een biljoen rijen kan uitvoeren - helemaal niet slecht.
Dus Google heeft zijn Dremel-technologie, die het intern gebruikt, maar dan zijn er alle technologieën "geïnspireerd door" Dremel (een beetje zoals al die parfums "geïnspireerd door" Drakkar Noir).