Video: Help for hacked sites: Overview 2024
Een aantal bedrijven investeert zwaar om open source-projecten en eigen oplossingen voor SQL-toegang tot Hadoop-gegevens aan te drijven. Wanneer u de term SQL-toegang hoort, , moet u weten dat u op een paar basisaannames vertrouwt:
-
Taalstandaarden: De belangrijkste norm is natuurlijk de taal zelf. Er bestaan veel 'SQL-achtige' oplossingen, hoewel ze meestal niet op een aantal fundamentele manieren worden gemeten - manieren die zelfs voorkomen dat typische SQL-instructies werken.
Het American National Standards Institute (ANSI) heeft SQL als een officiële technische norm opgesteld en de IT-industrie accepteert de ANSI SQL-92-standaard als de benchmark voor standaard SQL-compliance. ANSI heeft in de loop van de jaren een aantal geleidelijk geavanceerdere versies vrijgegeven naarmate de databasetechnologie is geëvolueerd.
-
Stuurprogramma's: Een ander belangrijk onderdeel van een SQL-toegangsoplossing is het stuurprogramma - de interface voor toepassingen om verbinding te maken en gegevens uit te wisselen met de gegevensopslag. Zonder stuurprogramma is er geen SQL-interface voor clienttoepassingen of hulpmiddelen waarmee u verbinding kunt maken voor het indienen van SQL-query's.
Als zodanig moet elke SQL-oplossing op Hadoop JDBC- en ODBC-stuurprogramma's op zijn minst hebben, omdat dit de meest gebruikte database-interfacetechnologieën zijn.
-
Realtime toegang: Tot Hadoop 2 was op MapReduce gebaseerde uitvoering de enige beschikbare optie voor analyse met gegevens die zijn opgeslagen in Hadoop. Voor relatief eenvoudige vragen met betrekking tot een volledige scan van gegevens in een tabel, Hadoop was vrij snel in vergelijking met een traditionele relationele database.
Houd er rekening mee dat dit een geval van batchanalyse is, waarbij snel uren kan betekenen, afhankelijk van de hoeveelheid gegevens. Maar als het ging om complexere vragen, waarbij subsets met gegevens betrokken waren, deed Hadoop het niet goed. MapReduce is een batchverwerkingsraamwerk, dus het bereiken van hoge prestaties voor real-time vragen voordat Hadoop 2 architectonisch onmogelijk was.
Een vroege motivator voor YARN, het nieuwe systeem voor resourcebeheer en -planning in het blok, was deze behoefte om andere verwerkingsframeworks te ondersteunen om real-time workloads mogelijk te maken, zoals interactieve SQL-query's. Inderdaad, een goede SQL-oplossing moet mensen niet laten wachten op redelijke vragen.
-
Veranderlijke gegevens: Een veel voorkomende vraag in veel discussies over SQL-ondersteuning op Hadoop is "Kunnen we, en uitspraken gebruiken, zoals we zouden kunnen doen in een typische relationele database? "Voor nu is het antwoord nee, wat de aard van HDFS weerspiegelt - het is gericht op grote, onveranderlijke bestanden.Technologieën zoals Hive bieden alleen-lezen toegang tot deze bestanden. Hoe dan ook, er wordt gewerkt aan het Hive Apache-project.