Video: Machine Learning with TensorFlow and PyTorch on Apache Hadoop using Cloud Dataproc (Cloud Next '19) 2024
Beeldclassificatie vereist een aanzienlijke hoeveelheid gegevensverwerkingsresources die echter de schaal van implementaties heeft beperkt. Beeldclassificatie is een hot topic in de Hadoop-wereld omdat geen enkele gangbare technologie in staat was - tot Hadoop kwam - deuren te openen voor dit soort dure verwerking op zo'n enorme en efficiënte schaal.
Afbeeldingsclassificatie begint met het idee dat u een trainingsset bouwt en dat computers leren identificeren en classificeren waarnaar ze kijken. Op dezelfde manier dat het hebben van meer gegevens helpt bij het bouwen van betere fraudedetectie- en risicomodellen, helpt het ook systemen om beelden beter te classificeren.
In dit geval worden de gegevens de trainingsset genoemd, evenals de modellen classificaties. Classifiers herkennen functies of patronen in geluid, afbeelding of video en classificeren deze op de juiste manier. Classifiers worden gebouwd en iteratief verfijnd van trainingssets zodat hun precisiescores (een mate van exactheid) en recall-scores (een mate van dekking) hoog zijn.
Hadoop is goed geschikt voor beeldclassificatie omdat het een massaal parallelle verwerkingsomgeving biedt om niet alleen classificatiemodellen te maken (iteratie van trainingsets), maar ook vrijwel onbeperkte schaalbaarheid biedt om die classificatoren te verwerken en uit te voeren in enorme sets ongestructureerde gegevensvolumes.
Denk aan multimediabronnen zoals YouTube, Facebook, Instagram en Flickr - allemaal bronnen van ongestructureerde binaire gegevens. De afbeelding toont een manier waarop u Hadoop kunt gebruiken om de verwerking van grote hoeveelheden opgeslagen afbeeldingen en video voor multimedia semantische classificatie te schalen.
U kunt zien hoe alle concepten met betrekking tot het Hadoop-verwerkingsraamwerk op deze gegevens worden toegepast. Merk op hoe afbeeldingen in HDFS worden geladen. De classificatiemodellen, gebouwd in de loop van de tijd, worden nu toegepast op de extra afbeeldingsfunctiecomponenten in de kaartfase van deze oplossing. Zoals je kunt zien in de rechterbenedenhoek, bestaat de uitvoer van deze verwerking uit beeldclassificaties die variëren van cartoons tot sport en locaties, onder andere.
Hadoop kan ook worden gebruikt voor audio- of spraakanalyse. Eén klant in de beveiligingsindustrie waarmee we werken, creëert een audiorubricatiesysteem om geluiden te classificeren die worden gehoord via akoestisch verrijkte glasvezelkabels die rond de perimeter van kernreactoren zijn gelegd.
Dit systeem weet bijvoorbeeld bijna onmiddellijk het gefluister van de wind te classificeren in vergelijking met het gefluister van een menselijke stem of om het geluid van menselijke voetstappen die in de omringende parken lopen te onderscheiden van die van dieren in het wild.
Deze beschrijving heeft misschien een Star Trek uitstraling, maar je kunt nu live voorbeelden zien. In feite maakt IBM een van de grootste beeldclassificatiesystemen ter wereld bekend, via het IBM Multimedia Analysis and Retrieval System (IMARS).
Dit is het resultaat van een IMARS-zoekopdracht voor de term alpineskiën. Bovenaan de afbeelding ziet u de resultaten van de classificatiemiddelen die zijn toegewezen aan de afbeeldingsset die door Hadoop is verwerkt, samen met een bijbehorende tagwolk.
Let op de meer grof gedefinieerde ouderclassifier, in tegenstelling tot de meer gedetailleerde. Merk in feite de meervoudige classificatieniveaus op: rollen naar, die rollen - allemaal automatisch gegenereerd door het classificatiemodel, gebouwd en gescoord met Hadoop.
Geen van deze afbeeldingen heeft toegevoegde metadata. Niemand heeft iPhoto geopend en een afbeelding getagd als een wintersport om het in deze classificatie te laten verschijnen. Het is de classificator voor de wintersport die is gebouwd om beeldkenmerken en kenmerken van sporten te herkennen die in een winteromgeving worden gespeeld.
Afbeeldingsclassificatie heeft veel toepassingen, en als u deze classificatie op grote schaal met Hadoop kunt uitvoeren, krijgt u meer analysemogelijkheden omdat andere toepassingen de classificatie-informatie kunnen gebruiken die voor de afbeeldingen is gegenereerd.
Bekijk dit voorbeeld van de gezondheidsindustrie. Een groot zorgkantoor in Azië was gericht op het leveren van gezondheidszorg via mobiele klinieken aan een plattelandsbevolking verdeeld over een grote landmassa. Een belangrijk probleem waarmee het bureau werd geconfronteerd, was de logistieke uitdaging van het analyseren van de medische beeldvormingsgegevens die werden gegenereerd in zijn mobiele klinieken.
Een radioloog is in dit deel van de wereld een schaars goed, dus het was logisch om de medische beelden elektronisch naar een centraal punt te verzenden en door een leger van artsen te laten onderzoeken. De artsen die de beelden bekeken, werden echter snel overbelast.
Het bureau werkt nu aan een classificatiesysteem om te helpen bij het identificeren van mogelijke voorwaarden om op een effectieve manier suggesties aan de artsen te verstrekken om te verifiëren. Vroege testen hebben deze strategie aangetoond om het aantal gemiste of onnauwkeurige diagnoses te helpen verminderen, waardoor tijd, geld en vooral levens worden bespaard.