Analyse en extractie technieken voor big data - dummies

Over het algemeen gebruiken tekstanalyseoplossingen voor big data een combinatie van statistische en Natural Language Processing (NLP) -technieken om informatie uit ongestructureerde gegevens te extraheren. NLP is een breed en complex veld dat zich de afgelopen 20 jaar heeft ontwikkeld.

Een primaire doelstelling van NLP is om betekenis uit tekst te halen. Natuurlijke taalverwerking maakt in het algemeen gebruik van taalkundige concepten zoals grammaticale structuren en delen van spraak. Het idee achter dit type analyses is vaak om te bepalen wie wat deed met wie, wanneer, waar, hoe en waarom.

NLP voert tekstanalyse uit op verschillende niveaus:

Lexicale / morfologische analyse onderzoekt de kenmerken van een individueel woord - inclusief voorvoegsels, achtervoegsels, wortels en delen van spraak (zelfstandig naamwoord, werkwoord, bijvoeglijk naamwoord, enzovoort) - informatie die bijdraagt aan het begrip van wat het woord betekent in de context van de verstrekte tekst. Lexicale analyse is afhankelijk van een woordenboek, thesaurus of een woordenlijst met informatie over die woorden.
Syntactische analyse gebruikt grammaticale structuur om de tekst te ontleden en individuele woorden in context te plaatsen. Hier verruim je je blik van een enkel woord naar de zin of de volledige zin. Deze stap kan een diagram zijn van de relatie tussen woorden (de grammatica) of zoeken naar reeksen woorden die correcte zinnen vormen of naar reeksen getallen die datums of geldwaarden vertegenwoordigen.
Semantische analyse bepaalt de mogelijke betekenissen van een zin. Dit kan het onderzoeken van de woordvolgorde en zinsstructuur en het loskoppelen van woorden omvatten door de syntaxis in de zinnen, zinnen en alinea's te relateren.
Op discoureniveau-analyse wordt geprobeerd de betekenis van tekst boven het zinsniveau te bepalen.

Begrijp de geëxtraheerde informatie van big data

Bepaalde technieken, gecombineerd met andere statistische of linguïstische technieken om het taggen en opmaken van tekstdocumenten te automatiseren, kunnen de volgende soorten informatie extraheren:

Termen: Nog een naam voor trefwoorden.
Entiteiten: Vaak genoemde entiteiten genoemd, dit zijn specifieke voorbeelden van abstracties. Voorbeelden zijn namen van personen, namen van bedrijven, geografische locaties, contactgegevens, datums, tijden, valuta, titels en posities, enzovoort. Tekstanalysesoftware kan bijvoorbeeld de entiteit Jane Doe extraheren als een persoon waarnaar wordt verwezen in de tekst die wordt geanalyseerd. De entiteit 3 maart 2007 kan worden geëxtraheerd als een datum, enzovoort.
Feiten: Ook wel relaties genoemd, geven feiten aan over de wie / wat / waar relaties tussen twee entiteiten. John Smith is de CEO van bedrijf Y en aspirine vermindert koorts zijn voorbeelden van feiten.
Events: Hoewel sommige experts de termen fact , relatie , en event door elkaar gebruiken, maken anderen onderscheid tussen gebeurtenissen en feiten, verklaren dat gebeurtenissen meestal een tijdsdimensie bevatten en vaak ertoe leiden dat feiten veranderen. Voorbeelden hiervan zijn een verandering in het management binnen een bedrijf of de status van een verkoopproces.
Concepten: Dit zijn verzamelingen woorden en woordgroepen die een bepaald idee of onderwerp aanduiden waarmee de gebruiker zich bezighoudt. Het concept ongelukkige klant kan bijvoorbeeld de woorden boos, teleurgesteld, en verward bevatten en de zinnen de verbinding verbreken, niet teruggebeld, en verspilling van geld - onder vele anderen. Zo kan het concept ongelukkige klant worden geëxtraheerd zonder dat de woorden niet-tevreden of klant in de tekst voorkomen.
Sentimenten: Sentimentanalyse wordt gebruikt om gezichtspunten of emoties in de onderliggende tekst te identificeren. Sommige technieken doen dit door tekst te classificeren als, bijvoorbeeld, subjectief (mening) of objectief (feit), met behulp van machine-learning of NLP-technieken. Sentimentanalyse is erg populair geworden in toepassingen van 'stem van de klant'.

Big data-taxonomieën

Taxonomieën zijn vaak essentieel voor tekstanalyse. Een taxonomie is een methode voor het organiseren van informatie in hiërarchische relaties. Er wordt soms naar verwezen als een manier om categorieën te organiseren. Omdat een taxonomie de relaties definieert tussen de termen die een bedrijf gebruikt, wordt het gemakkelijker om tekst te vinden en vervolgens te analyseren.

Een telecommunicatieserviceprovider biedt bijvoorbeeld zowel een bekabelde als een draadloze service. Binnen de draadloze dienst kan het bedrijf mobiele telefoons en internettoegang ondersteunen. Het bedrijf kan dan twee of meer manieren hebben om mobiele telefoondiensten te categoriseren, zoals plannen en telefoontypen. De taxonomie kan helemaal tot aan de delen van een telefoon zelf reiken.

Taxonomieën kunnen ook synoniemen en alternatieve expressies gebruiken, waarbij wordt erkend dat mobiel, mobiele telefoon en mobiele telefoon allemaal hetzelfde zijn. Deze taxonomieën kunnen vrij complex zijn en het kan lang duren om zich te ontwikkelen.