Huis Persoonlijke financiën Analyse en extractie technieken voor big data - dummies

Analyse en extractie technieken voor big data - dummies

Inhoudsopgave:

Video: Comment faire une analyse de sol facilement ? 2024

Video: Comment faire une analyse de sol facilement ? 2024
Anonim

Over het algemeen gebruiken tekstanalyseoplossingen voor big data een combinatie van statistische en Natural Language Processing (NLP) -technieken om informatie uit ongestructureerde gegevens te extraheren. NLP is een breed en complex veld dat zich de afgelopen 20 jaar heeft ontwikkeld.

Een primaire doelstelling van NLP is om betekenis uit tekst te halen. Natuurlijke taalverwerking maakt in het algemeen gebruik van taalkundige concepten zoals grammaticale structuren en delen van spraak. Het idee achter dit type analyses is vaak om te bepalen wie wat deed met wie, wanneer, waar, hoe en waarom.

NLP voert tekstanalyse uit op verschillende niveaus:

  • Lexicale / morfologische analyse onderzoekt de kenmerken van een individueel woord - inclusief voorvoegsels, achtervoegsels, wortels en delen van spraak (zelfstandig naamwoord, werkwoord, bijvoeglijk naamwoord, enzovoort) - informatie die bijdraagt ​​aan het begrip van wat het woord betekent in de context van de verstrekte tekst. Lexicale analyse is afhankelijk van een woordenboek, thesaurus of een woordenlijst met informatie over die woorden.

  • Syntactische analyse gebruikt grammaticale structuur om de tekst te ontleden en individuele woorden in context te plaatsen. Hier verruim je je blik van een enkel woord naar de zin of de volledige zin. Deze stap kan een diagram zijn van de relatie tussen woorden (de grammatica) of zoeken naar reeksen woorden die correcte zinnen vormen of naar reeksen getallen die datums of geldwaarden vertegenwoordigen.

  • Semantische analyse bepaalt de mogelijke betekenissen van een zin. Dit kan het onderzoeken van de woordvolgorde en zinsstructuur en het loskoppelen van woorden omvatten door de syntaxis in de zinnen, zinnen en alinea's te relateren.

  • Op discoureniveau-analyse wordt geprobeerd de betekenis van tekst boven het zinsniveau te bepalen.

Begrijp de geëxtraheerde informatie van big data

Bepaalde technieken, gecombineerd met andere statistische of linguïstische technieken om het taggen en opmaken van tekstdocumenten te automatiseren, kunnen de volgende soorten informatie extraheren:

  • Termen: Nog een naam voor trefwoorden.

  • Entiteiten: Vaak genoemde entiteiten genoemd, dit zijn specifieke voorbeelden van abstracties. Voorbeelden zijn namen van personen, namen van bedrijven, geografische locaties, contactgegevens, datums, tijden, valuta, titels en posities, enzovoort. Tekstanalysesoftware kan bijvoorbeeld de entiteit Jane Doe extraheren als een persoon waarnaar wordt verwezen in de tekst die wordt geanalyseerd. De entiteit 3 maart 2007 kan worden geëxtraheerd als een datum, enzovoort.

  • Feiten: Ook wel relaties genoemd, geven feiten aan over de wie / wat / waar relaties tussen twee entiteiten. John Smith is de CEO van bedrijf Y en aspirine vermindert koorts zijn voorbeelden van feiten.

  • Events: Hoewel sommige experts de termen fact , relatie , en event door elkaar gebruiken, maken anderen onderscheid tussen gebeurtenissen en feiten, verklaren dat gebeurtenissen meestal een tijdsdimensie bevatten en vaak ertoe leiden dat feiten veranderen. Voorbeelden hiervan zijn een verandering in het management binnen een bedrijf of de status van een verkoopproces.

  • Concepten: Dit zijn verzamelingen woorden en woordgroepen die een bepaald idee of onderwerp aanduiden waarmee de gebruiker zich bezighoudt. Het concept ongelukkige klant kan bijvoorbeeld de woorden boos, teleurgesteld, en verward bevatten en de zinnen de verbinding verbreken, niet teruggebeld, en verspilling van geld - onder vele anderen. Zo kan het concept ongelukkige klant worden geëxtraheerd zonder dat de woorden niet-tevreden of klant in de tekst voorkomen.

  • Sentimenten: Sentimentanalyse wordt gebruikt om gezichtspunten of emoties in de onderliggende tekst te identificeren. Sommige technieken doen dit door tekst te classificeren als, bijvoorbeeld, subjectief (mening) of objectief (feit), met behulp van machine-learning of NLP-technieken. Sentimentanalyse is erg populair geworden in toepassingen van 'stem van de klant'.

Big data-taxonomieën

Taxonomieën zijn vaak essentieel voor tekstanalyse. Een taxonomie is een methode voor het organiseren van informatie in hiërarchische relaties. Er wordt soms naar verwezen als een manier om categorieën te organiseren. Omdat een taxonomie de relaties definieert tussen de termen die een bedrijf gebruikt, wordt het gemakkelijker om tekst te vinden en vervolgens te analyseren.

Een telecommunicatieserviceprovider biedt bijvoorbeeld zowel een bekabelde als een draadloze service. Binnen de draadloze dienst kan het bedrijf mobiele telefoons en internettoegang ondersteunen. Het bedrijf kan dan twee of meer manieren hebben om mobiele telefoondiensten te categoriseren, zoals plannen en telefoontypen. De taxonomie kan helemaal tot aan de delen van een telefoon zelf reiken.

Taxonomieën kunnen ook synoniemen en alternatieve expressies gebruiken, waarbij wordt erkend dat mobiel, mobiele telefoon en mobiele telefoon allemaal hetzelfde zijn. Deze taxonomieën kunnen vrij complex zijn en het kan lang duren om zich te ontwikkelen.

Analyse en extractie technieken voor big data - dummies

Bewerkers keuze

Setup Menu 3 op de Rebel T6i / 750D - dummies

Setup Menu 3 op de Rebel T6i / 750D - dummies

Er wachten nogal wat aanpassingsmogelijkheden op de Setup-menu van de Rebel T6i / 750D 3. Setup-menu 3, weergegeven in de volgende afbeelding, bevat de volgende aanpassingsmogelijkheden: Schermkleur: standaard bevat het scherm Opname-instellingen opnamegegevens in het wit op een eenvoudige zwarte achtergrond. Er worden grijstinten in grijstinten gebruikt en accenten worden meestal oranje gemarkeerd. ...

Bewerkers keuze

Tekst invoeren en in een PowerPoint-dia passen - dummies

Tekst invoeren en in een PowerPoint-dia passen - dummies

Tekst aan een inhoud toevoegen tijdelijke aanduiding in Microsoft PowerPoint, klik op het gebied Klik om tekst toe te voegen en typ wat u wilt. Als u een ander type inhoud wilt toevoegen, klikt u op het pictogram in de tijdelijke aanduiding voor het gewenste type. Als u meer tekst typt dan in dat tekstvak past (vooral gebruikelijk voor ...

Voor senioren: de Prullenbak van uw computer leegmaken - dummies

Voor senioren: de Prullenbak van uw computer leegmaken - dummies

De Prullenbak op uw computer bevat onlangs verwijderde items. Uw oude bestanden bevinden zich in de Prullenbak en u kunt ze ophalen totdat u deze leegt of totdat deze de maximale maximale grootte heeft bereikt, en Windows automatisch enkele bestanden dumpt. Nadat u de Prullenbak hebt leeggemaakt, zijn alle bestanden daarin niet beschikbaar voor ...

Hoe tekst in te voeren in een Microsoft Office-document - dummies

Hoe tekst in te voeren in een Microsoft Office-document - dummies

Nadat u een document hebt gemaakt, bent u klaar om te beginnen met typen. Tekst op de pagina plaatsen (of op het scherm) is een beetje anders in elk van de drie grote Microsoft Office-toepassingen: Word, Excel en PowerPoint. Woord: Het belangrijkste werkgebied van het programma is een lege lei waarop u rechtstreeks kunt typen. Klik gewoon in de ...

Bewerkers keuze

Animatie maken met de HTML5-canvastag - dummies

Animatie maken met de HTML5-canvastag - dummies

Hoewel de HTML5-canvastag misschien niet als vervanging voor Flash als mechanisme voor het implementeren van games en animaties in de browser, is het redelijk eenvoudig om animaties aan een canvasafbeelding toe te voegen. De sleutel is om de animatiefuncties te gebruiken die al in de browser zijn ingebouwd. Basisstructuur van de animatielus in HTML5-canvas Een animatie ...

Hoe externe stijlen maken in CSS3 - dummies

Hoe externe stijlen maken in CSS3 - dummies

De meeste ontwikkelaars gebruiken externe stijlen in CSS3 om te verkleinen de hoeveelheid werk die nodig is om een ​​site te onderhouden. Een. CSS-bestand bevat alle stijlen voor de site, wat betekent dat het veranderen van een stijl voor de hele site net zo eenvoudig is als het veranderen van dat ene bestand (in plaats van elke pagina). Omdat de wijziging plaatsvindt in slechts ...

Hoe u volledige interactieve CSS3-toepassingen maakt met YUI - dummies

Hoe u volledige interactieve CSS3-toepassingen maakt met YUI - dummies

De Yahoo! Gebruikersinterface (YUI) -bibliotheek (Yuilibrary) is een complete ontwikkeling - API verwant met jQuery en jQuery UI CSS3 gecombineerd in sommige opzichten en rijker dan deze bibliotheken in andere. Dit is een complexe API die is ontworpen om aan de behoeften van grotere applicaties te voldoen. Eigenlijk moet je echt de tutorials doorlopen, ...