Huis Persoonlijke financiën Raw-gegevens converteren naar een Matrix voor voorspellende analyse - dummies

Raw-gegevens converteren naar een Matrix voor voorspellende analyse - dummies

Inhoudsopgave:

Video: How to Import-Convert Data from Word Document into Excel worksheet 2024

Video: How to Import-Convert Data from Word Document into Excel worksheet 2024
Anonim

Voordat u groepen met vergelijkbare gegevensitems uit uw gegevensset kunt extraheren voor uw voorspellende analyseproject, moet u mogelijk uw gegevens in een tabel weergeven formaat bekend als een gegevensmatrix . Dit is een voorbewerkingstap die voorafgaat aan gegevensclustering.

Een voorspellende analysematrix maken van termen in documenten

Stel dat de gegevensset die u wilt analyseren zich in een reeks Microsoft Word-documenten bevindt. Het eerste dat u hoeft te doen, is de set documenten omzetten in een gegevensmatrix. Verschillende commerciële en opensourcehulpmiddelen kunnen die taak aan, waarbij een matrix wordt gegenereerd, waarbij elke rij overeenkomt met een document in de gegevensset. Voorbeelden van deze hulpprogramma's zijn RapidMiner- en R-mijnbouwpakketten.

Een document is in wezen een reeks woorden. Een term is een set van een of meerdere woorden.

Elke term die een document bevat, wordt één of meerdere keren in hetzelfde document vermeld. Het aantal keren dat een term in een document wordt vermeld, kan worden weergegeven door termijnfrequentie (TF), een numerieke waarde.

We construeren de matrix van termen in het document als volgt:

  • De termen die in alle documenten voorkomen, worden in de bovenste rij weergegeven.

  • Documenttitels worden weergegeven in de meest linkse kolom

  • De cijfers die in de matrixcellen verschijnen, komen overeen met de frequentie van elke term.

Document A wordt bijvoorbeeld weergegeven als een verzameling getallen (5, 16, 0, 19, 0, 0.) waarbij 5 overeenkomt met het aantal keren dat de term voorspellende analyse wordt herhaald, 16 komt overeen met het aantal keren dat informatica wordt herhaald, enzovoort. Dit is de eenvoudigste manier om een ​​set documenten om te zetten in een matrix.

Predictive Analytics Computerwetenschappen Leren Clustering 2013 Anthropology
Document A 5 16 0 < 19 0 0 Document B
8 6 2 3 0 0 Document C
0 < 5 2 3 3 9 Document D 1
9 13 4 6 7 > Document E 2 16
16 0 2 13 Document F 13 0
19 16 > 4 2 Grondbeginselen van predictieve analyse term selectie Een uitdaging bij het clusteren van tekstdocumenten is het bepalen hoe de beste termen moeten worden geselecteerd voor alle documenten in de verzameling. Hoe belangrijk een term in een verzameling documenten is, kan op verschillende manieren worden berekend. Als u bijvoorbeeld het aantal keren telt dat een term in een document wordt herhaald en dat totaal vergelijkt met hoe vaak het in de hele verzameling wordt herhaald, krijgt u een idee van het belang van de term ten opzichte van andere termen. Het relatieve belang van een term op de frequentie in een verzameling baseren, staat vaak bekend als

weging

. Het gewicht dat u toewijst, kan op twee principes zijn gebaseerd:

Termen die meerdere keren in een document voorkomen, zijn favoriet boven voorwaarden die slechts één keer voorkomen.

Termen die in relatief weinig documenten worden gebruikt, hebben de voorkeur boven voorwaarden die in alle documenten worden genoemd. Als (bijvoorbeeld) de term eeuw

  • wordt vermeld in alle documenten in uw gegevensset, zou u misschien niet kunnen overwegen om er voldoende gewicht toe te kennen om een ​​eigen kolom in de matrix te hebben.

  • Evenzo, als u te maken hebt met een dataset van gebruikers van een online sociaal netwerk, kunt u die dataset eenvoudig omzetten in een matrix. Gebruikersnamen of namen nemen de rijen in beslag; in de kolommen worden functies weergegeven die deze gebruikers het beste beschrijven.

Raw-gegevens converteren naar een Matrix voor voorspellende analyse - dummies

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...