Raw-gegevens converteren naar een Matrix voor voorspellende analyse - dummies

Video: How to Import-Convert Data from Word Document into Excel worksheet 2024

Voordat u groepen met vergelijkbare gegevensitems uit uw gegevensset kunt extraheren voor uw voorspellende analyseproject, moet u mogelijk uw gegevens in een tabel weergeven formaat bekend als een gegevensmatrix . Dit is een voorbewerkingstap die voorafgaat aan gegevensclustering.

Een voorspellende analysematrix maken van termen in documenten

Stel dat de gegevensset die u wilt analyseren zich in een reeks Microsoft Word-documenten bevindt. Het eerste dat u hoeft te doen, is de set documenten omzetten in een gegevensmatrix. Verschillende commerciële en opensourcehulpmiddelen kunnen die taak aan, waarbij een matrix wordt gegenereerd, waarbij elke rij overeenkomt met een document in de gegevensset. Voorbeelden van deze hulpprogramma's zijn RapidMiner- en R-mijnbouwpakketten.

Een document is in wezen een reeks woorden. Een term is een set van een of meerdere woorden.

Elke term die een document bevat, wordt één of meerdere keren in hetzelfde document vermeld. Het aantal keren dat een term in een document wordt vermeld, kan worden weergegeven door termijnfrequentie (TF), een numerieke waarde.

We construeren de matrix van termen in het document als volgt:

De termen die in alle documenten voorkomen, worden in de bovenste rij weergegeven.
Documenttitels worden weergegeven in de meest linkse kolom
De cijfers die in de matrixcellen verschijnen, komen overeen met de frequentie van elke term.

Document A wordt bijvoorbeeld weergegeven als een verzameling getallen (5, 16, 0, 19, 0, 0.) waarbij 5 overeenkomt met het aantal keren dat de term voorspellende analyse wordt herhaald, 16 komt overeen met het aantal keren dat informatica wordt herhaald, enzovoort. Dit is de eenvoudigste manier om een set documenten om te zetten in een matrix.

Predictive Analytics	Computerwetenschappen	Leren	Clustering	2013	Anthropology
Document A	5	16	0 < 19	0	0	Document B
8	6	2	3	0	0	Document C
0 < 5	2	3	3	9	Document D	1
9	13	4	6	7 > Document E	2	16
16	0	2	13	Document F	13	0
19	16 > 4	2	Grondbeginselen van predictieve analyse term selectie	Een uitdaging bij het clusteren van tekstdocumenten is het bepalen hoe de beste termen moeten worden geselecteerd voor alle documenten in de verzameling. Hoe belangrijk een term in een verzameling documenten is, kan op verschillende manieren worden berekend.	Als u bijvoorbeeld het aantal keren telt dat een term in een document wordt herhaald en dat totaal vergelijkt met hoe vaak het in de hele verzameling wordt herhaald, krijgt u een idee van het belang van de term ten opzichte van andere termen.	Het relatieve belang van een term op de frequentie in een verzameling baseren, staat vaak bekend als

weging

. Het gewicht dat u toewijst, kan op twee principes zijn gebaseerd:

Termen die meerdere keren in een document voorkomen, zijn favoriet boven voorwaarden die slechts één keer voorkomen.

Termen die in relatief weinig documenten worden gebruikt, hebben de voorkeur boven voorwaarden die in alle documenten worden genoemd. Als (bijvoorbeeld) de term eeuw

wordt vermeld in alle documenten in uw gegevensset, zou u misschien niet kunnen overwegen om er voldoende gewicht toe te kennen om een eigen kolom in de matrix te hebben.
Evenzo, als u te maken hebt met een dataset van gebruikers van een online sociaal netwerk, kunt u die dataset eenvoudig omzetten in een matrix. Gebruikersnamen of namen nemen de rijen in beslag; in de kolommen worden functies weergegeven die deze gebruikers het beste beschrijven.