Huis Persoonlijke financiën Een voorspellend analysemodel maken met R-regressie - dummies

Een voorspellend analysemodel maken met R-regressie - dummies

Video: Wat Zijn Voorspellende Dromen!? 2024

Video: Wat Zijn Voorspellende Dromen!? 2024
Anonim

U wilt een voorspellend analysemodel maken dat u kunt evalueren met behulp van bekende resultaten. Om dat te doen, gaan we onze dataset opsplitsen in twee sets: een voor het trainen van het model en een voor het testen van het model. Een verdeling van 70/30 tussen gegevensreeksen voor training en testen is voldoende. De volgende twee coderegels berekenen en bewaren de groottes van elke set: >> trainSize testSize <- nrow (autos) - trainSize

Typ de naam van de variabele die is gebruikt om de waarde op te slaan en de waarden uit te voeren druk op Enter. Dit is de uitvoer:

>> trainSize [1] 279> testSize [1] 119

Deze code bepaalt de grootte van de datasets die u van plan bent om onze trainings- en testdatasets te maken. Je hebt deze sets nog steeds niet echt gemaakt. Ook wil je niet gewoon de eerste 279 observaties de trainingsset noemen en de laatste 119 waarnemingen de testreeks noemen. Dat zou een slecht model creëren omdat de dataset geordend lijkt te zijn. Concreet wordt de kolom modeljaar geordend van klein tot groot.

Als u de gegevens bekijkt, kunt u zien dat de meeste zware, achtcilinder, grotere verplaatsingen en grotere pk-auto's zich bovenaan de dataset bevinden. Op basis van deze waarneming, zonder dat u algoritmen op de gegevens hoeft te draaien, kunt u al (in het algemeen voor deze dataset) oudere auto's als volgt in vergelijking met nieuwere auto's onderscheiden:

Zijn zwaarder

hebben acht cilinders

  • grotere verplaatsing

  • Heb grotere pk

    Oké, natuurlijk weten veel mensen iets over auto's, dus een schatting van wat de correlaties zijn, zal niet al te vergezocht zijn nadat je de gegevens hebt gezien. Iemand met veel kennis van de auto heeft dit misschien al geweten, zelfs zonder naar de gegevens te kijken.
  • Dit is slechts een eenvoudig voorbeeld van een domein (auto's) waar veel mensen zich mee kunnen identificeren. Als dit echter gegevens over kanker waren, zouden de meeste mensen niet meteen begrijpen wat elke eigenschap betekent.

Dit is waar een domeinexpert en een gegevensmodelmaker van vitaal belang zijn voor het modelleringsproces. Domeinexperts hebben mogelijk de beste kennis van welke attributen het meest (of minst) belangrijk zijn - en hoe attributen met elkaar correleren.

Ze kunnen aan de gegevensmodelmaker voorstellen met welke variabelen ze moet experimenteren. Ze kunnen grotere gewichten geven aan belangrijkere attributen en / of kleinere gewichten aan attributen van het minste belang (of ze helemaal verwijderen).

Dus je moet een trainingsgegevensset en een testgegevensset maken die echt representatief zijn voor de hele set. Een manier om dit te doen is om de trainingsset te maken op basis van een willekeurige selectie van de volledige gegevensset.Bovendien wilt u deze test reproduceerbaar maken, zodat u van hetzelfde voorbeeld kunt leren.

Stel dus het zaad voor de willekeurige generator in, zodat we dezelfde "willekeurige" trainingsset hebben. De volgende code doet die taak: >> instellen. seed (123)> trainings_indices <- sample (seq_len (nrow (autos)), size = trainSize)> trainSet testSet <- autos [-training_indices,]

De trainingsset bevat 279 waarnemingen, samen met de uitkomst (mpg) van elke waarneming. Het regressie-algoritme gebruikt de uitkomst om het model te trainen door te kijken naar de relaties tussen de voorspellingsvariabelen (een van de zeven kenmerken) en de responsvariabele (mpg).

De testset bevat de rest van de gegevens (dat is het gedeelte dat niet is opgenomen in de trainingsset). U zou moeten opmerken dat de testset ook de variabele respons (mpg) omvat. 

Wanneer u de voorspelfunctie (van het model) met de testset gebruikt, negeert deze de reactievariabele en gebruikt alleen de voorspellingsvariabelen zolang de kolomnamen dezelfde zijn als die in de trainingsset.

Om een ​​lineair regressiemodel te maken dat het mpg-kenmerk gebruikt als de reactievariabele en alle andere variabelen als voorspellingsvariabelen, typt u de volgende regel code in: >> model

Een voorspellend analysemodel maken met R-regressie - dummies

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...