Video: Compute-gemiddelde over meerdere vragen berekenen 2024
De eerste stap naar voorspellende modellering is het relateren van variabelen aan elkaar. Een eenvoudige, opmerkelijke tool daarvoor is de scatterplot. Het wordt gebruikt om de ene continue maat aan de andere te relateren. Gegevens mijnwerkers strekken soms de regels uit en gebruiken het ook met categorische variabelen.
De horizontale as x ) van de plot vertegenwoordigt waarden van één variabele; de verticale as ( y ) vertegenwoordigt een tweede variabele. U hebt misschien geen idee welke variabele onafhankelijk is en welke afhankelijk is voor elk paar variabelen.
Als dat gebeurt, moet de onafhankelijke variabele op de horizontale as staan. Elk punt in de plot vertegenwoordigt de coördinaten, het paar waarden voor de twee variabelen binnen één geval. (Deze paren worden soms xy paren ) genoemd.
Zoek uw scatterplot-gereedschap en stel een basis scatterplot-hulpmiddel in door twee te gebruiken variabelen te selecteren. De volgende afbeelding toont deze tool in het menu van Orange; de locatie van het gereedschap varieert per product.
Het voorbeeld in de volgende afbeelding toont een interactief scherm; de scatterplot verschijnt onmiddellijk. In een ander hulpprogramma hebt u mogelijk extra stappen nodig om het diagram uit te voeren en te maken.
Het scatterplot-voorbeeld koppelt auto-kilometers aan motorvermogen. Lage paardenkrachten worden geassocieerd met een hoge kilometerstand, en hoe hoger het aantal pk's, hoe lager de kilometerstand. Je kunt dit patroon gemakkelijk in de gegevens zien. Misschien ziet u een vorm, niet lineair maar enigszins gebogen. Dit kan hints geven over welke typen modellen u later kunt proberen.
Datamining-applicaties hebben vaak een aantal interactieve functies in grafische weergave. In de volgende afbeelding ziet u bijvoorbeeld dat wanneer u de muis boven een punt houdt, de exacte waarden van de twee variabelen voor dat punt worden onthuld. Dit is gemakkelijker dan de waarden van de assen proberen te lezen!