Video: Innovating to zero! | Bill Gates 2024
Om u te helpen statistische analyse met Excel te begrijpen, helpt het om de centrale limietstelling te simuleren. Het klinkt bijna niet goed. Hoe kan een populatie die niet normaal wordt verdeeld resulteren in een normaal verdeelde steekproefverdeling?
Om u een idee te geven van hoe de Centrale Limietstelling werkt, is er een simulatie. Deze simulatie creëert zoiets als een steekproefverdeling van het gemiddelde voor een zeer kleine steekproef, op basis van een populatie die normaal niet wordt gedistribueerd. Zoals u zult zien, hoewel de populatie geen normale verdeling is, en ook al is de steekproef klein, lijkt de steekproefverdeling van de gemiddelde nogal op een normale verdeling.
Stel je een enorme populatie voor die uit slechts drie scores bestaat - 1, 2 en 3 - en elk daarvan is waarschijnlijk ook in een steekproef te zien. Stel je ook voor dat je willekeurig een steekproef van drie scores uit deze populatie kunt selecteren.
Voorbeeld | Gemiddelde | Voorbeeld | Gemiddelde | Voorbeeld | Gemiddeld |
1, 1, 1 | 1. 00 | 2, 1, 1 | 1. 33 | 3, 1, 1 | 1. 67 |
1, 1, 2 | 1. 33 | 2, 1, 2 | 1. 67 | 3, 1, 2 | 2. 00 |
1, 1, 3 | 1. 67 | 2, 1, 3 | 2. 00 | 3, 1, 3 | 2. 33 |
1, 2, 1 | 1. 33 | 2, 2, 1 | 1. 67 | 3, 2, 1 | 2. 00 |
1, 2, 2 | 1. 67 | 2, 2, 2 | 2. 00 | 3, 2, 2 | 2. 33 |
1, 2, 3 | 2. 00 | 2, 2, 3 | 2. 33 | 3, 2, 3 | 2. 67 |
1, 3, 1 | 1. 67 | 2, 3, 1 | 2. 00 | 3, 3, 1 | 2. 33 |
1, 3, 2 | 2. 00 | 2, 3, 2 | 2. 33 | 3, 3, 2 | 2. 67 |
1, 3, 3 | 2. 33 | 2, 3, 3 | 2. 67 | 3, 3, 3 | 3. 00 |
Als je goed naar de tafel kijkt, kun je bijna zien wat er in de simulatie gaat gebeuren. Het steekproefgemiddelde dat het vaakst verschijnt, is 2. 00. De steekproefgemiddelden die het minst frequent voorkomen zijn 1.00 en 3. 00. Hmmm …
In de simulatie is willekeurig een score uit de populatie geselecteerd en willekeurig willekeurig twee meer. Die groep van drie scores is een voorbeeld. Vervolgens bereken je het gemiddelde van dat monster. Dit proces werd herhaald voor een totaal van 60 monsters, resulterend in 60 steekproefgemiddelden. Ten slotte grafiek je de verdeling van de steekproefgemiddelden.
Hoe ziet de gesimuleerde steekproefverdeling van het gemiddelde eruit? De afbeelding hieronder toont een werkblad dat deze vraag beantwoordt.
In het werkblad is elke rij een voorbeeld.De kolommen met het label x1, x2 en x3 tonen de drie scores voor elk monster. Kolom E toont het gemiddelde voor het monster in elke rij. Kolom G toont alle mogelijke waarden voor het steekproefgemiddelde, en kolom H laat zien hoe vaak elk gemiddelde voorkomt in de 60 steekproeven. Kolommen G en H en de grafiek laten zien dat de verdeling zijn maximale frequentie heeft wanneer het steekproefgemiddelde 2.00 is. De frequenties nemen af naarmate de steekproefgemiddelden steeds verder van 2. 00.
Het punt van dit alles is dat de populatie er niet uitziet als een normale verdeling en dat de steekproefomvang erg klein is. Zelfs onder die beperkingen begint de steekproefverdeling van het gemiddelde op basis van 60 steekproeven heel veel op een normale verdeling te lijken.
Hoe zit het met de parameters die de Central Limit-stelling voorspelt voor de steekproefverdeling? Begin met de bevolking. Het populatiegemiddelde is 2.00 en de standaarddeviatie van de populatie is. 67. (Dit soort populatie vereist enige wispelturige wiskunde voor het uitzoeken van de parameters.)
Op naar de steekproefverdeling. Het gemiddelde van de 60 gemiddelden is 1. 98, en hun standaarddeviatie (een schatting van de standaardfout van het gemiddelde) is. 48. Deze getallen benaderen de door de centrale limiet Stelling voorspelde parameters voor de steekproefverdeling van het gemiddelde, 2. 00 (gelijk aan het populatiegemiddelde), en. 47 (de standaardafwijking, 67, gedeeld door de vierkantswortel van 3, de steekproefomvang).
Als u geïnteresseerd bent in deze simulatie, volgt u de stappen:
- Selecteer een cel voor uw eerste willekeurig gekozen nummer.
Selecteer cel B2.
- Gebruik de werkbladfunctie
RANDBETWEEN
om 1, 2 of 3 te selecteren.Dit simuleert het tekenen van een getal uit een populatie bestaande uit de nummers 1, 2 en 3 waar u een gelijke kans hebt van het selecteren van elk nummer. U kunt
FORMULES | selecteren Math & Trig | RANDBETWEEN
en gebruik het dialoogvenster Functieargumenten of typ= RANDBETWEEN (1, 3)
in B2 en druk op Enter. Het eerste argument is het kleinste getal dat RANDBETWEEN retourneert en het tweede argument is het grootste getal. - Selecteer de cel rechts van de originele cel en kies een ander willekeurig getal tussen 1 en 3. Doe dit nogmaals voor een derde willekeurig getal in de cel rechts van de tweede cel.
De eenvoudigste manier om dit te doen, is door de twee cellen automatisch rechts van de originele cel te vullen. In dit werkblad zijn die twee cellen C2 en D2.
- Beschouw deze drie cellen als een steekproef en bereken hun gemiddelde in de cel rechts van de derde cel.
De eenvoudigste manier om dit te doen, is gewoon
= GEMIDDELD (B2: D2)
in cel E2 en druk op Enter. - Herhaal dit proces voor zoveel samples als u in de simulatie wilt opnemen. Laat elke rij overeenkomen met een voorbeeld.
60 monsters werden hier gebruikt. De snelle en gemakkelijke manier om dit voor elkaar te krijgen, is door de eerste rij van drie willekeurig geselecteerde getallen en hun gemiddelde te selecteren en vervolgens de overige rijen automatisch in te vullen. De verzameling steekproefgemiddelden in kolom E is de gesimuleerde steekproefverdeling van het gemiddelde.Gebruik
GEMIDDELDE
en
STDEV. P
om het gemiddelde en de standaardafwijking te vinden.
Gebruik de arrayfunctie
FREQUENCY
op de steekproefgemiddelden in kolom E. om te zien hoe deze gesimuleerde bemonsteringsdistributie eruit ziet: Ga als volgt te werk:
- Voer de mogelijke waarden van het steekproefgemiddelde in een array in.
U kunt kolom G hiervoor gebruiken. U kunt de mogelijke waarden van het steekproefgemiddelde in breukvorm (3/3, 4/3, 5/3, 6/3, 7/3, 8/3 en 9/3) uitdrukken zoals de waarden die in de cellen zijn ingevoerd G2 tot en met G8. Excel converteert ze naar decimalen. Zorg ervoor dat die cellen de getalnotatie hebben.
- Selecteer een array voor de frequenties van de mogelijke waarden van het steekproefgemiddelde.
U kunt kolom H gebruiken om de frequenties vast te houden, door cellen H2 tot en met H8 te selecteren.
- Selecteer in het menu Statistische functies
FREQUENCY
om het dialoogvenster Functieargumenten voorFREQUENCY
- te openen. Voer in het dialoogvenster Functieargumenten de juiste waarden voor de argumenten in.
Voer in het vak Data-array de cellen in die de steekproefgemiddelden bevatten. In dit voorbeeld is dat E2: E61.
- Identificeer de array die de mogelijke waarden van het steekproefgemiddelde bevat.
FREQUENCY
houdt deze array vast in het vak Bins_array. Voor dit werkblad gaat G2: G8 naar het vak Bins_array. Nadat u beide arrays hebt geïdentificeerd, toont het dialoogvenster Functieargumenten de frequenties binnen een paar accolades. - Druk op Ctrl + Shift + Enter om het dialoogvenster Functieargumenten te sluiten en de frequenties weer te geven.
Gebruik deze toetsaanslagcombinatie omdat
FREQUENCY
een arrayfunctie is. - Selecteer ten slotte, met H2: H8 gemarkeerd,
Invoegen | Aanbevolen kaarten
en kies de geclusterde kolomlay-out om de grafiek van de frequenties te produceren. Uw grafiek zal er waarschijnlijk enigszins anders uitzien dan de mijne, omdat u waarschijnlijk een ander willekeurig nummer krijgt.
Overigens herhaalt Excel het willekeurige selectieproces telkens wanneer u iets doet waardoor Excel het werkblad opnieuw berekent. Het effect is dat de cijfers kunnen veranderen terwijl je dit doorwerkt. (Dat wil zeggen, u voert de simulatie opnieuw uit.) Als u bijvoorbeeld teruggaat en een van de rijen automatisch opnieuw vult, veranderen de getallen en verandert de grafiek.