De totale variantie kan worden bepaald met behulp van een regel. Verspreiding van een discrete willekeurige variabele. Standaardafwijking

Soorten dispersies:

Totale variantie karakteriseert de variatie van een kenmerk van de gehele populatie onder invloed van al die factoren die deze variatie veroorzaakten. Deze waarde wordt bepaald door de formule

waar is het algemene rekenkundige gemiddelde van de gehele onderzochte populatie.

Gemiddelde variantie binnen de groep geeft een willekeurige variatie aan die kan ontstaan ​​onder invloed van niet-verantwoorde factoren en die niet afhankelijk is van het factorattribuut dat de basis vormt van de groepering. Deze variantie wordt als volgt berekend: eerst worden de varianties voor individuele groepen berekend (), daarna wordt de gemiddelde variantie binnen de groep berekend:

waarbij ni het aantal eenheden in de groep is

Variantie tussen groepen(variantie van groepsgemiddelden) karakteriseert systematische variatie, d.w.z. verschillen in de waarde van het bestudeerde kenmerk die ontstaan ​​onder invloed van het factorteken, dat de basis vormt van de groepering.

waar is de gemiddelde waarde voor een afzonderlijke groep.

Alle drie de typen variantie zijn aan elkaar gerelateerd: de totale variantie is gelijk aan de som van de gemiddelde variantie binnen de groep en de variantie tussen de groepen:

Eigenschappen:

25 Relatieve maatstaven van variatie

Oscillatiecoëfficiënt

Familielid lineaire afwijking

De variatiecoëfficiënt

Coef. Osc. O weerspiegelt de relatieve fluctuatie van extreme waarden van een kenmerk rond het gemiddelde. Rel. lijn. uit. karakteriseert het aandeel van de gemiddelde waarde van het teken van absolute afwijkingen van de gemiddelde waarde. Coef. Variatie is de meest gebruikelijke maatstaf voor variabiliteit die wordt gebruikt om de typiciteit van gemiddelden te beoordelen.

In de statistieken worden populaties met een variatiecoëfficiënt van meer dan 30-35% als heterogeen beschouwd.

    Regelmaat van distributiereeksen. Momenten van distributie. Vormindicatoren voor distributie

Bij variatiereeksen bestaat er een verband tussen de frequenties en de waarden van de variërende karakteristiek: bij een toename van de karakteristiek neemt de frequentiewaarde eerst toe tot een bepaalde grens en neemt dan af. Dergelijke veranderingen worden genoemd distributiepatronen.

De vorm van de verdeling wordt bestudeerd met behulp van scheefheids- en kurtosis-indicatoren. Bij het berekenen van deze indicatoren wordt gebruik gemaakt van verdeelmomenten.

Het moment van de k-de orde is het gemiddelde van de k-de graden van afwijking van variantwaarden van een kenmerk van een constante waarde. De orde van het moment wordt bepaald door de waarde van k. Bij het analyseren van variatiereeksen beperkt men zich tot het berekenen van de momenten van de eerste vier orden. Bij het berekenen van momenten kunnen frequenties of frequenties als gewichten worden gebruikt. Afhankelijk van de keuze voor de constante waarde worden initiële, voorwaardelijke en centrale momenten onderscheiden.

Indicatoren voor distributieformulieren:

Asymmetrie(As) indicator die de mate van distributie-asymmetrie karakteriseert .

Dus met (linkszijdige) negatieve asymmetrie . Met (rechtszijdige) positieve asymmetrie .

Centrale momenten kunnen worden gebruikt om asymmetrie te berekenen. Dan:

,

waar μ 3 – centraal moment van de derde orde.

- kurtosis (E Naar ) karakteriseert de steilheid van de functiegrafiek in vergelijking met de normale verdeling bij dezelfde variatiesterkte:

,

waarbij μ 4 het centrale moment van de 4e orde is.

    Normaal distributierecht

Voor een normale verdeling (Gaussiaanse verdeling) heeft de verdelingsfunctie de volgende vorm:

Verwachting- standaardafwijking

De normale verdeling is symmetrisch en wordt gekenmerkt door de volgende relatie: Xav=Me=Mo

De kurtosis van een normale verdeling is 3 en de scheefheidscoëfficiënt is 0.

De normale verdelingscurve is een veelhoek (symmetrische klokvormige rechte lijn)

    Soorten dispersies. De regel voor het optellen van varianties. De essentie van de empirische determinatiecoëfficiënt.

Als de oorspronkelijke populatie op basis van een significant kenmerk in groepen wordt verdeeld, worden de volgende typen varianties berekend:

    Totale variantie van de oorspronkelijke populatie:

waarbij is de totale gemiddelde waarde van de oorspronkelijke populatie; f is de frequentie van de oorspronkelijke populatie. Totale spreiding karakteriseert de afwijking van individuele waarden van een kenmerk van de algehele gemiddelde waarde van de oorspronkelijke populatie.

    Variaties binnen de groep:

waarbij j het nummer van de groep is; de gemiddelde waarde in elke j-de groep is; de frequentie van de j-de groep is. Variaties binnen de groep karakteriseren de afwijking van de individuele waarde van een eigenschap in elke groep van de gemiddelde waarde van de groep. Van alle varianties binnen de groep wordt het gemiddelde berekend met behulp van de formule:, waarbij het aantal eenheden in elke j-de groep is.

    Variantie tussen groepen:

Intergroepsspreiding karakteriseert de afwijking van groepsgemiddelden van het algemene gemiddelde van de oorspronkelijke populatie.

Regel voor het optellen van varianties is dat de totale variantie van de oorspronkelijke populatie gelijk moet zijn aan de som van de varianties tussen de groepen en het gemiddelde van de varianties binnen de groep:

Empirische determinatiecoëfficiënt toont het aandeel van de variatie in het bestudeerde kenmerk als gevolg van variatie in het groeperingskenmerk en wordt berekend met behulp van de formule:

    Methode voor het tellen vanaf een voorwaardelijk nulpunt (methode van momenten) voor het berekenen van de gemiddelde waarde en variantie

De berekening van de spreiding volgens de momentenmethode is gebaseerd op het gebruik van de formule en 3 en 4 eigenschappen van spreiding.

(3. Als alle waarden van het attribuut (opties) worden verhoogd (verlaagd) met een constant getal A, zal de variantie van de nieuwe populatie niet veranderen.

4. Als alle waarden van het attribuut (opties) met K keer worden verhoogd (vermenigvuldigd), waarbij K een constant getal is, dan zal de variantie van de nieuwe populatie met K 2 keer toenemen (verlaagd).)

We verkrijgen een formule voor het berekenen van de spreiding in variatiereeksen met gelijke intervallen met behulp van de momentenmethode:

A - voorwaardelijke nul, gelijk aan de optie met de maximale frequentie (het midden van het interval met de maximale frequentie)

De berekening van de gemiddelde waarde volgens de momentenmethode is ook gebaseerd op het gebruik van de eigenschappen van het gemiddelde.

    Het concept van selectieve observatie. Stadia van het bestuderen van economische verschijnselen met behulp van een steekproefmethode

Een steekproefwaarneming is een waarneming waarbij niet alle eenheden van de oorspronkelijke populatie worden onderzocht en bestudeerd, maar slechts een deel van de eenheden, en de uitkomst van het onderzoek van een deel van de populatie geldt voor de gehele oorspronkelijke populatie. De populatie waaruit eenheden worden geselecteerd voor verder onderzoek en studie wordt opgeroepen algemeen en alle indicatoren die deze totaliteit karakteriseren worden genoemd algemeen.

Mogelijke limieten voor afwijkingen van de steekproefgemiddelde waarde van de algemene gemiddelde waarde worden genoemd bemonsteringsfout.

De set geselecteerde eenheden wordt opgeroepen selectief en alle indicatoren die deze totaliteit karakteriseren worden genoemd selectief.

Voorbeeldonderzoek omvat de volgende fasen:

Kenmerken van het onderzoeksobject (massa economische verschijnselen). Als de populatie klein is, wordt steekproeven niet aanbevolen; een uitgebreid onderzoek is noodzakelijk;

Berekening van de steekproefomvang. Het is belangrijk om het optimale volume te bepalen waarmee de bemonsteringsfout tegen de laagste kosten binnen het aanvaardbare bereik valt;

Selectie van observatie-eenheden, rekening houdend met de eisen van willekeur en proportionaliteit.

Bewijs van representativiteit op basis van een schatting van de steekproeffout. Voor een willekeurige steekproef wordt de fout berekend met behulp van formules. Voor de doelsteekproef wordt de representativiteit beoordeeld met behulp van kwalitatieve methoden (vergelijking, experiment);

Analyse van de steekproefpopulatie. Als het gegenereerde monster voldoet aan de eisen van representativiteit, wordt het geanalyseerd met behulp van analytische indicatoren (gemiddeld, relatief, enz.)

Dit kenmerk alleen is echter niet voldoende voor onderzoek. willekeurige variabele. Laten we ons voorstellen dat twee schutters op een doel schieten. De één schiet nauwkeurig en raakt dicht bij het midden, terwijl de ander... gewoon lol heeft en niet eens mikt. Maar wat grappig is, is dat hij gemiddeld het resultaat zal precies hetzelfde zijn als bij de eerste shooter! Deze situatie wordt conventioneel geïllustreerd door de volgende willekeurige variabelen:

De wiskundige verwachting van de “sluipschutter” is echter gelijk aan , voor de “interessante persoon”: – deze is ook nul!

Het is dus nodig om te kwantificeren in hoeverre verspreid kogels (willekeurige variabele waarden) ten opzichte van het midden van het doel (wiskundige verwachting). goed en verstrooiing vertaald uit het Latijn is geen andere manier dan spreiding .

Laten we eens kijken hoe dit numerieke kenmerk wordt bepaald aan de hand van een van de voorbeelden uit het eerste deel van de les:

Daar vonden we een teleurstellende wiskundige verwachting van dit spel, en nu moeten we de variantie ervan berekenen aangegeven door door .

Laten we eens kijken in hoeverre de winsten/verliezen “verspreid” zijn ten opzichte van de gemiddelde waarde. Uiteraard moeten we hiervoor berekenen verschillen tussen willekeurige variabele waarden en zij wiskundige verwachting:

–5 – (–0,5) = –4,5
2,5 – (–0,5) = 3
10 – (–0,5) = 10,5

Nu lijkt het erop dat je de resultaten moet samenvatten, maar deze manier is niet geschikt - omdat fluctuaties naar links elkaar zullen opheffen met fluctuaties naar rechts. Dus bijvoorbeeld een ‘amateur’-shooter (voorbeeld hierboven) de verschillen zullen zijn , en als ze worden toegevoegd, geven ze nul, dus we krijgen geen enkele schatting van de spreiding van zijn schietpartijen.

Om dit probleem te omzeilen, kunt u overwegen modules verschillen, maar om technische redenen heeft de aanpak wortel geschoten als ze in het kwadraat worden gebracht. Het is handiger om de oplossing in een tabel te formuleren:

En hier smeekt het om te berekenen gewogen gemiddelde de waarde van de gekwadrateerde afwijkingen. Wat is het? Het is van hen verwachte waarde, wat een maatstaf is voor de verstrooiing:

definitie afwijkingen. Uit de definitie blijkt dat meteen variantie kan niet negatief zijn– let op voor de praktijk!

Laten we onthouden hoe we de verwachte waarde kunnen vinden. Vermenigvuldig de gekwadrateerde verschillen met de overeenkomstige kansen (Tabel vervolg):
– figuurlijk gesproken is dit “trekkracht”,
en vat de resultaten samen:

Denk je niet dat het resultaat, vergeleken met de winst, te groot is gebleken? Dat klopt - we hebben het gekwadrateerd, en om terug te keren naar de dimensie van ons spel, moeten we de wortel nemen. Deze hoeveelheid wordt genoemd standaardafwijking en wordt aangeduid met de Griekse letter “sigma”:

Deze waarde wordt soms genoemd standaardafwijking .

Wat is de betekenis ervan? Als we van de wiskundige verwachting naar links en rechts afwijken van het gemiddelde standaardafwijking:

– dan worden de meest waarschijnlijke waarden van de willekeurige variabele op dit interval “geconcentreerd”. Wat we feitelijk waarnemen:

Het komt echter voor dat men bij het analyseren van verstrooiing bijna altijd met het concept van dispersie werkt. Laten we eens kijken wat het betekent met betrekking tot games. Als we het in het geval van pijlen hebben over de “nauwkeurigheid” van treffers ten opzichte van het midden van het doel, dan kenmerkt spreiding hier twee dingen:

Ten eerste is het duidelijk dat naarmate de weddenschappen toenemen, de spreiding ook toeneemt. Dus als we bijvoorbeeld met 10 keer toenemen, zal de wiskundige verwachting met 10 keer toenemen, en zal de variantie met 100 keer toenemen. (aangezien dit een kwadratische grootheid is). Maar let op: de spelregels zelf zijn niet veranderd! Alleen de tarieven zijn grofweg veranderd, voordat we 10 roebel gokten, nu is het 100.

Ten tweede, meer interessant punt is dat variantie de speelstijl kenmerkt. Zet de spelweddenschappen mentaal vast op een bepaald niveau, en laten we eens kijken wat wat is:

Een spel met lage variantie is een voorzichtig spel. De speler heeft de neiging om het meeste te kiezen betrouwbare circuits, waar hij niet te veel in één keer verliest/wint. Bijvoorbeeld het rood/zwart systeem bij roulette (zie voorbeeld 4 van het artikel Willekeurige variabelen) .

Spel met hoge variantie. Ze wordt vaak gebeld verspreid spel. Is het avontuurlijk of agressieve stijl spellen waarbij de speler 'adrenaline'-schema's kiest. Laten we het tenminste onthouden "Martingaal", waarin de bedragen die op het spel staan ​​ordes van grootte groter zijn dan het “stille” spel van het vorige punt.

De situatie bij poker is indicatief: er zijn zogenaamde nauw spelers die de neiging hebben voorzichtig en “wankel” te zijn over hun spelfondsen (bankroll). Het is niet verrassend dat hun bankroll niet significant fluctueert (lage variantie). Integendeel, als een speler een hoge variantie heeft, is hij een agressor. Hij neemt vaak risico's, doet grote weddenschappen en kan een enorme bank kapot maken of door gruzelementen verliezen.

Hetzelfde gebeurt in Forex, enzovoort - er zijn genoeg voorbeelden.

Bovendien maakt het in alle gevallen niet uit of het spel voor centen of duizenden dollars wordt gespeeld. Elk niveau heeft zijn spelers met een lage en hoge spreiding. Nou, zoals we ons herinneren, is de gemiddelde winst “verantwoord” verwachte waarde.

Je hebt waarschijnlijk gemerkt dat het vinden van variantie een lang en moeizaam proces is. Maar wiskunde is genereus:

Formule voor het vinden van variantie

Deze formule is rechtstreeks afgeleid van de definitie van variantie en we hebben hem onmiddellijk in gebruik genomen. Ik kopieer het bord met ons spel hierboven:

en de gevonden wiskundige verwachting.

Laten we de variantie op de tweede manier berekenen. Laten we eerst de wiskundige verwachting vinden: het kwadraat van de willekeurige variabele. Door bepaling van wiskundige verwachtingen:

In dit geval:

Dus volgens de formule:

Zoals ze zeggen, voel het verschil. En in de praktijk is het natuurlijk beter om de formule te gebruiken (tenzij de toestand anders vereist).

Wij beheersen de techniek van het oplossen en ontwerpen van:

Voorbeeld 6

Vind de wiskundige verwachting, variantie en standaarddeviatie.

Deze taak is overal te vinden en heeft in de regel geen betekenisvolle betekenis.
Je kunt je verschillende gloeilampen voorstellen met cijfers die met bepaalde waarschijnlijkheden oplichten in een gekkenhuis :)

Oplossing: Het is handig om de basisberekeningen in een tabel samen te vatten. Eerst schrijven we de initiële gegevens in de bovenste twee regels. Vervolgens berekenen we de producten, en tenslotte de sommen in de rechterkolom:

Eigenlijk is bijna alles klaar. De derde regel toont een kant-en-klare wiskundige verwachting: .

We berekenen de variantie met de formule:

En tot slot de standaarddeviatie:
– Persoonlijk rond ik meestal af op 2 decimalen.

Alle berekeningen kunnen worden uitgevoerd op een rekenmachine, of nog beter – in Excel:

Het is moeilijk om hier fout te gaan :)

Antwoord:

Degenen die dat wensen, kunnen hun leven nog verder vereenvoudigen en profiteren van mijn rekenmachine (demo), die dit probleem niet alleen onmiddellijk zal oplossen, maar ook zal opbouwen thematische afbeeldingen (we komen er snel). Het programma kan zijn downloaden uit de bibliotheek– als je er minstens één hebt gedownload educatief materiaal, of krijgen een andere manier. Bedankt voor het steunen van het project!

Een paar taken voor onafhankelijke beslissing:

Voorbeeld 7

Bereken per definitie de variantie van de willekeurige variabele in het vorige voorbeeld.

En een soortgelijk voorbeeld:

Voorbeeld 8

Een discrete willekeurige variabele wordt gespecificeerd door zijn distributiewet:

Ja, willekeurige variabelewaarden kunnen behoorlijk groot zijn (voorbeeld uit echt werk), en gebruik hier indien mogelijk Excel. Zoals trouwens in voorbeeld 7: het is sneller, betrouwbaarder en leuker.

Oplossingen en antwoorden onderaan de pagina.

Aan het einde van het tweede deel van de les zullen we er nog één bekijken typische taak, je zou zelfs kunnen zeggen, een kleine rebus:

Voorbeeld 9

Een discrete willekeurige variabele kan slechts twee waarden aannemen: en , en . De waarschijnlijkheid, wiskundige verwachting en variantie zijn bekend.

Oplossing: Laten we beginnen met een onbekende waarschijnlijkheid. Omdat een willekeurige variabele slechts twee waarden kan aannemen, is de som van de kansen op de overeenkomstige gebeurtenissen:

en sinds toen .

Het enige dat overblijft is het vinden..., dat is gemakkelijk gezegd :) Maar goed, daar gaan we. Per definitie van wiskundige verwachting:
– vervang bekende hoeveelheden:

– en er kan niets meer uit deze vergelijking worden geperst, behalve dat je het in de gebruikelijke richting kunt herschrijven:

of:

Ik denk dat je de volgende stappen wel kunt raden. Laten we het systeem samenstellen en oplossen:

Decimalen- dit is natuurlijk een complete schande; vermenigvuldig beide vergelijkingen met 10:

en gedeeld door 2:

Dat is beter. Uit de eerste vergelijking drukken we uit:
(dit is de makkelijkere manier)– substitueer in de 2e vergelijking:


Wij zijn aan het bouwen kwadraat en vereenvoudigingen aanbrengen:

Vermenigvuldigen met:

Het resultaat was kwadratische vergelijking, vinden we de discriminant:
- Geweldig!

en we krijgen twee oplossingen:

1) als , Dat ;

2) als , Dat .

Aan de voorwaarde wordt voldaan door het eerste paar waarden. Met grote waarschijnlijkheid is alles correct, maar laten we toch de distributiewet opschrijven:

en voer een controle uit, namelijk: vind de verwachting:

Van de vele indicatoren die in statistieken worden gebruikt, is het noodzakelijk om de variantieberekening te benadrukken. Opgemerkt moet worden dat het handmatig uitvoeren van deze berekening een nogal vervelende taak is. Gelukkig beschikt Excel over functies waarmee je de berekeningsprocedure kunt automatiseren. Laten we eens kijken naar het algoritme voor het werken met deze tools.

Dispersie is een indicator voor variatie, wat het gemiddelde kwadraat is van afwijkingen van de wiskundige verwachting. Het drukt dus de spreiding van getallen rond de gemiddelde waarde uit. Variantieberekening kan zowel voor de algemene populatie als voor de steekproef worden uitgevoerd.

Methode 1: berekening op basis van de populatie

Gebruik de functie om deze indicator in Excel voor de algemene bevolking te berekenen DISP.G. De syntaxis van deze expressie is als volgt:

DISP.G(Nummer1;Nummer2;…)

In totaal kunnen 1 tot 255 argumenten worden gebruikt. Argumenten kunnen als volgt zijn: numerieke waarden, evenals verwijzingen naar de cellen waarin ze zich bevinden.

Laten we eens kijken hoe we deze waarde kunnen berekenen voor een bereik met numerieke gegevens.


Methode 2: berekening per monster

In tegenstelling tot het berekenen van een waarde op basis van een populatie, geeft de noemer bij het berekenen van een steekproef niet het totale aantal getallen aan, maar één minder. Dit wordt gedaan met het oog op foutcorrectie. Excel houdt rekening met deze nuance in een speciale functie die is ontworpen voor dit soort berekeningen: DISP.V. De syntaxis ervan wordt weergegeven door de volgende formule:

DISP.B(Nummer1;Nummer2;…)

Het aantal argumenten kan, net als in de vorige functie, ook variëren van 1 tot 255.


Zoals u kunt zien, kan het Excel-programma de variantieberekening aanzienlijk vergemakkelijken. Deze statistiek kan door de toepassing worden berekend, hetzij op basis van de populatie, hetzij op basis van de steekproef. In dit geval komen alle gebruikersacties feitelijk neer op het specificeren van het bereik van de te verwerken getallen, en Excel doet het hoofdwerk zelf. Dit bespaart uiteraard een aanzienlijke hoeveelheid gebruikerstijd.

Spreidingwillekeurige variabele- maatstaf voor de verspreiding van een gegeven willekeurige variabele, dat wil zeggen, haar afwijkingen vanuit wiskundige verwachting. In de statistiek wordt de notatie (sigmakwadraat) vaak gebruikt om spreiding aan te duiden. De vierkantswortel van de variantie gelijk aan wordt genoemd standaardafwijking of standaardspreiding. De standaarddeviatie wordt gemeten in dezelfde eenheden als de willekeurige variabele zelf, en de variantie wordt gemeten in de kwadraten van die eenheid.

Hoewel het erg handig is om slechts één waarde (zoals het gemiddelde of de modus en de mediaan) te gebruiken om de hele steekproef te schatten, kan deze aanpak gemakkelijk tot onjuiste conclusies leiden. De reden voor deze situatie ligt niet in de waarde zelf, maar in het feit dat één waarde op geen enkele manier de spreiding van datawaarden weerspiegelt.

In het voorbeeld bijvoorbeeld:

de gemiddelde waarde is 5.

In de steekproef zelf is er echter geen enkel element met een waarde van 5. Mogelijk moet u weten in welke mate elk element in de steekproef dicht bij de gemiddelde waarde ligt. Met andere woorden: u moet de variantie van de waarden kennen. Als u de mate van verandering in de gegevens kent, kunt u deze beter interpreteren gemiddelde waarde, mediaan En mode. De mate waarin monsterwaarden veranderen, wordt bepaald door hun variantie en standaarddeviatie te berekenen.



De variantie en de wortel van de variantie, de standaardafwijking genoemd, karakteriseren de gemiddelde afwijking van het steekproefgemiddelde. Onder deze twee hoeveelheden hoogste waarde Het heeft standaardafwijking. Deze waarde kan worden gezien als de gemiddelde afstand tussen elementen en het middelste element van het monster.

Variantie is moeilijk betekenisvol te interpreteren. De wortel van deze waarde is echter de standaardafwijking en kan gemakkelijk worden geïnterpreteerd.

De standaarddeviatie wordt berekend door eerst de variantie te bepalen en vervolgens de vierkantswortel van de variantie te nemen.

Voor de data-array die in de afbeelding wordt weergegeven, worden bijvoorbeeld de volgende waarden verkregen:

Foto 1

Hier is de gemiddelde waarde van de gekwadrateerde verschillen 717,43. Om de standaarddeviatie te krijgen, hoeft u alleen nog maar de wortel van dit getal te nemen.

Het resultaat zal ongeveer 26,78 zijn.

Houd er rekening mee dat de standaardafwijking wordt geïnterpreteerd als de gemiddelde afstand tussen de items en het steekproefgemiddelde.

De standaarddeviatie meet hoe goed het gemiddelde de gehele steekproef beschrijft.

Stel dat u het hoofd bent van een productieafdeling voor pc-assemblage. In het kwartaalrapport staat dat de productie over het afgelopen kwartaal 2.500 pc's bedroeg. Is dit goed of slecht? U heeft gevraagd (of deze kolom staat al in het rapport) om de standaardafwijking voor deze gegevens in het rapport weer te geven. Het standaarddeviatiecijfer is bijvoorbeeld 2000. Het wordt voor u, als hoofd van de afdeling, duidelijk dat Productielijn vereist beter beheer(te grote afwijkingen in het aantal samengestelde pc's).

Bedenk dat wanneer de standaarddeviatie groot is, de gegevens wijd verspreid zijn rond het gemiddelde, en wanneer de standaarddeviatie klein is, ze dicht bij het gemiddelde liggen.

De vier statistische functies VAR(), VAR(), STDEV() en STDEV() zijn ontworpen om de variantie en standaarddeviatie van getallen in een celbereik te berekenen. Voordat u de variantie en standaarddeviatie van een reeks gegevens kunt berekenen, moet u bepalen of de gegevens een populatie of een steekproef uit een populatie vertegenwoordigen. In het geval van een steekproef uit een algemene populatie moet u de functies VAR() en STDEV() gebruiken, en in het geval van een algemene populatie de functies VAR() en STDEV():

Bevolking Functie

DISPR()

STANDOTLONP()
Steekproef

DISP()

STDEV()

Dispersie (evenals standaarddeviatie), zoals we opmerkten, geeft aan in welke mate de waarden in de dataset verspreid zijn rond het rekenkundig gemiddelde.

Een kleine variantiewaarde of standaarddeviatie geeft aan dat alle gegevens geconcentreerd zijn rond het rekenkundig gemiddelde, en een grote waarde van deze waarden geeft aan dat de gegevens verspreid zijn over een breed bereik aan waarden.

Dispersie is vrij moeilijk zinvol te interpreteren (wat betekent een kleine waarde, een grote waarde?). Prestatie Taken 3 kunt u visueel, in een grafiek, de betekenis van de variantie voor een dataset weergeven.

Taken

· Oefening 1.

· 2.1. Geef de begrippen: spreiding en standaarddeviatie; hun symbolische aanduiding voor statistische gegevensverwerking.

· 2.2. Vul het werkblad in volgens figuur 1 en maak de nodige berekeningen.

· 2.3. Geef de basisformules die bij berekeningen worden gebruikt

· 2.4. Leg alle aanduidingen uit ( , , )

· 2.5. Leg de praktische betekenis uit van de begrippen spreiding en standaarddeviatie.

Taak 2.

1.1. Geef de begrippen: algemene bevolking en steekproef; wiskundige verwachting en hun rekenkundige gemiddelde symbolische aanduiding voor statistische gegevensverwerking.

1.2. Maak, in overeenstemming met figuur 2, een werkblad en maak berekeningen.

1.3. Geef de basisformules op die bij de berekeningen zijn gebruikt (voor de algemene bevolking en de steekproef).

Figuur 2

1.4. Leg uit waarom het mogelijk is om in steekproeven zulke rekenkundige gemiddelde waarden te verkrijgen als 46,43 en 48,78 (zie bijlage). Conclusies trekken.

Taak 3.

Er zijn twee voorbeelden met verschillende gegevenssets, maar het gemiddelde daarvan zal hetzelfde zijn:

figuur 3

3.1. Vul het werkblad in volgens figuur 3 en maak de nodige berekeningen.

3.2. Geef de basisberekeningsformules.

3.3. Construeer grafieken in overeenstemming met figuren 4, 5.

3.4. Verklaar de verkregen afhankelijkheden.

3.5. Voer soortgelijke berekeningen uit voor de gegevens van twee monsters.

Origineel monster 11119999

Selecteer de waarden van het tweede monster zodat het rekenkundig gemiddelde voor het tweede monster hetzelfde is, bijvoorbeeld:

Selecteer zelf de waarden voor het tweede monster. Rangschik berekeningen en grafieken zoals in Figuren 3, 4, 5. Toon de basisformules die bij de berekeningen zijn gebruikt.

Trek passende conclusies.

Bereid alle taken voor in de vorm van een rapport met alle benodigde afbeeldingen, grafieken, formules en korte uitleg.

Let op: de constructie van grafieken moet worden uitgelegd met tekeningen en korte uitleg.

Laten we inrekenenMEVREXCELsteekproefvariantie en standaarddeviatie. We zullen ook de variantie van een willekeurige variabele berekenen als de verdeling ervan bekend is.

Laten we eerst eens nadenken spreiding, Dan standaardafwijking.

Steekproefvariantie

Steekproefvariantie (steekproefvariantie,steekproefvariantie) karakteriseert de spreiding van waarden in de array ten opzichte van .

Alle drie de formules zijn wiskundig equivalent.

Uit de eerste formule is dat duidelijk steekproefvariantie is de som van de gekwadrateerde afwijkingen van elke waarde in de array van gemiddeld, gedeeld door de steekproefomvang min 1.

afwijkingen monsters de DISP()-functie wordt gebruikt, Engels. de naam VAR, d.w.z. VARIANTIE. Vanaf versie MS EXCEL 2010 wordt aanbevolen om de analoge DISP.V(), Engels, te gebruiken. de naam VARS, d.w.z. Steekproefvariantie. Bovendien is er vanaf de versie van MS EXCEL 2010 een functie DISP.Г(), Engels. naam VARP, d.w.z. PopulatieVARiance, die berekent spreiding Voor bevolking. Het hele verschil komt neer op de noemer: in plaats van n-1 zoals DISP.V(), heeft DISP.G() alleen n in de noemer. Vóór MS EXCEL 2010 werd de functie VAR() gebruikt om de variantie van de populatie te berekenen.

Steekproefvariantie
=QUADROTCL(Voorbeeld)/(AANTAL(Voorbeeld)-1)
=(SOM(Voorbeeld)-COUNT(Voorbeeld)*GEMIDDELDE(Voorbeeld)^2)/ (AANTAL(Voorbeeld)-1)– gebruikelijke formule
=SOM((Voorbeeld -GEMIDDELDE(Voorbeeld))^2)/ (AANTAL(Voorbeeld)-1) –

Steekproefvariantie is alleen gelijk aan 0 als alle waarden gelijk zijn aan elkaar en dus gelijk zijn gemiddelde waarde. Meestal geldt: hoe groter de waarde afwijkingen, hoe groter de spreiding van waarden in de array.

Steekproefvariantie is een puntschatting afwijkingen verdeling van de willekeurige variabele waaruit deze is gemaakt steekproef. Over de bouw betrouwbaarheidsintervallen bij het beoordelen afwijkingen is te lezen in het artikel.

Variantie van een willekeurige variabele

Rekenen spreiding willekeurige variabele, je moet het weten.

Voor afwijkingen willekeurige variabele X wordt vaak aangeduid met Var(X). Spreiding gelijk aan het kwadraat van de afwijking van het gemiddelde E(X): Var(X)=E[(X-E(X)) 2 ]

spreiding berekend met de formule:

waarbij x i de waarde is die een willekeurige variabele kan aannemen, en μ de gemiddelde waarde (), is p(x) de waarschijnlijkheid dat de willekeurige variabele de waarde x zal aannemen.

Als een willekeurige variabele , dan heeft spreiding berekend met de formule:

Dimensie afwijkingen komt overeen met het kwadraat van de meeteenheid van de oorspronkelijke waarden. Als de waarden in het monster bijvoorbeeld de gewichtsmetingen (in kg) vertegenwoordigen, dan is de variantiedimensie kg 2 . Dit kan moeilijk te interpreteren zijn, dus om de spreiding van waarden te karakteriseren, is een waarde gelijk aan vierkantswortel van afwijkingenstandaardafwijking.

Enkele eigenschappen afwijkingen:

Var(X+a)=Var(X), waarbij X een willekeurige variabele is en a een constante.

Var(aХ)=a 2 Var(X)

Var(X)=E[(X-E(X)) 2 ]=E=E(X 2)-E(2*X*E(X))+(E(X)) 2 =E(X 2)- 2*E(X)*E(X)+(E(X)) 2 =E(X 2)-(E(X)) 2

Deze dispersie-eigenschap wordt gebruikt artikel over lineaire regressie.

Var(X+Y)=Var(X) + Var(Y) + 2*Cov(X;Y), waarbij X en Y willekeurige variabelen zijn, is Cov(X;Y) de covariantie van deze willekeurige variabelen.

Als willekeurige variabelen onafhankelijk zijn, dan zijn ze dat ook covariantie is gelijk aan 0, en daarom is Var(X+Y)=Var(X)+Var(Y). Deze eigenschap van dispersie wordt gebruikt bij de afleiding.

Laten we aantonen dat voor onafhankelijke grootheden Var(X-Y)=Var(X+Y). Var(X-Y)= Var(X-Y)= Var(X+(-Y))= Var(X)+Var(-Y)= Var(X)+Var(-Y)= Var( X)+(- 1) 2 Var(Y)= Var(X)+Var(Y)= Var(X+Y). Deze dispersie-eigenschap wordt gebruikt om .

Voorbeeld standaarddeviatie

Voorbeeld standaarddeviatie is een maatstaf voor hoe wijd verspreid de waarden in een steekproef zijn ten opzichte van hun .

A-priorij, standaardafwijking gelijk aan de wortel van afwijkingen:

Standaardafwijking houdt geen rekening met de omvang van de waarden in steekproef, maar alleen de mate van spreiding van waarden om hen heen gemiddeld. Om dit te illustreren, geven we een voorbeeld.

Laten we de standaardafwijking voor twee steekproeven berekenen: (1; 5; 9) en (1001; 1005; 1009). In beide gevallen is s=4. Het is duidelijk dat de verhouding tussen de standaardafwijking en de arraywaarden aanzienlijk verschilt tussen monsters. Voor dergelijke gevallen wordt het gebruikt De variatiecoëfficiënt(Variatiecoëfficiënt, CV) - verhouding Standaardafwijking naar het gemiddelde rekenkundig, uitgedrukt als een percentage.

In MS EXCEL 2007 en eerdere versies voor berekeningen Voorbeeld standaarddeviatie de functie =STDEVAL() wordt gebruikt, Engels. naam STDEV, d.w.z. Standaardafwijking. Vanaf de versie van MS EXCEL 2010 wordt aanbevolen om de analoge =STDEV.B() , Engels, te gebruiken. naam STDEV.S, d.w.z. Voorbeeld STANDAARD AFWIJKING.

Bovendien is er vanaf de versie van MS EXCEL 2010 een functie STANDARDEV.G(), Engels. naam STDEV.P, d.w.z. Populatie STANDAARD DEViatie, die berekent standaardafwijking Voor bevolking. Het hele verschil komt neer op de noemer: in plaats van n-1 zoals in STANDARDEV.V(), heeft STANDARDEVAL.G() precies n in de noemer.

Standaardafwijking kan ook direct worden berekend met behulp van onderstaande formules (zie voorbeeldbestand)
=ROOT(QUADROTCL(Voorbeeld)/(AANTAL(Voorbeeld)-1))
=ROOT((SOM(Voorbeeld)-COUNT(Voorbeeld)*GEMIDDELDE(Voorbeeld)^2)/(AANTAL(Voorbeeld)-1))

Andere spreidingsmaatstaven

De functie SQUADROTCL() berekent met een som van gekwadrateerde afwijkingen van waarden van hun gemiddeld. Deze functie retourneert hetzelfde resultaat als de formule =DISP.G( Steekproef)*REKENING( Steekproef) , Waar Steekproef- een verwijzing naar een bereik dat een reeks voorbeeldwaarden bevat (). Berekeningen in de functie QUADROCL() worden gemaakt volgens de formule:

De functie SROTCL() is ook een maatstaf voor de spreiding van een dataset. De functie SROTCL() berekent het gemiddelde van de absolute waarden van afwijkingen van waarden gemiddeld. Deze functie retourneert hetzelfde resultaat als de formule =SOMPRODUCT(ABS(Voorbeeld-GEMIDDELDE(Voorbeeld)))/COUNT(Voorbeeld), Waar Steekproef- een link naar een bereik dat een reeks voorbeeldwaarden bevat.

Berekeningen in de functie SROTCL () worden gemaakt volgens de formule: