Normale verdeling in statistieken - definitie, voorbeeld, interpretatie

Wat is normale verdeling in statistieken?

Normale distributie is een klokvormige frequentieverdelingskromme die helpt bij het beschrijven van alle mogelijke waarden die een willekeurige variabele kan aannemen binnen een bepaald bereik, waarbij het grootste deel van het distributiegebied zich in het midden bevindt en enkele in de staarten, in de extremen. Deze verdeling heeft twee sleutelparameters: het gemiddelde (µ) en de standaarddeviatie (σ) die een sleutelrol spelen bij de berekening van het rendement van activa en in de strategie voor risicobeheer.

Hoe normale distributie te interpreteren

De bovenstaande figuur laat zien dat de statistische normaalverdeling een klokvormige curve is. Het bereik van mogelijke uitkomsten van deze verdeling zijn de hele reële getallen die tussen -∞ en + ∞ liggen. De staarten van de klokkromme strekken zich onbeperkt uit aan beide zijden van de kaart (+/-).

  • Ongeveer 68% van alle waarnemingen valt binnen +/- één standaarddeviatie (σ)
  • Ongeveer 95% van alle waarnemingen valt binnen +/- twee standaarddeviaties (σ)
  • Ongeveer 99% van alle waarnemingen valt binnen +/- drie standaarddeviaties (σ)

Het heeft een scheefheid van nul (symmetrie van een verdeling). Als de verdeling van gegevens asymmetrisch is, is de verdeling ongelijk als de gegevensset een scheefheid heeft groter dan nul of een positieve scheefheid. Dan is de rechterstaart van de verdeling langer dan de linker, en bij negatieve scheefheid (minder dan nul) zal de linkerstaart langer zijn dan de rechterstaart.

Het heeft een kurtosis van 3 (meet de piekwaarde van een distributie), wat aangeeft dat de distributie niet te hoog is, noch te dunne staarten. Als de kurtosis meer dan drie is, heeft de verdeling meer een piek met dikkere staarten, en als de kurtosis minder is dan drie, dan heeft deze dunne staarten en is het piekpunt lager dan de normale verdeling.

Kenmerken

  • Ze vertegenwoordigen een distributiefamilie waarbij gemiddelde en deviatie de vorm van de distributie bepalen.
  • Het gemiddelde, de mediaan en de modus van deze verdeling zijn allemaal gelijk.
  • De helft van de waarden bevindt zich links van het midden en de andere helft rechts.
  • De totale waarde onder de standaardcurve is altijd één.
  • Hoogstwaarschijnlijk staat de distributie in het midden en liggen er minder waarden aan het einde.

Transformatie (Z)

De kansdichtheidsfunctie (PDF) van een willekeurige variabele (X) na verdeling wordt gegeven door:

waar -∞ <x <∞; -∞ <µ 0

Waar,

  • F (x) = Normale kansfunctie
  • x = willekeurige variabele
  • µ = gemiddelde van distributie
  • σ = standaarddeviatie van de verdeling
  • π = 3,14159
  • e = 2,71828

Transformatieformule

Waar,

  • X = willekeurige variabele

Voorbeelden van normale verdeling in statistieken

Laten we de volgende voorbeelden bespreken.

Voorbeeld 1

Stel dat een bedrijf 10.000 werknemers heeft en meerdere salarissen volgens de functie waarin de werknemer werkt. De salarissen worden over het algemeen verdeeld met het populatiegemiddelde van µ = $ 60.000, en de standaarddeviatie van de populatie σ = $ 15.000. Wat is de kans dat een willekeurig geselecteerde werknemer een salaris heeft van minder dan $ 45.000 per jaar?

Oplossing

Zoals te zien is in de bovenstaande afbeelding, moeten we om deze vraag te beantwoorden het gebied onder de normale curve van 45 naar de linkerzijstaart uitzoeken. We moeten ook de Z-tabelwaarde gebruiken om het juiste antwoord te krijgen.

Ten eerste moeten we het gegeven gemiddelde en de standaarddeviatie omzetten in een standaardnormale verdeling met gemiddelde (µ) = 0 en standaarddeviatie (σ) = 1 met behulp van de transformatieformule.

Na de conversie moeten we de Z-tabel opzoeken om de corresponderende waarde te vinden, die ons het juiste antwoord geeft.

Gegeven,

  • Gemiddelde (µ) = $ 60.000
  • Standaarddeviatie (σ) = $ 15.000
  • Willekeurige variabele (x) = $ 45.000

Transformatie (z) = (45000 - 60000/15000)

Transformatie (z) = -1

Nu is de waarde die gelijk is aan -1 in de Z-tabel 0,1587, wat het gebied onder de curve vertegenwoordigt van 45 naar links. Het gaf aan dat wanneer we willekeurig een werknemer selecteren, de kans om minder dan $ 45.000 per jaar te verdienen 15,87% is.

Voorbeeld 2

Houd nu hetzelfde scenario aan als hierboven en ontdek de kans dat een willekeurig geselecteerde werknemer meer dan $ 80.000 per jaar verdient met behulp van de normale verdeling.

Oplossing

Dus in deze vraag moeten we met dezelfde formule het gearceerde gebied van 80 tot de rechterstaart achterhalen.

Gegeven,

  • Gemiddelde (µ) = $ 60.000
  • Standaarddeviatie (σ) = $ 15.000
  • Willekeurige variabele (X) = $ 80.000

Transformatie (z) = (80000 - 60000/15000)

Transformatie (z) = 1,33

Volgens de Z-tabel is de equivalente waarde van 1,33 0,9082 of 90,82%, wat aantoont dat de kans om willekeurig werknemers te selecteren die minder dan $ 80.000 per jaar verdienen 90,82% is.

Maar volgens de vraag moeten we de kans bepalen dat de willekeurige werknemers meer dan $ 80.000 per jaar verdienen, dus we moeten de waarde van 100 aftrekken.

  • Willekeurige variabele (X) = 100% - 90,82%
  • Willekeurige variabele (X) = 9,18%

De kans dat werknemers meer dan $ 80.000 per jaar verdienen, is dus 9,18%.

Toepassingen

  • De technische grafiek van de aandelenmarkt is vaak een klokcurve, waardoor analisten en beleggers statistische conclusies kunnen trekken over het verwachte rendement en risico van aandelen.
  • Het wordt in de echte wereld gebruikt, zoals het bepalen van de meest waarschijnlijke beste tijd die pizzabedrijven nodig hebben om pizza te bezorgen en nog veel meer echte toepassingen.
  • Wordt gebruikt bij het vergelijken van hoogtes van een bepaalde populatieset waarin de meeste mensen een gemiddelde lengte hebben en maar heel weinig mensen een bovengemiddelde of ondergemiddelde lengte hebben.
  • Ze worden gebruikt bij het bepalen van de gemiddelde academische prestaties van studenten, wat helpt om de rangorde van studenten te vergelijken.

Conclusie

Normale distributie vindt toepassingen in datawetenschap en data-analyse. Geavanceerde technologieën zoals kunstmatige intelligentie en machine learning die samen met deze distributie worden gebruikt, kunnen een betere gegevenskwaliteit opleveren, wat individuen en bedrijven zal helpen bij het nemen van effectieve beslissingen.

Interessante artikelen...