Forskjell mellom sentral tendens og spredning
Sentrale tendens mot spredning
I beskrivende og inferensiell statistikk brukes flere indekser til å beskrive et datasett som svarer til dets sentrale tendens, spredning og skråhet: de tre viktigste egenskapene som bestemmer den relative formen av fordelingen av et datasett.
Hva er sentral tendens?
Sentral tendens refererer til og lokaliserer senteret for verdifordelingen. Middel, modus og median er de mest brukte indeksene i å beskrive den sentrale tendensen til et datasett. Hvis et datasett er symmetrisk, faller både medianen og mediet av datasettet sammen med hverandre.
Gitt et datasett, beregnes gjennomsnittet ved å ta summen av alle dataverdiene og deretter dele den med antall data. For eksempel blir vektene på 10 personer (i kilo) målt til å være 70, 62, 65, 72, 80, 70, 63, 72, 77 og 79. Da kan gjennomsnittlig vekt på de ti personer (i kilo) være beregnet som følger. Summen av vekter er 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Gjennomsnitt = (sum) / (antall data) = 710/10 = 71 (i kilo). Det er forstått at utjevninger (datapunkter som avviker fra den normale trenden) har en tendens til å påvirke gjennomsnittet. Således, i nærvær av utjevningsmidler betyr alene vil ikke gi et riktig bilde om sentrum av datasettet.
Medianen er datapunktet som er funnet på den eksakte midten av datasettet. En måte å beregne medianen på er å bestille datapunktene i stigende rekkefølge, og deretter finne datapunktet i midten. For eksempel, hvis en gang bestilt det forrige datasettet, ser det ut som, 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Derfor er (70 + 72) / 2 = 71 i midten. Fra dette er det sett at medianen ikke trenger å være i datasettet. Median påvirkes ikke av tilstedeværelsen av utjevnene. Derfor vil medianen tjene som et bedre mål for sentral tendens i nærvær av utelukker.
Modusen er den hyppigst forekommende verdien i datasettet. I forrige eksempel skjer verdien 70 og 72 begge to ganger, og begge er således moduser. Dette viser at i noen distribusjoner er det mer enn en modal verdi. Hvis det bare er en modus, sies datasettet å være unimodal, i dette tilfellet er datasettet bimodalt.
Hva er dispersjon?
Dispersjon er mengden av spredning av data om sentrum av distribusjonen. Omfang og standardavvik er de mest brukte målene for dispersjon.
Utvalget er ganske enkelt den høyeste verdien minus laveste verdi. I det forrige eksempelet er den høyeste verdien 80, og den laveste verdien er 62, så rekkevidden er 80-62 = 18. Men rekkevidde gir ikke et tilstrekkelig bilde om dispersjonen.
For å beregne standardavviket beregnes først avvikene fra dataværdier fra gjennomsnittet. Rotenfeltet betyr avvigelser kalles standardavviket. I foregående eksempel er de respektive avvikene fra middelene (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 og (79 - 71) = 8. Summen av kvadrater av avvik er (-1) 2 + (-9) 2 + (-6) 2 + 1 2 + 9 2 + (-1) 2 + (-8) 2 + 1 2 + 6 2 + 8 2 = 366. Standardavviket er √ (366/10) = 6,05 (i kilo). Med mindre datasettet er sterkt skjev, kan det konkluderes med at flertallet av dataene ligger i intervallet 71 ± 6. 05, og det er faktisk så i dette spesielle eksempelet.
Hva er forskjellen mellom sentral tendens og spredning? • Sentral tendens refererer til og lokaliserer sentrum av fordelingen av verdier • Dispersjon er mengden av spredning av data om sentrum av et datasett. |