Kako pronaći modus i medijan niza brojeva. Strukturne značajke niza varijacijske distribucije. Definicija mode u statistici

Mod i medijan– posebna vrsta prosjeka koji se koriste za proučavanje strukture varijacijskog niza. Ponekad se nazivaju strukturnim prosjecima, za razliku od prethodno razmatranih prosjeka snage.

Moda– to je vrijednost karakteristike (varijante) koja se najčešće nalazi u određenoj populaciji, tj. ima najveću frekvenciju.

Moda ima veliku praktičnu primjenu iu nekim slučajevima samo moda može karakterizirati društvene pojave.

Medijan- ovo je varijanta koja je u sredini uređenog niza varijacija.

Medijan pokazuje kvantitativnu granicu vrijednosti varirajuće karakteristike, koju je dosegla polovica jedinica u populaciji. Korištenje medijana uz prosjek ili umjesto njega preporučljivo je ako postoje otvoreni intervali u nizu varijacija, jer za izračunavanje medijana nije potrebna uvjetna uspostava granica otvorenih intervala, pa stoga nedostatak informacija o njima ne utječe na točnost izračuna medijana.

Medijan se također koristi kada su pokazatelji koji će se koristiti kao ponderi nepoznati. Medijan se koristi umjesto aritmetičke sredine u statističkim metodama kontrole kvalitete proizvoda. Zbroj apsolutnih odstupanja opcija od medijana manji je nego od bilo kojeg drugog broja.

Razmotrimo izračun modusa i medijana u diskretnom nizu varijacija :

Odredite modus i medijan.

Moda Mo = 4 godine, jer ova vrijednost odgovara najvećoj frekvenciji f = 5.

Oni. najveći broj radnika ima 4 godine iskustva.

Kako bismo izračunali medijan, prvo pronalazimo polovicu zbroja frekvencija. Ako je zbroj frekvencija neparan broj, tada ovom zbroju prvo dodamo jedan, a zatim podijelimo na pola:

Medijan će biti osma opcija.

Kako bismo pronašli koja će opcija biti osma po broju, skupljat ćemo frekvencije dok ne dobijemo zbroj frekvencija jednak ili veći od polovice zbroja svih frekvencija. Odgovarajuća opcija bit će medijan.

Meh = 4 godine.

Oni. pola radnika ima manje od četiri godine staža, pola više.

Ako je zbroj akumuliranih frekvencija prema jednoj opciji jednak polovici zbroja frekvencija, tada se medijan definira kao aritmetička sredina ove i sljedeće opcije.

Izračun moda i medijana u serijama intervalnih varijacija

Modus u nizu intervalnih varijacija izračunava se formulom

Gdje x M0- početna granica modalnog intervala,

hm 0 – vrijednost modalnog intervala,

fm 0 , fm 0-1 , fm 0+1 – učestalost modalnog intervala koji prethodi odnosno slijedi modalnom intervalu.

Modalni Naziva se interval kojemu odgovara najveća frekvencija.

Primjer 1

Grupe po iskustvu

Broj radnika, ljudi

Akumulirane frekvencije

Odredite modus i medijan.

Modalni interval, jer odgovara najvišoj frekvenciji f = 35. Tada:

Hm 0 =6, fm 0 =35

Osim prosječnih snaga u statistici za relativna obilježja vrijednosti varirajućeg obilježja i unutarnja struktura serije distribucije koriste strukturne prosjeke, koji su predstavljeni uglavnom moda i medijan.

Moda- Ovo je najčešća varijanta serije. Moda se koristi, primjerice, pri određivanju veličine odjeće i obuće za kojima su kupci najtraženiji. Način rada za diskretnu seriju je onaj s najvećom frekvencijom. Prilikom izračunavanja moda za niz varijacija intervala, prvo morate odrediti modalni interval (na temelju maksimalne frekvencije), a zatim vrijednost modalne vrijednosti atributa pomoću formule:

Medijan - ovo je vrijednost atributa koji je u osnovi rangirane serije i dijeli ovu seriju na dva jednaka dijela.

Za određivanje medijana u diskretnoj seriji ako su frekvencije dostupne, prvo izračunajte poluzbroj frekvencija, a zatim odredite koja vrijednost varijante pada na nju. (Ako sortirani niz sadrži neparan broj značajki, tada se srednji broj izračunava pomoću formule:

M e = (n (ukupan broj značajki) + 1)/2,

u slučaju parnog broja obilježja, medijan će biti jednak prosjeku dvaju obilježja u sredini reda).

Pri računanju medijana za niz intervalnih varijacija Najprije odredite interval medijana unutar kojeg se nalazi medijan, a zatim odredite vrijednost medijana pomoću formule:

Primjer. Pronađite modus i medijan.

Riješenje:
U ovom primjeru modalni interval je unutar dobne skupine od 25-30 godina, budući da ovaj interval ima najveću učestalost (1054).

Izračunajmo veličinu moda:

To znači da je modalna dob učenika 27 godina.

Izračunajmo medijan. Interval medijana je u dobnoj skupini od 25-30 godina, jer unutar ovog intervala postoji opcija koja populaciju dijeli na dva jednaka dijela (Σf i /2 = 3462/2 = 1731). Zatim zamijenimo potrebne numeričke podatke u formulu i dobijemo srednju vrijednost:

To znači da je polovica studenata mlađa od 27,4 godine, a druga polovica starija od 27,4 godine.

Osim moda i medijana, mogu se koristiti pokazatelji kao što su kvartili, koji dijele rangirani niz na 4 jednaka dijela, decili -10 dijelova i percentili - na 100 dijelova.

Osnovni koncepti

Za eksperimentalne podatke dobivene iz uzorka, može se izračunati niz numeričke karakteristike(mer).

Mode je brojčana vrijednost koja se najčešće pojavljuje u uzorku. Moda se ponekad naziva Mo

Na primjer, u vrijednosti serije (2 6 6 8 9 9 9 10) način je 9 jer se 9 pojavljuje češće od bilo kojeg drugog broja.

Način predstavlja vrijednost koja se najčešće pojavljuje (9 u ovom primjeru), a ne učestalost pojavljivanja te vrijednosti (3 u ovom primjeru).

Moda se pronalazi prema pravilima

1. U slučaju kada se sve vrijednosti u uzorku pojavljuju jednako često, općenito je prihvaćeno da ova serija uzorka nema modus.

Na primjer, 556677 - u ovom uzorku nema mode.

2. Kada dvije susjedne (susjedne) vrijednosti imaju istu frekvenciju i njihova je frekvencija veća od frekvencija bilo koje druge vrijednosti, mod se izračunava kao aritmetička sredina tih dviju vrijednosti.

Na primjer, u uzorku 1 2 2 2 5 5 5 6 frekvencije susjednih vrijednosti 2 i 5 podudaraju se i jednake su 3. Ta je frekvencija veća od frekvencije ostalih vrijednosti 1 i 6 (za koje je je jednak 1).

Shodno tome, način ove serije će biti .

3) Ako dvije nesusjedne (ne susjedne) vrijednosti u uzorku imaju jednake frekvencije koje su veće od frekvencija bilo koje druge vrijednosti, tada se razlikuju dva načina. Na primjer, u nizu 10 11 11 11 12 13 14 14 14 17 načini su vrijednosti 11 i 14. U ovom slučaju se kaže da je uzorak bimodalni.

Također mogu postojati takozvane multimodalne distribucije koje imaju više od dva vrha (moda)

4) Ako se mod procjenjuje iz skupa grupiranih podataka, tada je za pronalaženje moda potrebno odrediti skupinu s najvećom učestalošću karakteristike. Ova grupa se zove modalna skupina.

Medijan - označen Meh a definira se kao vrijednost u odnosu na koju je najmanje 50% vrijednosti uzorka manje od nje, a najmanje 50% više.

Medijan je vrijednost koja dijeli uređeni skup podataka na pola.

Zadatak 1. Nađite medijan uzorka 9 3 5 8 4 11 13

Rješenje Prvo, sortirajmo uzorak prema vrijednostima koje su u njemu uključene. Dobivamo 3 4 5 8 9 11 13. Budući da u uzorku ima sedam elemenata, četvrti element po redu imat će vrijednost veću od prva tri i manju od zadnja tri. Dakle, medijan će biti četvrti element - 8

Problem 2. Pronađite medijan uzorka 20, 9, 13, 1, 4, 11.

Poredajmo uzorak 1, 4, 9, 11, 13, 20 Budući da postoji paran broj elemenata, postoje dvije "srednje" - 9 i 13. U ovom slučaju, medijan je definiran kao aritmetička sredina ovih vrijednosti

Prosjek


Aritmetička sredina niza od n numeričkih vrijednosti izračunava se kao

Da pokažemo varljivost ovog pokazatelja, navedimo dobro poznati primjer: u jedan odjeljak vagona stane 60-godišnja baka s četvero unučadi: jedno od 4 godine, dvoje od 5 godina i jedno - star 6 godina. Aritmetička sredina godina svih putnika u ovom kupeu je 80/5 = 16. U drugom kupeu bila je skupina mladih ljudi: dvoje 15-godišnjaka, jedan 16-godišnjak i dvoje 17-godišnjaka. Prosječna dob putnika u ovom kupeu također je 80/5 = 16. Dakle, prema aritmetičkim prosjecima, putnici ovih kupea se ne razlikuju. Ali ako pogledamo pokazatelj standardna devijacija, onda ispada da će prosječni raspon u odnosu na prosječnu dob u prvom slučaju biti 24,6, au drugom slučaju 1.

Osim toga, prosjek se pokazao prilično osjetljivim na vrlo male ili vrlo velike vrijednosti koje se razlikuju od glavnih vrijednosti izmjerenih karakteristika. Neka 9 ljudi ima prihod od 4500 do 5200 tisuća dolara mjesečno. Vrijednost njihovog prosječnog dohotka jednaka je 4900 $. Ako ovoj skupini dodamo osobu s prihodom od 20 000 tisuća dolara mjesečno, tada će se prosjek cijele skupine pomaknuti i ispasti jednak 6410 $, iako nitko iz cijelog uzorka (osim jedne osobe) stvarno dobije toliki iznos.

Jasno je da se sličan pomak, ali u suprotnom smjeru, može dobiti i ako ovoj skupini dodate osobu s vrlo malim godišnjim prihodom.

Širenje uzorka

Raspršeno ( djelokrug) uzorci– razlika između maksimalne i minimalne vrijednosti ove određene serije varijacija. Označava se slovom R.

Raspon = maksimalna vrijednost - minimalna vrijednost

Jasno je da što više varira izmjerena karakteristika, to je R vrijednost veća, i obrnuto.

Međutim, može se dogoditi da dvije serije uzoraka imaju i srednju vrijednost i raspon iste, ali će priroda varijacije u tim serijama biti drugačija. Na primjer, dana su dva uzorka

Disperzija

Varijanca je najčešće korištena mjera disperzije slučajne veličine (varijable).

Disperzija je aritmetička sredina kvadrata odstupanja vrijednosti varijable od njezine srednje vrijednosti

Uz prosječne vrijednosti izračunavaju se i strukturni prosjeci kao statističke karakteristike varijacijskih serija distribucija - moda I medijan.
Moda(Mo) predstavlja vrijednost karakteristike koja se proučava, koja se ponavlja s najvećom učestalošću, tj. način – vrijednost karakteristike koja se najčešće pojavljuje.
Medijan(Me) je vrijednost atributa koja se nalazi u sredini rangirane (poređane) populacije, tj. medijan je središnja vrijednost niza varijacija.
Glavno svojstvo medijana je da je zbroj apsolutnih odstupanja vrijednosti atributa od medijana manji nego od bilo koje druge vrijednosti ∑|x i - Me|=min.

Određivanje modusa i medijana iz negrupiranih podataka

Razmotrimo određivanje moda i medijana iz negrupiranih podataka. Pretpostavimo da radni tim od 9 ljudi ima sljedeće tarifne kategorije: 4 3 4 5 3 3 6 2 6. Budući da ova brigada ima najviše radnika 3. kategorije, ovaj će tarifni razred biti modalni. Mo = 3.
Za određivanje medijana potrebno je izvršiti rangiranje: 2 3 3 3 4 4 5 6 6 . Središnji radnik u ovoj seriji je radnik 4. kategorije, stoga će ova kategorija biti medijan. Ako rangirani niz uključuje paran broj jedinica, tada se medijan definira kao prosjek dviju središnjih vrijednosti.
Ako način odražava najčešću varijantu vrijednosti atributa, tada medijan praktički obavlja funkcije prosjeka za heterogenu populaciju koja se ne pokorava normalnom zakonu distribucije. Ilustrirajmo njegov kognitivni značaj sljedećim primjerom.
Recimo da trebamo okarakterizirati prosječni prihod grupe ljudi koja se sastoji od 100 ljudi, od kojih 99 ima prihode u rasponu od 100 do 200 dolara mjesečno, a mjesečni prihod potonjih je 50 000 dolara (tablica 1).
Tablica 1 - Mjesečni prihodi proučavane skupine ljudi. Ako koristimo aritmetički prosjek, dobivamo prosječni prihod od otprilike 600 - 700 dolara, što nema mnogo zajedničkog s primanjima glavnog dijela grupe. Medijan, koji je u ovom slučaju jednak Me = 163 dolara, omogućit će nam da damo objektivan opis razine prihoda 99% ove skupine ljudi.
Razmotrimo određivanje modusa i medijana korištenjem grupiranih podataka (serija distribucije).
Pretpostavimo da raspodjela radnika cjelokupnog poduzeća prema tarifnom razredu ima sljedeći oblik (tablica 2).
Tablica 2 - Raspodjela radnika poduzeća po tarifnim kategorijama

Izračun mode i medijana za diskretnu seriju

Izračun moda i medijana za intervalne serije

Izračun modusa i medijana za niz varijacija

Određivanje moda iz niza diskretnih varijacija

Koristi se prethodno konstruirana serija vrijednosti atributa, poredana po vrijednosti. Ako je veličina uzorka neparna, uzimamo središnju vrijednost; ako je veličina uzorka parna, uzimamo aritmetičku sredinu dviju središnjih vrijednosti.
Određivanje moda iz niza diskretnih varijacija: 5. tarifni razred ima najveću frekvenciju (60 osoba), dakle, on je modalan. Mo = 5.
Da bi se odredila vrijednost medijana obilježja, broj jedinice medijana niza (N Me) nalazi se pomoću sljedeće formule: , gdje je n volumen populacije.
U našem slučaju: .
Rezultirajuća frakcijska vrijednost, koja se uvijek pojavljuje kada Parni broj populacijskih jedinica, pokazuje da je točna srednja točka između 95 i 96 radnika. Potrebno je utvrditi koja skupina radnika s tim serijski brojevi. To se može učiniti izračunavanjem akumuliranih frekvencija. Radnika s tim brojem nema u prvoj skupini, gdje je samo 12 osoba, au drugoj skupini (12+48=60) nema niti jednog radnika. 95. i 96. radnik su u trećoj skupini (12+48+56=116), dakle, medijan je 4. tarifni razred.

Izračunavanje moda i medijana u intervalnim serijama

Za razliku od diskretnih varijacijskih serija, određivanje modusa i medijana iz intervalnih serija zahtijeva određene izračune temeljene na sljedeće formule:
, (5.6)
Gdje x 0– donja granica modalnog intervala (interval s najvećom frekvencijom naziva se modalni);
ja– vrijednost modalnog intervala;
fMo– učestalost modalnog intervala;
f Mo -1– učestalost intervala koji prethodi modalnom;
f Mo +1– učestalost intervala koji slijedi nakon modalnog.
(5.7)
Gdje x 0– donja granica intervala medijana (medijan je prvi interval čija akumulirana frekvencija prelazi polovicu ukupnog zbroja frekvencija);
ja– vrijednost srednjeg intervala;
Ja sam -1– akumulirani interval koji prethodi medijanu;
fMe– učestalost srednjeg intervala.
Ilustrirajmo primjenu ovih formula pomoću podataka u tablici. 3.
Interval s granicama 60 – 80 u ovoj distribuciji bit će modalan, jer ima najveću frekvenciju. Pomoću formule (5.6) definiramo modus:

Za određivanje srednjeg intervala potrebno je odrediti akumuliranu frekvenciju svakog sljedećeg intervala dok ne prijeđe polovicu zbroja akumuliranih frekvencija (u našem slučaju 50%) (tablica 5.11).
Utvrđeno je da je medijan interval s granicama od 100 - 120 tisuća rubalja. Odredimo sada medijan:

Tablica 3 - Distribucija stanovništva Ruske Federacije prema razini prosječnog nominalnog novčanog dohotka po glavi stanovnika u ožujku 1994.
Grupe prema razini prosječnog mjesečnog dohotka po glavi stanovnika, tisuća rubalja.Udio stanovništva, %
do 201,4
20 – 40 7,5
40 – 60 11,9
60 – 80 12,7
80 – 100 11,7
100 – 120 10,0
120 – 140 8,3
140 –160 6,8
160 – 180 5,5
180 – 200 4,4
200 – 220 3,5
220 – 240 2,9
240 – 260 2,3
260 – 280 1,9
280 – 300 1,5
Preko 3007,7
Ukupno100,0

Tablica 4 - Određivanje srednjeg intervala
Dakle, aritmetička sredina, mod i medijan mogu se koristiti kao generalizirana karakteristika vrijednosti određenog atributa za jedinice rangirane populacije.
Glavna karakteristika distribucijskog centra je aritmetička sredina, koju karakterizira činjenica da sva odstupanja od nje (pozitivna i negativna) zbrojeno daju nuli. Medijan karakterizira činjenica da je zbroj odstupanja od njega u modulu minimalan, a mod je vrijednost atributa koja se najčešće pojavljuje.
Omjer moda, medijana i aritmetičke sredine ukazuje na prirodu distribucije karakteristike u agregatu i omogućuje procjenu njegove asimetrije. U simetričnim raspodjelama sve tri karakteristike se podudaraju. Što je veća razlika između modusa i aritmetičke sredine, serija je asimetričnija. Za umjereno asimetrične serije, razlika između moda i aritmetičke sredine je približno tri puta veća od razlike između medijana i sredine, tj.
|Mo –`x| = 3 |Me –`x|.

Određivanje moda i medijana grafičkom metodom

Mod i medijan u nizu intervala mogu se odrediti grafički. Mod je određen histogramom distribucije. Da biste to učinili, odaberite najviši pravokutnik, koji je u ovom slučaju modalan. Zatim povezujemo desni vrh modalnog pravokutnika s gornjim desnim kutom prethodnog pravokutnika. I lijevi vrh modalnog pravokutnika - s gornjim lijevim kutom sljedećeg pravokutnika. S točke njihova sjecišta spuštamo okomicu na os apscise. Apscisa sjecišta ovih linija bit će način distribucije (sl. 5.3).


Riža. 5.3. Grafičko određivanje moda pomoću histograma.


Riža. 5.4. Grafičko određivanje medijana kumulatom
Za određivanje medijana od točke na ljestvici akumuliranih frekvencija (učestalosti) koja odgovara 50%, povlači se ravna linija paralelna s osi apscisa dok se ne siječe s kumulatom. Zatim se iz sjecišta spušta okomica na x-os. Apscisa sjecišta je medijan.

Kvartili, decili, percentili

Slično, pronalaženjem medijana u nizu varijacija distribucije, možete pronaći vrijednost atributa za bilo koju jedinicu rangiranog niza. Tako, na primjer, možete pronaći vrijednost atributa za jedinice koje dijele niz na četiri jednaka dijela, na 10 ili 100 dijelova. Te se vrijednosti nazivaju "kvartili", "decili", "percentili".
Kvartili predstavljaju vrijednost značajke koja dijeli rangiranu populaciju na 4 jednaka dijela.
Postoji donji kvartil (Q 1) koji odvaja ¼ stanovništva najniže vrijednosti karakteristika, i gornji kvartil (Q 3), odsijecajući ¼ dijela najviše vrijednosti znak. To znači da će 25% jedinica u populaciji biti manje vrijednosti Q 1 ; 25% jedinica bit će sadržano između Q 1 i Q 2 ; 25% je između Q 2 i Q 3, a preostalih 25% prelazi Q 3. Srednji kvartil Q2 je medijan.
Za izračun kvartila pomoću niza intervalnih varijacija koriste se sljedeće formule:
, ,
Gdje x Q 1– donja granica intervala koji sadrži donji kvartil (interval je određen akumuliranom frekvencijom, pri čemu prva prelazi 25%);
x Q 3– donja granica intervala koji sadrži gornji kvartil (interval je određen akumuliranom frekvencijom, prva prelazi 75%);
ja– veličina intervala;
S P 1-1– akumulirana frekvencija intervala koji prethodi intervalu koji sadrži donji kvartil;
S P 3-1– akumulirana frekvencija intervala koji prethodi intervalu koji sadrži gornji kvartil;
f Q 1– učestalost intervala koji sadrži donji kvartil;
f Q 3– frekvencija intervala koji sadrži gornji kvartil.
Razmotrimo izračun donjeg i gornjeg kvartila prema podacima u tablici. 5.10. Donji kvartil je u rasponu 60 – 80, čija je kumulativna učestalost 33,5%. Gornji kvartil nalazi se u rasponu 160 – 180 s akumuliranom učestalošću od 75,8%. Uzimajući ovo u obzir dobivamo:
,
.
Osim kvartila, decili se mogu odrediti u rasponima varijacija distribucije - opcije koje dijele niz rangiranih varijacija na deset jednake dijelove. Prvi decil (d 1) dijeli stanovništvo u omjeru od 1/10 do 9/10, drugi decil (d 1) - u omjeru od 2/10 do 8/10, itd.
Izračunavaju se pomoću formula:
, .
Karakteristične vrijednosti koje dijele niz na sto dijelova nazivaju se percentili. Omjeri medijana, kvartila, decila i percentila prikazani su na slici. 5.5.



Pročitajte također: