Hogyan találjuk meg egy számsorozat módusát és mediánját. A variációs eloszlássorozat szerkezeti jellemzői. A divat meghatározása a statisztikában

Mód és medián– az átlagok egy speciális fajtája, amelyet a variációs sorozatok szerkezetének vizsgálatára használnak. Ezeket néha strukturális átlagoknak is nevezik, ellentétben a korábban tárgyalt teljesítményátlagokkal.

Divat– ez egy adott populációban leggyakrabban előforduló jellemző (változat) értéke, pl. a legmagasabb frekvenciájú.

A divatnak nagy gyakorlati alkalmazása van, és bizonyos esetekben csak a divat képes jellemezni a társadalmi jelenségeket.

Középső- ez egy olyan változat, amely egy rendezett variációs sorozat közepén van.

A medián egy változó jellemző értékének mennyiségi határát mutatja, amelyet a sokaságban lévő egységek fele elért. A medián használata az átlaggal együtt vagy helyette célszerű, ha a variációs sorozatban nyílt intervallumok vannak, mert a medián kiszámításához nem szükséges a nyitott intervallumok határainak feltételes megállapítása, ezért az ezekre vonatkozó információk hiánya nem befolyásolja a medián számításának pontosságát.

A mediánt akkor is használják, ha a súlyként használandó mutatók ismeretlenek. A termékminőség-ellenőrzés statisztikai módszereiben a mediánt használják a számtani átlag helyett. Az opciók mediántól való abszolút eltéréseinek összege kisebb, mint bármely más számtól.

Tekintsük a módus és a medián számítását egy diszkrét variációs sorozatban :

Határozza meg a módot és a mediánt.

Fashion Mo = 4 év, mivel ez az érték a legmagasabb f = 5 gyakoriságnak felel meg.

Azok. a legtöbb dolgozó 4 éves tapasztalattal rendelkezik.

A medián kiszámításához először megtaláljuk a gyakoriságok összegének felét. Ha a frekvenciák összege páratlan szám, akkor ehhez az összeghez először hozzáadunk egyet, majd kettéosztjuk:

A medián a nyolcadik lehetőség lesz.

Annak érdekében, hogy megtudjuk, melyik opció lesz a nyolcadik szám szerint, addig halmozzuk a frekvenciákat, amíg a frekvenciák összege egyenlő vagy nagyobb, mint az összes frekvencia összegének a fele. A megfelelő opció a medián lesz.

Meh = 4 év.

Azok. a dolgozók fele négy évnél kevesebb, fele több.

Ha az egyik opcióhoz képest a felhalmozott gyakoriságok összege egyenlő a gyakoriságok összegének felével, akkor a mediánt ennek és a következő opciónak a számtani középértékeként definiáljuk.

Módus és medián számítása intervallumvariációs sorozatokban

Az intervallumvariáció-sorozat módusát a képlet számítja ki

Ahol x M0- a modális intervallum kezdeti határa,

hm 0 – a modális intervallum értéke,

fm 0 , fm 0-1 , fm 0+1 – a modális intervallumot megelőző, illetve azt követő modális intervallum gyakorisága.

Modal Meghívjuk azt az intervallumot, amelyhez a legmagasabb frekvencia tartozik.

1. példa

Csoportok tapasztalat szerint

Dolgozók száma, fő

Felhalmozott frekvenciák

Határozza meg a módot és a mediánt.

Modális intervallum, mert a legmagasabb frekvenciának felel meg, f = 35. Ekkor:

Hm 0 =6, 0 =35

A statisztikában a teljesítményátlagok mellett a relatív jellemzők értékének változó jellemzői és belső szerkezet eloszlási sorozatok strukturális átlagokat használnak, amelyeket főként a divat és medián.

Divat- Ez a sorozat leggyakoribb változata. A divatot például a vásárlók körében leginkább keresett ruhák és cipők méretének meghatározására használják. A diszkrét sorozatok üzemmódja a legmagasabb frekvenciájú. Az intervallumváltozat-sorozat módozatának kiszámításakor először meg kell határoznia a modális intervallumot (a maximális gyakoriság alapján), majd az attribútum modális értékének értékét a következő képlet segítségével:

Medián - ez az attribútum értéke, amely a rangsorolt ​​sorozat alapját képezi, és ezt a sorozatot két egyenlő részre osztja.

A medián meghatározásához diszkrét sorozatban ha rendelkezésre állnak frekvenciák, először számítsa ki a frekvenciák fele összegét, majd határozza meg, hogy a változat melyik értéke esik rá. (Ha a rendezett sorozat páratlan számú jellemzőt tartalmaz, akkor a mediánszám kiszámítása a következő képlettel történik:

M e = (n (a jellemzők száma összesen) + 1)/2,

páros számú jellemző esetén a medián egyenlő lesz a sor közepén lévő két jellemző átlagával).

A medián kiszámításakor intervallum variációs sorozatokhoz Először határozza meg a medián intervallumot, amelyen belül a medián található, majd határozza meg a medián értékét a képlet segítségével:

Példa. Keresse meg a módot és a mediánt.

Megoldás:
Ebben a példában a modális intervallum a 25-30 éves korcsoportba tartozik, mivel ez az intervallum a legmagasabb gyakorisággal (1054).

Számítsuk ki a módus nagyságát:

Ez azt jelenti, hogy a hallgatók modális életkora 27 év.

Számítsuk ki a mediánt. A medián intervallum a 25-30 éves korosztályba esik, hiszen ezen belül van egy lehetőség, amely két egyenlő részre osztja a népességet (Σf i /2 = 3462/2 = 1731). Ezután behelyettesítjük a szükséges numerikus adatokat a képletbe, és megkapjuk a medián értéket:

Ez azt jelenti, hogy a tanulók fele 27,4 év alatti, másik fele 27,4 év feletti.

A módus és medián mellett olyan mutatók is használhatók, mint a kvartilisek, amelyek a rangsorolt ​​sorozatokat 4 egyenlő részre, a deciliseket -10 részre és a percentiliseket - 100 részre osztják.

Alapfogalmak

A mintából nyert kísérleti adatokhoz ki lehet számítani a sorozatot numerikus jellemzők(mert).

A mód a mintában leggyakrabban előforduló számérték. A divatot néha úgy emlegetik Mo.

Például a sorozatértékben (2 6 6 8 9 9 9 10) a mód 9, mert a 9 gyakrabban fordul elő, mint bármely más szám.

A mód a leggyakrabban előforduló értéket képviseli (ebben a példában 9), nem pedig az érték előfordulási gyakoriságát (ebben a példában 3).

A divatot a szabályok szerint találják meg

1. Abban az esetben, ha a mintában minden érték egyformán gyakran fordul elő, általánosan elfogadott, hogy ennek a mintasorozatnak nincs módusa.

Például 556677 - ebben a mintában nincs divat.

2. Ha két szomszédos (szomszédos) értéknek azonos a gyakorisága, és gyakoriságuk nagyobb, mint bármely más érték frekvenciája, a módusz ennek a két értéknek a számtani átlagaként kerül kiszámításra.

Például az 1 2 2 2 5 5 5 6 mintában a szomszédos 2 és 5 értékek gyakorisága egybeesik, és egyenlő 3-mal. Ez a frekvencia nagyobb, mint a többi 1 és 6 érték gyakorisága (amelyre ez vonatkozik). egyenlő 1).

Következésképpen ennek a sorozatnak a módja a következő lesz.

3) Ha a mintában lévő két nem szomszédos (nem szomszédos) értéknek egyenlő a frekvenciája, amelyek nagyobbak, mint bármely más érték frekvenciája, akkor két módot különböztetünk meg. Például a 10 11 11 11 12 13 14 14 14 17 sorozatban a módok 11 és 14 értékek. Ebben az esetben a minta bimodális.

Lehetnek úgynevezett multimodális eloszlások is, amelyek kettőnél több csúcsot (módusokat) tartalmaznak.

4) Ha az üzemmódot csoportosított adatok halmazából becsüljük meg, akkor a módusz megtalálásához meg kell határozni a jellemző legmagasabb gyakoriságú csoportját. Ezt a csoportot ún modális csoport.

Medián - jelölve Mehés olyan értékként definiálható, amelyhez képest a mintaértékek legalább 50%-a kisebb, és legalább 50%-a több.

A medián az az érték, amely egy rendezett adathalmazt kettéoszt.

1. feladat Határozza meg a 9 3 5 8 4 11 13 minta mediánját!

Megoldás Először is rendezzük a mintát a benne szereplő értékek szerint. Azt kapjuk, hogy 3 4 5 8 9 11 13. Mivel hét elem van a mintában, a sorrendben a negyedik elem értéke nagyobb, mint az első három és kisebb, mint az utolsó három. Így a medián a negyedik elem lesz - 8

2. feladat Keresse meg a 20, 9, 13, 1, 4, 11 minta mediánját!

Rendeljük az 1., 4., 9., 11., 13., 20. mintát. Mivel páros számú elem van, két „közép” van - 9 és 13. Ebben az esetben a mediánt ezen értékek számtani átlagaként határozzuk meg.

Átlagos


Egy n számértékből álló sorozat számtani középértékét a következőképpen számítjuk ki

Ennek a mutatónak a megtévesztő voltának bemutatására mondjunk egy jól ismert példát: egy 60 éves nagymama négy unokával elfér egy kocsi egyik rekeszében: egy - 4 éves, kettő - 5 éves, és egy - 6 éves. Ebben a fülkében az összes utas számtani átlaga 80/5 = 16. Egy másik fülkében fiatalokból álló csoport volt: két 15 éves, egy 16 éves és két 17 éves. Az utasok átlagéletkora ebben a fülkében is 80/5 = 16. Így a számtani átlagok szerint ezen fülkék utasai nem különböznek egymástól. De ha a mutatót nézzük szórás, akkor kiderül, hogy az átlagéletkorhoz viszonyított átlagos szórás az első esetben 24,6, a második esetben pedig 1 lesz.

Ezenkívül az átlag meglehetősen érzékeny a nagyon kicsi vagy nagyon nagy értékekre, amelyek eltérnek a mért jellemzők fő értékétől. Legyen 9 embernek havi 4500-5200 ezer dollár bevétele. Átlagjövedelmük értéke 4900 dollár.Ha ehhez a csoporthoz hozzáadunk egy havi 20 000 ezer dolláros jövedelemmel rendelkező személyt, akkor az egész csoport átlaga eltolódik és 6410 dollárnak bizonyul, bár senki sem a teljes mintából (egy fő kivételével) ténylegesen kap ilyen összeget.

Nyilvánvaló, hogy hasonló, de az ellenkező irányú elmozdulás akkor is elérhető, ha ehhez a csoporthoz hozzáadunk egy nagyon alacsony éves jövedelmű személyt.

Mintaterítés

Scatter ( hatálya) minták– az adott variációs sorozat maximális és minimális értéke közötti különbség. R betűvel jelölve.

Tartomány = maximális érték - minimális érték

Nyilvánvaló, hogy minél inkább változik a mért jellemző, annál nagyobb az R érték, és fordítva.

Előfordulhat azonban, hogy két mintasorozat átlaga és tartománya megegyezik, de ezekben a sorozatokban a variáció jellege eltérő lesz. Például két mintát adunk meg

Diszperzió

A variancia egy véletlenszerű mennyiség (változó) szórásának leggyakrabban használt mérőszáma.

A diszperzió egy változó értékének átlagértékétől való négyzetes eltérésének számtani átlaga

Az átlagértékekkel együtt a strukturális átlagokat az eloszlások variációs sorozatainak statisztikai jellemzőiként számítjuk ki - divatÉs középső.
Divat(Mo) a vizsgált jellemző értékét jelenti, a legnagyobb gyakorisággal ismételve, azaz. mód – a leggyakrabban előforduló jellemző értéke.
Középső(Me) annak az attribútumnak az értéke, amely a rangsorolt ​​(rendezett) sokaság közepére esik, azaz. a medián egy variációs sorozat központi értéke.
A medián fő tulajdonsága, hogy az attribútumértékek abszolút eltéréseinek összege a mediántól kisebb, mint bármely más értéktől ∑|x i - Me|=min.

Mód és medián meghatározása csoportosítatlan adatokból

Mérlegeljük mód és medián meghatározása csoportosítatlan adatokból. Tegyük fel, hogy egy 9 fős munkacsoport a következő tarifakategóriákkal rendelkezik: 4 3 4 5 3 3 6 2 6. Mivel ebben a brigádban van a legtöbb 3. kategória dolgozója, ez a tarifakategória modális lesz. Mo = 3.
A medián meghatározásához rangsorolást kell végezni: 2 3 3 3 4 4 5 6 6 . Ebben a sorozatban a központi dolgozó a 4. kategória dolgozója, ezért ez a kategória lesz a medián. Ha a rangsorolt ​​sorozat páros számú egységet tartalmaz, akkor a mediánt a két központi érték átlagaként definiáljuk.
Ha a módusz az attribútumérték legáltalánosabb változatát tükrözi, akkor a medián gyakorlatilag az átlag függvényeit látja el egy heterogén sokaság esetében, amely nem engedelmeskedik a normál eloszlási törvénynek. Illusztráljuk kognitív jelentőségét a következő példával.
Tegyük fel, hogy jellemeznünk kell egy 100 fős embercsoport átlagjövedelmét, akik közül 99 fő havi jövedelme 100-200 dollár között mozog, utóbbiak havi jövedelme pedig 50 000 dollár (1. táblázat).
1. táblázat - A vizsgált embercsoport havi jövedelme. Ha a számtani átlagot használjuk, akkor körülbelül 600-700 dolláros átlagjövedelmet kapunk, aminek nem sok köze van a csoport nagy részének jövedelméhez. A medián, amely ebben az esetben egyenlő Me = 163 dollárral, lehetővé teszi számunkra, hogy objektív leírást adjunk ennek az embercsoportnak a jövedelmi szintjéről.
Vegyük fontolóra a módusz és medián meghatározását csoportosított adatok (eloszlási sorozatok) felhasználásával.
Tegyük fel, hogy a teljes vállalkozás dolgozóinak tarifakategóriák szerinti megoszlása ​​a következő (2. táblázat).
2. táblázat - A vállalati dolgozók megoszlása ​​tarifakategóriák szerint

Módus és medián számítása diszkrét sorozatra

Módus és medián számítása intervallumsorokhoz

Módus és medián számítása egy variációs sorozathoz

Módus meghatározása diszkrét variációs sorozatból

A rendszer az attribútumértékek korábban összeállított sorozatát használja, érték szerint rendezve. Ha a minta mérete páratlan, akkor a központi értéket vesszük; ha a minta mérete páros, akkor a két központi érték számtani átlagát vesszük.
Módus meghatározása diszkrét variációs sorozatból: az 5. tarifakategória a legmagasabb gyakorisággal (60 fő), ezért modális. Mo = 5.
Egy jellemző mediánértékének meghatározásához a sorozat medián egységének számát (N Me) a következő képlettel találjuk meg: , ahol n a sokaság térfogata.
A mi esetünkben: .
Az eredményül kapott törtérték, amely mindig akkor következik be, amikor páros szám lakossági egységek, azt jelzi, hogy a pontos középpont 95 és 96 dolgozó között van. Meg kell határozni, hogy ezekkel melyik csoport dolgozói vannak sorozatszámok. Ezt a felhalmozott frekvenciák kiszámításával lehet megtenni. Az első csoportban, ahol mindössze 12 fő, nincs ilyen létszámú dolgozó, a másodikban pedig nincs (12+48=60). A 95. és 96. dolgozók a harmadik csoportba tartoznak (12+48+56=116), így a medián a 4. tarifakategória.

Módus és medián számítása intervallumsorokban

A diszkrét variációs sorozatokkal ellentétben a módusz és a medián intervallumsorokból történő meghatározása bizonyos számításokat igényel következő képleteket:
, (5.6)
Ahol x 0– a modális intervallum alsó határa (a legmagasabb gyakoriságú intervallumot modálisnak nevezzük);
én– a modális intervallum értéke;
f Mo– a modális intervallum gyakorisága;
f Mo -1– a modálist megelőző intervallum gyakorisága;
f Mo +1– a modálist követő intervallum gyakorisága.
(5.7)
Ahol x 0– a medián intervallum alsó határa (a medián az az első intervallum, amelynek összesített gyakorisága meghaladja a frekvenciák összösszegének felét);
én– a medián intervallum értéke;
S Én -1– a mediánt megelőző halmozott intervallum;
fMe– a medián intervallum gyakorisága.
Szemléltessük e képletek alkalmazását a táblázat adataival! 3.
Ebben az eloszlásban a 60 – 80 határú intervallum modális lesz, mert ennek van a legmagasabb frekvenciája. Az (5.6) képlet segítségével definiáljuk a módot:

A medián intervallum megállapításához meg kell határozni minden további intervallum halmozott gyakoriságát, amíg az meg nem haladja a halmozott gyakoriságok összegének felét (esetünkben az 50%-ot) (5.11. táblázat).
Megállapították, hogy a medián az az intervallum, amelynek határai 100-120 ezer rubel. Határozzuk meg most a mediánt:

3. táblázat - Az Orosz Föderáció lakosságának megoszlása ​​az egy főre jutó átlagos nominális monetáris jövedelem szintje szerint 1994 márciusában.
Csoportok az egy főre jutó átlagos havi jövedelem szintje szerint, ezer rubel.Lakossági részesedés, %
Legfeljebb 201,4
20 – 40 7,5
40 – 60 11,9
60 – 80 12,7
80 – 100 11,7
100 – 120 10,0
120 – 140 8,3
140 –160 6,8
160 – 180 5,5
180 – 200 4,4
200 – 220 3,5
220 – 240 2,9
240 – 260 2,3
260 – 280 1,9
280 – 300 1,5
Több mint 3007,7
Teljes100,0

4. táblázat – A medián intervallum meghatározása
Így a számtani átlag, mód és medián használható egy adott attribútum értékeinek általánosított jellemzőjeként egy rangsorolt ​​sokaság egységeihez.
Az eloszlási központ fő jellemzője a számtani átlag, amelyre az jellemző, hogy az ettől való összes eltérés (pozitív és negatív) nullát ad. A mediánra jellemző, hogy az ettől való eltérések összege moduluszban minimális, a módusz pedig a leggyakrabban előforduló attribútum értéke.
A módusz, a medián és a számtani átlag aránya jelzi a jellemző eloszlásának jellegét az aggregátumban, és lehetővé teszi annak aszimmetriájának értékelését. A szimmetrikus eloszlásokban mindhárom jellemző egybeesik. Minél nagyobb az eltérés a módusz és a számtani átlag között, annál aszimmetrikusabb a sorozat. Mérsékelten aszimmetrikus sorozatok esetén a módusz és a számtani átlag közötti különbség körülbelül háromszor nagyobb, mint a medián és az átlag közötti különbség, azaz:
|Mo –`x| = 3 |Me –`x|.

Módus és medián meghatározása grafikus módszerrel

Egy intervallumsorozat módusa és mediánja grafikusan meghatározható. A módot az eloszlási hisztogram határozza meg. Ehhez válassza ki a legmagasabb téglalapot, amely ebben az esetben modális. Ezután a modális téglalap jobb oldali csúcsát összekötjük az előző téglalap jobb felső sarkával. És a modális téglalap bal csúcsa - a következő téglalap bal felső sarkával. A metszéspontjukból leengedjük az abszcissza tengelyre merőlegest. Ezen egyenesek metszéspontjának abszcisszája lesz az eloszlási mód (5.3. ábra).


Rizs. 5.3. Az üzemmód grafikus meghatározása hisztogram segítségével.


Rizs. 5.4. A medián grafikus meghatározása kumulátum alapján
A medián meghatározásához a halmozott frekvenciák (frekvenciák) skáláján az 50%-nak megfelelő pontból egy egyenes vonalat húzunk párhuzamosan az abszcissza tengellyel, amíg az nem metszi a kumulátumot. Ezután a metszéspontból egy merőlegest leeresztünk az x tengelyre. A metszéspont abszcisszája a medián.

Kvartilis, decilis, percentilis

Hasonlóképpen, ha az eloszlás variációs sorozatában megtalálja a mediánt, megkeresheti az attribútum értékét a rangsorolt ​​sorozat bármely egységéhez. Így például megtalálhatja az attribútum értékét olyan egységeknél, amelyek egy sorozatot négy egyenlő részre, 10 vagy 100 részre osztanak. Ezeket az értékeket „kvartilisnek”, „decilisnek”, „percentilisnek” nevezik.
A kvartilisek egy olyan jellemző értékét jelentik, amely a rangsorolt ​​sokaságot 4 egyenlő részre osztja.
Van egy alsó kvartilis (Q 1), amely a lakosság ¼-ét választja el legalacsonyabb értékek jellemző, és a felső kvartilis (Q 3), levágva ¼ részét legmagasabb értékeket jel. Ez azt jelenti, hogy a sokaságban lévő egységek 25%-a kisebb lesz Q 1 értékben; az egységek 25%-a Q 1 és Q 2 között lesz; 25% Q 2 és Q 3 között van, a maradék 25% pedig meghaladja a Q 3-at. A Q2 középső negyede a medián.
A kvartilisek intervallumvariációs sorozatok segítségével történő kiszámításához a következő képleteket kell használni:
, ,
Ahol x Q 1– az alsó kvartilist tartalmazó intervallum alsó határa (az intervallumot a halmozott gyakoriság határozza meg, az első meghaladja a 25%-ot);
x Q 3– a felső kvartilist tartalmazó intervallum alsó határa (az intervallumot a halmozott gyakoriság határozza meg, az első meghaladja a 75%-ot);
én– intervallum mérete;
S Q 1-1– az alsó kvartilist tartalmazó intervallumot megelőző intervallum felhalmozott gyakorisága;
S Q 3-1– a felső kvartilist tartalmazó intervallumot megelőző intervallum felhalmozott gyakorisága;
f Q 1– az alsó kvartilist tartalmazó intervallum gyakorisága;
f Q 3– a felső kvartilist tartalmazó intervallum gyakorisága.
Tekintsük az alsó és felső kvartilis számítását a táblázat adatai szerint. 5.10. Az alsó kvartilis a 60-80 tartományba esik, ennek kumulatív gyakorisága 33,5%. A felső kvartilis a 160-180 tartományba esik, 75,8%-os halmozott gyakorisággal. Ezt figyelembe véve a következőket kapjuk:
,
.
Az eloszlás variációs tartományaiban a kvartiliseken kívül decilisek is meghatározhatók - olyan opciók, amelyek a rangsorolt ​​variációs sorozatot tízre osztják egyenlő részek. Az első decilis (d 1) osztja a népességet 1/10 és 9/10 arányban, a második decilis (d 1) - 2/10 és 8/10 arányban stb.
Kiszámításuk a következő képletekkel történik:
, .
Azokat a karakterisztikus értékeket, amelyek a sorozatot száz részre osztják, százalékosoknak nevezzük. A mediánok, kvartilisek, decilisek és percentilisek arányait az ábra mutatja be. 5.5.



Olvassa el még: