Statistika2012_7

Report
STATISTIKA
Ing. Jan Popelka, Ph.D.
odborný asistent
Katedra informatiky a geoinformatiky
Univerzita Jana Evangelisty Purkyně v Ústí nad Labem
email: [email protected]
WWW: http://most.ujep.cz/~popelka
NEPARAMETRICKÉ TESTY
NEPARAMETRICKÉ TESTY
Testování existence odlehlých pozorování
 Testy shody
 Testy střední hodnoty

ODLEHLÁ POZOROVÁNÍ
Grafická analýza
 Grubbsův test
 Deanův a Dixonův Q-test

ODLEHLÁ POZOROVÁNÍ
V datech se mohou objevit odlehlé, vybočující hodnoty (outlier), tj.
hodnoty nepatřící mezi ostatní.
Tyto hodnoty se mohly dostat mezi ostatní data v důsledku
hrubých chyb např. při opisování dat, ale i při měření (chyba
měření v laboratoři), případně i tak, že byl do výběru zahrnut
prvek, který do sledovaného základního souboru nepatří.
Silně ovlivňují především aritmetický průměr, ukazatele
variability (rozptyl, směrodatná odchylka) i ukazatele tvaru
rozdělení (šikmost, špičatost).
Naopak neovlivňují modus, medián a další kvantilové ukazatele,
useknuté průměry.
ODLEHLÁ POZOROVÁNÍ
Nalezení odlehlých hodnot je možné například pomocí grafů. Jde
však o subjektivní metody!
Vhodný je histogram nebo krabicový diagram (Box-and-Whisker
Plot).
Krabickovy diagram - koncentrace kovu v ovzdusi (Litomerice 2007 - 2010)
Cd
Pb
As
0
5
10
15
20
koncentrace (µg/m3)
25
30
ODLEHLÁ POZOROVÁNÍ
Informace o homogenitě souboru poskytuje také variační
koeficient (Coefficient of Variation).
v
s
x
Je-li v > 50 % znamená to silně nesourodý soubor.
Neboli soubor není homogenní a může obsahovat jedno nebo více
odlehlých pozorování.
ODLEHLÁ POZOROVÁNÍ
GRUBBSŮV TEST
Grubbsův test je exaktní metodou pro zjištění odlehlých pozorování.
Nulová hypotéza:
hodnota x(i) není odlehlá
Alternativní hypotéza:
hodnota x(i) je odlehlá
Testové kritérium:
x(i )  x ,
T
s
kde x(i) je testovaná hodnota, s je populační směrodatná odchylka
souboru a x aritmetický průměr souboru.
Online kalkulátory: http://graphpad.com/quickcalcs/Grubbs1.cfm
ODLEHLÁ POZOROVÁNÍ
GRUBBSŮV TEST
Grubbsův test
Kritický obor:
W={T; T ≥ T(n;α)}
Grubbsova statistika T nemá
standardní rozdělení, proto je
nutno hledat v tabulce.
http://most.ujep.cz/~popelka/tab
ulky.xls
n
kritické
hodnoty T
n
kritické
hodnoty T
3
1,412
12
2,387
4
1,689
13
2,426
5
1,869
14
2,461
6
1,996
15
2,493
7
2,093
16
2,523
8
2,172
17
2,551
9
2,237
18
2,557
10
2,294
19
2,600
11
2,343
20
2,623
Kritické hodnoty Grubbsova T-rozdělení
(α = 0,05)
ODLEHLÁ POZOROVÁNÍ
GRUBBSŮV TEST
Příklad: Statistický soubor obsahuje 30 pozorování. Aritmetický průměr
souboru je 5,52 a populační směrodatná odchylka 4,50. Nejvyšší hodnota
souboru je 36 a je podezřelá, že jde o odlehlé pozorování.
Grubbsův test
H0: hodnota 36 není odlehlá
Testové kritérium:
T
HA: hodnota 36 je odlehlá
x(i )  x
s

36  5,52
4,50
 6, 76
Kritický obor: W={T; T ≥ 2,791}
Hodnota testového kritéria je vyšší než hranice kritického oboru.
Zamítáme tedy H0. Hodnota 36 je skutečně odlehlým pozorováním.
ODLEHLÁ POZOROVÁNÍ
GRUBBSŮV TEST
Příklad: Statistický soubor obsahuje 30 pozorování. Aritmetický průměr
souboru je 5,52 a populační směrodatná odchylka 4,50. Druhá nejvyšší
hodnota souboru je 7,37. Jde také o odlehlé pozorování?
Grubbsův test
H0: hodnota 7,37 není odlehlá HA: hodnota 7,37 je odlehlá
Testové kritérium:
T
x(i )  x
s

7,37  5,52
4,50
 0, 409
Kritický obor: W={T; T ≥ 2,791}
Hodnota testového kritéria není vyšší než hranice kritického oboru.
Nezamítáme tedy H0. Hodnota 7,37 již není odlehlým pozorováním.
ODLEHLÁ POZOROVÁNÍ
DEAN-DIXONŮV Q-TEST
Dean-Dixonův Q-test je vhodný pro soubory malého rozsahu (do
10 prvků).
Nulová hypotéza:
hodnota x(n) není odlehlá
Alternativní hypotéza:
hodnota x(n) je odlehlá
Testové kritérium:
kde x(n) je testovaná
x( n )  x( n 1) ,
hodnota, x(n-1) je sousední
Q
hodnota a R je variační
R
rozpětí (xmax - xmin).
ODLEHLÁ POZOROVÁNÍ
DEAN-DIXONŮV Q-TEST
Kritický obor:
W={Q; Q ≥ Q(n;α)}
Q statistika nemá standardní rozdělení, proto
je nutno hledat v tabulce.
http://most.ujep.cz/~popelka/tabulky.xls
n
Q kritické
3
0,941
4
0,765
5
0,642
6
0,56
7
0,507
8
0,468
9
0,437
10
0,412
Kritické hodnoty Dean-Dixonova Q
rozdělení (α = 0,05)
ODLEHLÁ POZOROVÁNÍ
DEAN-DIXONŮV Q-TEST
Příklad: Statistický soubor obsahuje 10 pozorování.
2,82
3,72
3,91
4,70
4,77
5,24
6,20
6,28
6,73 8,95
H0: hodnota 8,95 není odlehlá HA: hodnota 8,95 je odlehlá
Testové kritérium:
Q
x( n )  x( n1)
R
8,95  6,73

 0,361
8,95  2,82
Kritický obor: W={Q; Q ≥ 0,412}
Hodnota testového kritéria není vyšší než hranice kritického oboru.
Nezamítáme tedy H0. Hodnota 8,95 není odlehlým pozorováním.
ODLEHLÁ POZOROVÁNÍ
DEAN-DIXONŮV Q-TEST
Příklad: Statistický soubor obsahuje 10 pozorování.
2,82
3,72
3,91
4,70
4,77
5,24
6,20
6,28
6,73
8,95
H0: hodnota 2,82 není odlehlá HA: hodnota 2,82 je odlehlá
Testové kritérium:
Q
x( n )  x( n1)
R

3,72  2,82
 0,147
8,95  2,82
Kritický obor: W={Q; Q ≥ 0,412}
Hodnota testového kritéria není vyšší než hranice kritického oboru.
Nezamítáme tedy H0. Ani hodnota 2,82 není odlehlým pozorováním.
TESTY SHODY
Grafická analýza
 Kolmogorov-Smirnovův test
 Chi-kvadrát test

TESTY SHODY
Testy shody mají široké využití.
Pomáhají zjistit, zda výběr pochází z určitého hypotetického
rozdělení.
Nejčastěji se setkáváme s rozdělením normálním N(μ;σ2), ale lze
testovat jakékoliv jiné rozdělení.
Ať již diskrétní (Binomické, Poissonovo) nebo spojitá (Studentovo t
rozdělení, F-rozdělení apod.)
TESTY SHODY
Oblasti využití testů shody:
 Testování statistických hypotéz (viz. přednáška 5).
Podmínkou testů o průměru (t-test) a rozptylu (F-test) je, že výběr
pochází z normálního rozdělení..
Tato podmínka musela být splněna, pokud byl rozsah výběru menší než
30.
 Analýza rozptylu (viz. přednáška 6).
Důležitou podmínkou použití analýzy rozptylu je, že všechny výběry
pocházejí z normálního rozdělení.
 Regresní analýza (viz. přednáška 8).
Jednou z podmínek vhodného modelu je, že rezidua mají normální
rozdělení.
TESTY SHODY
Grafická analýza – Histogram
Opět lze použít histogram k posouzení rozdělení souboru. Subjektivní
metoda!
Při konstrukci histogramu je vhodné řídit se pravidly o jejich konstrukci
(odmocninové nebo Sturgesovo pravidlo o vhodném počtu tříd).
Sleduje se tvar histogramu a porovnává s pravděpodobnostní nebo
hustotní funkcí teoretického rozdělení.
TESTY SHODY
Grafická analýza – Histogram
Grafy pravděpodobnostních nebo hustotních funkcí vybraných
teoretických rozdělení jsou uvedeny v přednášce číslo 3.
Největší význam v praxi má normální rozdělení.
Histogram relativní
četnosti a křivka hustoty
pravděpodobnosti
normálního rozdělení.
Pokud má histogram
podobný průběh jako
hustotní funkce, je
možné považovat
rozdělení za shodná.
TESTY SHODY
Grafická analýza – Histogram
Histogram absolutní četnosti.
četnost
Rozdělení věku
1000
900
800
700
600
500
400
300
200
100
0
V tomto případě se určitě
nejedná
o normální rozdělení.
Histogram není souměrný. Jde
o rozdělení zešikmené.
15-20 21-25 26-30 31-35 36-40 41-45 46-50 51-55 56-61
věk (roky)
TESTY SHODY
Grafická analýza – Kvantilový graf
Užitečným nástrojem je i kvantilový graf.
Jedná se o bodový graf, mající na ose y kvantily teoretického rozdělení a na
ose x kvantily posuzovaného souboru.
Pokud se body pohybují po úhlopříčce grafu, je rozdělení souboru stejné
jako rozdělní teoretické.
Pokud se body odchylují, jde o rozdělení jiné.
25
20
15
TESTY SHODY
10
5
Kvantilový graf
0
(0 - 3>
(3 - 4>
(4 - 5>
(5 - 6>
(6 - 7>
(7 - 8>
Kvantilový graf - normální rozdělení
kvantily teoretického rozdělení
Pokud by všechny body
ležely na úhlopříčce, pak by
se jednalo o totožná
rozdělení.
V tomto případě se zdá, že
by soubor mohl pocházet
z normálního rozdělení (i
podle histogramu).
kvantily souboru
TESTY SHODY
Kvantilový graf
kvantily teoretického rozdělení
Kvantilový graf - normální rozdělení
četnost
Rozdělení věku
1000
900
800
700
600
500
400
300
200
100
0
15-20 21-25 26-30 31-35 36-40 41-45 46-50 51-55 56-61
věk (roky)
V tomto případě je jasné, že
soubor nepochází
z normálního rozdělení.
Vpravo nahoře uvedený
histogram ukazuje, že jde
o zešikmené rozdělení.
kvantily souboru
TESTY SHODY
Kvantilový graf – konstrukce grafu v MS Excel
Pro konstrukci grafu je postačující vypočítat kvantily v rozmezí 5 % až 95
% po 5 %
(x0,05, x0,1, x0,15, ... , x0,95)
Lze počítat i detailněji, třeba percentily (po 1 %).
Kvantily souboru se počítají funkcí
= PERCENTIL (oblast, kvantil – p)
TESTY SHODY
Kvantilový graf – konstrukce grafu v MS Excel
Kvantily hypotetického rozdělení podle odpovídající funkce rozdělení
např. pro normální rozdělení:
= NORMINV (kvantil - p; střední hodnota hypotetického rozdělení - μ;
směrodatná odchylka hypotetického rozdělení – σ)
TESTY SHODY
Kvantilový graf – konstrukce grafu v MS Excel
Samotný graf je bodový graf mající na ose y kvantily hypotetického
rozdělení a na ose x kvantily posuzovaného souboru.
Kvantil
Kvantily
souboru
Teoretické
rozdělení
TESTY SHODY
0,05
12
-155,412
0,1
22
-73,3667
Příklad: Statistický soubor obsahuje 4275
pozorování. Pochází z normálního rozdělení?
0,15
30
-18,011
0,2
41
25,98394
0,25
55
63,72771
0,3
63
97,62278
0,35
79,8
129,0316
0,4
93
158,8355
0,45
114
187,6711
0,5
131
216,0496
0,55
153
244,428
0,6
181
273,2637
0,65
205
303,0676
0,7
236
334,4764
0,75
280
368,3715
0,8
353
406,1152
0,85
478,6
450,1102
0,9
620
505,4659
0,95
730,2
587,5114
Kvantilový graf
Aritmetický průměr souboru je 216,05.
Výběrová směrodatná odchylka 225,83.
Pomocí grafu se pokusíme zjistit, zda výběr
pochází z normálního rozdělení N(216,05;
225,832).
Parametry základního souboru tedy
odhadujeme pomocí výběrových
charakteristik.
Kvantil
TESTY SHODY
Příklad: Statistický soubor obsahuje 4275
pozorování. Pochází z normálního rozdělení
N(216,05; 225,8322)?
= PERCENTIL (oblast dat; kvantil – p)
= PERCENTIL (oblast dat; 0,1)
= PERCENTIL (oblast dat; 0,6)
Kvantily
souboru
Teoretické
rozdělení
0,05
12
-155,412
0,1
22
-73,3667
0,15
30
-18,011
0,2
41
25,98394
0,25
55
63,72771
0,3
63
97,62278
0,35
79,8
129,0316
0,4
93
158,8355
0,45
114
187,6711
0,5
131
216,0496
0,55
153
244,428
0,6
181
273,2637
0,65
205
303,0676
0,7
236
334,4764
0,75
280
368,3715
0,8
353
406,1152
0,85
478,6
450,1102
0,9
620
505,4659
0,95
730,2
587,5114
Kvantil
TESTY SHODY
Příklad: Statistický soubor obsahuje 4275
pozorování. Pochází z normálního rozdělení
N(216,05; 225,8322)?
= NORMINV (kvantil - p; μ; σ)
= NORMINV (0,1; 216,05; 225,832)
= NORMINV(0,6; 216,05; 225,832)
Kvantily
souboru
Teoretické
rozdělení
0,05
12
-155,412
0,1
22
-73,3667
0,15
30
-18,011
0,2
41
25,98394
0,25
55
63,72771
0,3
63
97,62278
0,35
79,8
129,0316
0,4
93
158,8355
0,45
114
187,6711
0,5
131
216,0496
0,55
153
244,428
0,6
181
273,2637
0,65
205
303,0676
0,7
236
334,4764
0,75
280
368,3715
0,8
353
406,1152
0,85
478,6
450,1102
0,9
620
505,4659
0,95
730,2
587,5114
TESTY SHODY
Příklad: Statistický soubor obsahuje 4275 pozorování. Pochází z
normálního rozdělení N(216,05; 225,832)?
Kvantilový graf - normální rozdělení
V tomto případě je jasné, že
soubor nepochází
z normálního rozdělení.
kvantily teoretického rozdělení
Body neleží na úhlopříčce!
kvantily souboru
TESTY SHODY
CHI-KVADRÁT TEST DOBRÉ SHODY
Chi-kvadrát test dobré shody je stejný jako u kontingenčních
tabulek (viz. přednáška 6)
Nulová hypotéza: výběr pochází z hypotetického rozdělení s
předem stanovenými parametry
Alternativní hypotéza: výběr nepochází z hypotetického rozdělení
Data je nutno roztřídit do tabulky četností, počet tříd se určuje
pomocí Sturgessova pravidla.
Test je vhodný pro soubory s n > 50.
TESTY SHODY
CHI-KVADRÁT TEST DOBRÉ SHODY
Nutnou podmínkou testu je, že hypotetické četnosti jsou větší než
5. Pokud to tak není, je nutno spojit třídu s třídou sousední.
Test posuzuje skutečné četnosti výběru ni s hypotetickými
četnostmi npi stanovenými rozdělením.
Testové kritérium:
(ni  npi )2
G
npi
Kritický obor:
W  G : G >12  k  r  1 ,
kde k je počet tříd a r je počet parametrů hypotetického rozdělní.
TESTY SHODY
CHI-KVADRÁT TEST DOBRÉ SHODY
Nevýhody testu:
1.
Je vhodný jen pro velké rozsahy testovaného souboru
(n > 50).
2.
Je závislý na tabulce četnosti, pro dvě různé tabulky četností
vyjde testové kritérium různě!
3.
Nutnost slučovat třídy pokud nejsou dostatečně obsazeny.
TESTY SHODY
CHI-KVADRÁT TEST DOBRÉ SHODY
Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního
rozdělení?
Aritmetický průměr souboru je 4,89.
Výběrová směrodatná odchylka souboru je 1,16.
Výběrové charakteristiky použijeme jako parametry hypotetického
rozdělení.
Provedeme tedy test, zda soubor má normální rozdělení N(4,89; 1,162).
25
20
15
10
5
0
(0 - 3>
(3 - 4>
(4 - 5>
(5 - 6>
(6 - 7>
(7 - 8>
TESTY SHODY
CHI-KVADRÁT TEST DOBRÉ SHODY
Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního
rozdělení N(4,89; 1,162)?
Třídy
Četnost ni
Teoretická pravď. pi
- 3>
2
0,051235
(3
- 4>
8
0,168792
(4
- 5>
22
0,315347
(5
- 6>
8
0,293487
(6
- 7>
8
0,136034
2
0,035104
(7 -
= NORMDIST(horní mez intervalu; μ; σ; 1)
= NORMDIST (3;4,89;1,16;1) = 0,051235
p1 je pravděpodobnost, že se
pozorování bude nacházet v
daném intervalu (tedy do
hodnoty 3).
Neboli P(x ≤ 3) = F(3)
TESTY SHODY
CHI-KVADRÁT TEST DOBRÉ SHODY
Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního
rozdělení N(4,89; 1,162)?
Třídy
Četnost ni
Teoretická pravď. pi
- 3>
2
0,051235
(3
- 4>
8
0,168792
(4
- 5>
22
0,315347
(5
- 6>
8
0,293487
(6
- 7>
8
0,136034
2
0,035104
(7 -
p2 je pravděpodobnost, že se
pozorování bude nacházet v
daném intervalu (3 až 4).
Neboli P(3 < x ≤ 4) =
= F(4) – F(3)
= NORMDIST(horní mez intervalu; μ; σ; 1) - NORMDIST(dolní mez
intervalu; μ; σ; 1) =
= 0,22 - 0,051 = 0,169
TESTY SHODY
CHI-KVADRÁT TEST DOBRÉ SHODY
Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního
rozdělení N(4,89; 1,162)?
Třídy
ni
Teoretická
pravď. pi
Hypotetická
četnost npi
- 3>
2 0,051235552 2,561777624
(3
- 4>
8 0,168791604 8,439580201
(4
- 5>
(5
- 6>
8 0,293487011 14,67435054
(6
- 7>
8 0,136034404 6,8017202
(7 -
22 0,315347238 15,7673619
2 0,035104191 1,755209531
np2 je součin celkového počtu
pozorování
(n = 50) a hypotetické
pravděpodobnosti pi.
Neboli 50·0,169 = 8,439
Hypoteticky by četnost měla
být 8,439 (skutečná je 8).
Nutnou podmínkou testu je, že hypotetické četnosti npi jsou větší než 5.
První a poslední třídu je tedy nutno sloučit!
TESTY SHODY
CHI-KVADRÁT TEST DOBRÉ SHODY
Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního
rozdělení N(4,89; 1,162)?
Třídy
ni
pi
Hypotetická
četnost npi
(2
- 4>
10 0,220014704 11,00073519
(4
- 5>
22 0,315347238 15,7673619
(5
- 6>
8 0,293487011 14,67435054
(6
- 8>
10 0,171138595 8,556929731
Podmínka testu, že hypotetické četnosti npi jsou větší než 5, je nyní
splněna.
TESTY SHODY
CHI-KVADRÁT TEST DOBRÉ SHODY
Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního
rozdělení N(4,89; 1,162)?
Třídy
ni
pi
Hypotetická
četnost npi
(ni  npi )2
npi
(2
- 4>
10 0,220014704 11,00073519 0,091036727
(4
- 5>
22 0,315347238 15,7673619
(5
- 6>
8 0,293487011 14,67435054 3,035701992
(6
- 8>
10 0,171138595 8,556929731 0,243364369
Celkem
Testové kritérium:
2,46368276
Provedeme
pomocný
výpočet.
5,833
(ni  npi )2
G
 5,833
npi
TESTY SHODY
CHI-KVADRÁT TEST DOBRÉ SHODY
Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního
rozdělení N(4,89; 1,162)?
Testové kritérium:
Kritický obor:
(ni  npi )2
G
 5,833
npi
2
G>12  k  r 1  0,95
 4  2 1  3,84
Protože hodnota testového kritéria náleží do kritického oboru, zamítáme
H0.
Sledovaný soubor nepochází z normálního rozdělení.
TESTY SHODY
KOLMOGOROV-SMIRNOVŮV TEST
Kolmogorov-Smirnovův test je dalším testem shody.
1.
Je vhodný pro malé rozsahy souborů (n< 50).
2.
Lze jej použít i pro velké soubory.
3.
Je silnější než Chí-kvadrát test (dává přesnější výsledky).
4.
Nemá omezující podmínky.
5.
Vychází přímo z původních dat, nikoliv z údajů setříděných do
tříd. Nedochází ke ztrátě informací.
Nulová hypotéza: výběr pochází z hypotetického rozdělení s
předem stanovenými parametry
Alternativní hypotéza: výběr nepochází z hypotetického rozdělení
TESTY SHODY
KOLMOGOROV-SMIRNOVŮV TEST
Hodnoty souboru se seřadí podle velikosti od nejmenší po nejvyšší.
Pro každou hodnotu se vypočte hodnota distribuční funkce
F(x(i)) založená na hypotetickém rozdělení. Při testu normality
jde o normální rozdělení N(µ;σ2).
Testové kritérium: je maximum z hodnot
i 1
i
T1  F ( x(i ) ) 
a T2   F ( x(i ) )
n
n
vypočtených pro všechna pozorování x(i).
TESTY SHODY
KOLMOGOROV-SMIRNOVŮV TEST
Kritický obor: W={D; D ≥ d(n;α)}
D statistika nemá standardní rozdělení, proto je nutno hledat v
tabulce (http://most.ujep.cz/~popelka/tabulky.xls)
Pro n >50 pak d(n; 0,05) ≈ 1,36 / n1/2
TESTY SHODY
KOLMOGOROV-SMIRNOVŮV TEST
Příklad: Statistický soubor obsahuje 12 pozorování. Jedná se informace o
spotřebě benzínu určitého typu automobilu.
5,7
5,5
5,0
4,9
5,3
5,2
5,6
6,1
5,3
5,8
5,7
5,4
Lze tvrdit, že spotřeba tohoto typu automobilu má normální rozdělení
N(5,4; 0,42)?
TESTY SHODY
KOLMOGOROV-SMIRNOVŮV TEST
Příklad: Statistický soubor obsahuje 12 pozorování…
Data seřadíme podle velikosti a vypočteme hodnoty
distribuční funkce normálního rozdělení N(5,4; 0,42).
i
x(i)
F(x(i))
1
4,9
0,106
2
5
0,159
3
5,2
0,309
4
5,3
0,401
5
5,3
0,401
6
5,4
0,500
= NORMDIST(horní mez intervalu; μ; σ; 1)
7
5,5
0,599
8
5,6
0,691
= NORMDIST (4,9;5,4;0,42;1) = 0,106
9
5,7
0,773
10
5,7
0,773
11
5,8
0,841
12
6,1
0,960
F(x(1)) je pravděpodobnost, že se pozorování bude
nacházet v daném intervalu (tedy do 4,9).
Neboli P(x ≤ 4,9) = F(4,9)
TESTY SHODY
KOLMOGOROV-SMIRNOVŮV TEST
Příklad: Statistický soubor obsahuje 12 pozorování…
Data seřadíme podle velikosti a vypočteme hodnoty
distribuční funkce normálního rozdělení N(5,4; 0,42).
i
x(i)
F(x(i))
1
4,9
0,106
2
5
0,159
3
5,2
0,309
4
5,3
0,401
5
5,3
0,401
6
5,4
0,500
= NORMDIST(horní mez intervalu; μ; σ; 1)
7
5,5
0,599
8
5,6
0,691
= NORMDIST (5;5,4;0,42;1) = 0,159
9
5,7
0,773
10
5,7
0,773
11
5,8
0,841
12
6,1
0,960
F(x(2)) je pravděpodobnost, že se pozorování bude
nacházet v daném intervalu (tedy do 5).
Neboli P(x ≤ 5) = F(5)
TESTY SHODY
KOLMOGOROV-SMIRNOVŮV TEST
Příklad: Statistický soubor obsahuje 12 pozorování…
F ( x(i ) ) 
i 1
12
i
 F ( x(i ) )
12
i
x(i)
F(x(i))
1
4,9
0,106
0,106
0,022
2
5
0,159
0,075
0,008
3
5,2
0,309
0,142
0,059
4
5,3
0,401
0,151
0,068
5
5,3
0,401
0,068
0,015
6
5,4
0,500
0,083
0,000
7
5,5
0,599
0,099
0,015
8
5,6
0,691
0,108
0,025
9
5,7
0,773
0,107
0,023
10
5,7
0,773
0,023
0,060
11
5,8
0,841
0,008
0,075
12
6,1
0,960
0,043
0,040
Dopočtou se hodnoty pro
výpočet testového kritéria
D.
Je jím maximální hodnota
z pomocných výpočtů T1 a
T2 .
D = 0,151.
TESTY SHODY
KOLMOGOROV-SMIRNOVŮV TEST
Příklad: Statistický soubor obsahuje 12 pozorování…
Hodnota testového kritéria D = 0,151.
Kritický obor:
W={D; D ≥ d(12;0,05)}
W={D; D ≥ 0,375}
Protože hodnota testového kritéria nenáleží do kritického oboru,
nezamítáme H0.
Spotřeba tohoto typu automobilu má skutečně normální rozdělení
N(5,4; 0,42).
TESTY STŘEDNÍ HODNOTY
Neprametrické testy posuzují střední hodnoty souborů
v situacích, kdy nejsou splněny podmínky použití testů
parametrických (přednáška 5). Zejména pokud:
 data nejsou normálně rozdělena,
 data mají ordinální charakter (pořadová proměnná),
 výběry jsou malé, nebo existují velké rozdíly mezi rozsahy
výběrů.
Neparametrické testy lze použít i souběžně s parametrickými a
porovnávat jejich výsledky, pro posílení jejich validity.
Hodnoty souborů nahrazují jejich pořadím, proto jsou známy i pod
názvem pořadové testy.
TESTY STŘEDNÍ HODNOTY
Počet Závislé/
výběrů nezávislé
1
Počet
hodnot
Rozdělení
n ≥ 30
-
-
Normální
n < 30
Není
normální
n ≥ 30
-
n < 30
Normální
rozdělení
Není
normální
Nezávislé
2
n ≥ 30
Závislé
(párové)
n < 30
Normální
rozdělení
Není
normální
Test
Jednovýběrový
t-test
Jednovýběrový
t-test
Znaménkový test
Nástroj
MS Excel
MS Excel
Online
kalkulátory
Dvouvýběrový
t-test
Dvouvýběrový
t-test
Mann–Whitneův test nebo
Wilcoxonův test
Dvouvýběrový párový
t-test
Dvouvýběrový párový
t-test
Online
kalkulátory
Wilcoxonův test
Online
kalkulátory
MS Excel
MS Excel
MS Excel
MS Excel
TESTY STŘEDNÍ HODNOTY
Počet
výběrů
Závislé/
nezávislé
Nezávislé
3 a více
Závislé
Rozdělení
Rozptyly
Test
Nástroj
Normální
rozdělení
Shodné
ANOVA
MS Excel
-
-
Kruskal–
Wallisův test
Online
kalkulátory
Normální
rozdělení
Shodné
ANOVA
MS Excel
-
-
Friedmanův
test
Online
kalkulátory
TESTY STŘEDNÍ HODNOTY
ZNAMÉNKOVÝ TEST
Znaménkový test se zabývá mediánem základního souboru.
Ho:
Ha:
  0
  0
Testové kritérium: Spočítáme ukazatel Z+ jako počet kladných odchylek
hodnot od mediánu (xi - µo) a Z- jako počet záporných odchylek.
Vynecháme páry, kdy jsou odchylky 0.
Kritický obor: W={Z+; Z+ ≥ Bi(n;0,5)}
Online kalkulátory: http://www.graphpad.com/quickcalcs/binomial1/
TESTY STŘEDNÍ HODNOTY
MANN-WHITNEYŮV TEST PRO DVA NEZÁVISLÉ VÝBĚRY
Mannův-Whitneyův test je obdobou t-testu pro dva nezávislé výběry.
Ho: oba soubory mají shodné rozdělení
(mediány obou souborů jsou shodné)
Ha: oba soubory nemají shodné rozdělení
(mediány obou souborů nejsou shodné)
Testové kritérium: Seřadíme všechny hodnoty podle velikosti a určíme
jejich pořadí (stejné údaje mají stejné pořadí – počítáme průměr
z jejich pořadí). Spočítáme součet pořadí pro každou skupinu zvlášť R1
a R2. Pro kontrolu platí R1 + R2 = 0,5(n1+n2)(n1+n2+1) .
Testovacím kritériem je menší z hodnot U1 = R1 - 0,5 ∙ n1(n1+1) a
U2 = R2 - 0,5 ∙ n2(n2+1). Pro kontrolu platí U1 + U2 = n1 ∙ n2.
TESTY STŘEDNÍ HODNOTY
MANN-WHITNEYŮV TEST PRO DVA NEZÁVISLÉ VÝBĚRY
Kritický obor: nemá běžné rozdělení, hledáme v tabulkách, např:
http://cit.vfu.cz/stat/FVHE/Teorie/tabulky.htm#Mann
Online kalkulátory:
 http://vassarstats.net/utest.html
 http://www.google.cz/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1
&ved=0CB8QFjAA&url=http%3A%2F%2Fudel.edu%2F~mcdonald%
2Fstatkruskalwallis.xls&ei=4GXUPSmHamh4gTEnoGoCg&usg=AFQjCNHfiKxhdRYv2mXZdT3JKRq
WbyrL0Q&cad=rja list v MS Excel.
TESTY STŘEDNÍ HODNOTY
WILCOXONŮV TEST PRO DVA ZÁVISLÉ VÝBĚRY
Wilcoxonův test je testem dvou závislých výběrů (párová měření).
Ho: oba soubory mají shodné rozdělení
(mediány obou souborů jsou shodné)
Ha: oba soubory nemají shodné rozdělení
(mediány obou souborů nejsou shodné)
Testové kritérium: Vypočteme rozdíly všech párových měření
di = xi – yi. Nulové rozdíly z dalšího hodnocení vyřazujeme. Seřadíme
všechny hodnoty podle velikosti bez ohledu na znaménka a určíme
jejich pořadí (stejné údaje mají stejné pořadí – počítáme průměr
z jejich pořadí).
Spočítáme součet pořadí kladných rozdílů W1 a záporných rozdílů W2.
Pro kontrolu platí W1 + W2 = 0,5(n1+n2)(n1+n2+1) .
Testovým kritériem je menší z hodnot W1 a W2 .
TESTY STŘEDNÍ HODNOTY
WILCOXONŮV TEST PRO DVA ZÁVISLÉ VÝBĚRY
Kritický obor: nemá běžné rozdělení, hledáme v tabulkách, např:
http://cit.vfu.cz/stat/FVHE/Teorie/tabulky.htm#Wilcoxon
Online kalkulátory: http://vassarstats.net/wilcoxon.html
TESTY STŘEDNÍ HODNOTY
WILCOXONŮV TEST PRO DVA ZÁVISLÉ VÝBĚRY
Příklad: Na skupině dobrovolníků byl testován
prostředek na snížení váhy. Hmotnosti 12
testovaných lidí před a po dietní kůře jsou
v tabulce. Určete párovým testem, zda je
prostředek na hladině významnosti 0,05
účinný.
hmotnost
před dietou
(kg)
hmotnost
po dietě
(kg)
85
76
75
75
90
81
65
64
150
155
80
72
110
99
56
45
88
89
73
66
67
56
134
110
TESTY STŘEDNÍ HODNOTY
WILCOXONŮV TEST PRO DVA ZÁVISLÉ VÝBĚRY
Příklad: Na skupině dobrovolníků byl testován prostředek ...
K dispozici jsou soubory malého rozsahu, nevíme, zda je splněn
předpoklad normality, proto použijeme Wilcoxonův test.
Ho: oba soubory mají shodné rozdělení
(mediány obou souborů jsou shodné)
Ha: oba soubory nemají shodné rozdělení
(mediány obou souborů nejsou shodné)
P-hodnota vypočtená online kalkulátorem (P-hodnota = 0,0121).
P-hodnota testu < 0,05, zamítáme tedy H0. Mediány obou souborů
nejsou shodné. Medián hmotností před dietou je 82,5 kg, medián po
dietě je 75,5 kg. Testem bylo potvrzeno, že dieta vede ke snížení
hmotnosti.
59
TESTY STŘEDNÍ HODNOTY
KRUSKAL–WALLISŮV TEST PRO VÍCE NEZÁVISLÝCH VÝBĚRŮ
Kruskal–Wallisův test je obdobou testu ANOVA, zabývá se mediány
základních souborů. Používáme, pokud nejsou splněny podmínky
testu ANOVA.
Ho: mediány všech souborů jsou shodné
Ha: mediány alespoň dvou souborů se nerovnají
Testové kritérium: Všechna měření uspořádáme podle velikosti.
Hodnoty nahradíme jejich pořadími a vypočteme hodnoty SRi jako
součty pořadí pro každou ze skupin
Testové kritérium H vypočteme:
 12
 SRi2  
H 

   3(n  1).

 n(n  1) i  n1  
TESTY STŘEDNÍ HODNOTY
KRUSKAL–WALLISŮV TEST PRO VÍCE NEZÁVISLÝCH VÝBĚRŮ
Kritický obor: má chí-kvadrát rozdělení
W={H; H ≥ χα2(m-1)}, kde m je počet skupin.
Online kalkulátory:
 http://vassarstats.net/vsord.html pro 3 nebo 4 skupiny
 http://www.google.cz/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1
&ved=0CB8QFjAA&url=http%3A%2F%2Fudel.edu%2F~mcdonald%
2Fstatkruskalwallis.xls&ei=4GXUPSmHamh4gTEnoGoCg&usg=AFQjCNHfiKxhdRYv2mXZdT3JKRq
WbyrL0Q&cad=rja list v MS Excel pro až 20 skupin.
TESTY STŘEDNÍ HODNOTY
FRIEDMANŮV TEST PRO VÍCE ZÁVISLÝCH VÝBĚRŮ
Friedmanův test je určen pro opakovaná měření ve více jak dvou
skupinách.
Ho: mediány všech souborů jsou shodné
Ha: mediány alespoň dvou souborů se nerovnají
Testové kritérium: Určíme zvlášť pořadí hodnot pro každý měřený
objekt (každý řádek) a vypočteme součet pořadí pro každý sloupec
SRi.
Testové kritérium Fr vypočteme:
 12
2
Fr  
SRi   3n(m  1),

 nm(m  1) i

kde n je počet měřených objektů (počet řádků) a m je počet opakování.
TESTY STŘEDNÍ HODNOTY
FRIEDMANŮV TEST PRO VÍCE ZÁVISLÝCH VÝBĚRŮ
Kritický obor: má chí-kvadrát rozdělení
W={Fr; Fr ≥ χα2(m-1)}, kde m je počet opakování.
Online kalkulátory:
 http://vassarstats.net/vsord.html pro 3 nebo 4 skupiny
TESTY STŘEDNÍ HODNOTY
FRIEDMANŮV TEST PRO VÍCE ZÁVISLÝCH VÝBĚRŮ
Příklad: Zkoumáme znečištění přízemním ozónem O3 na čtyřech
lokalitách (A1 – A5), kde byla provedena opakovaná měsíční měření
od ledna do května. Na hladině významnosti 0,05 zjistěte, zda jsou
koncentrace na všech lokalitách stejné.
Lokalita
/měsíc
leden
únor
březen
duben
květen
A1
A2
A3
A4
44
103
47
7
2
32
44
23
7
2
28
18
5
1
2
61
113
31
6
2
TESTY STŘEDNÍ HODNOTY
FRIEDMANŮV TEST PRO VÍCE ZÁVISLÝCH VÝBĚRŮ
Příklad: Zkoumáme znečištění přízemním ozónem O3 …
Jde o závislá měření, test ANOVA nelze použít, není splněna podmínka
rovnosti rozptylů: max si /min si = 45,9/11,8 = 3,89. Použijeme
Friedmanův test.
Lokalita
/měsíc
leden
únor
březen
duben
květen
medián
sm.odch.
A1
A2
A3
A4
44
103
47
7
2
32
44
23
7
2
28
18
5
1
2
61
113
31
6
2
44
23
5
31
40,5
17,4
11,8
45,9
TESTY STŘEDNÍ HODNOTY
FRIEDMANŮV TEST PRO VÍCE ZÁVISLÝCH VÝBĚRŮ
Příklad: Zkoumáme znečištění přízemním ozónem O3 …
Ho: mediány koncentrací jsou na všech čtyřech lokalitách shodné
Ha: mediány alespoň dvou lokalit se nerovnají
P-hodnota vypočtená online kalkulátorem
P-hodnota = 0,0752
P-hodnota testu > 0,05, nezamítáme tedy H0. Mediány koncentrací
přízemního ozónu O3 jsou na všech čtyřech lokalitách shodné.
NEPARAMETRICKÉ TESTY
DŮLEŽITÉ POJMY – 7. PŘEDNÁŠKA
Identifikace odlehlých hodnot
 Testy shody rozdělení
 Neparametrické testy střední hodnoty

67

similar documents