Statistika2012_6

Report
STATISTIKA
Ing. Jan Popelka, Ph.D.
odborný asistent
Katedra informatiky a geoinformatiky
Univerzita Jana Evangelisty Purkyně v Ústí nad Labem
email: [email protected]
WWW: http://most.ujep.cz/~popelka
r
s
G  
i 1 j 1
n
ij
 ij 
 ij
ANALÝZA ZÁVISLOSTÍ
2
ANALÝZA ZÁVISLOSTÍ
Elementární metody popisu závislostí
 Úvod do zkoumání závislostí mezi jevy.
 Závislost dvou slovních proměnných.
 Závislost číselné a slovní proměnné.
3
ANALÝZA ZÁVISLOSTÍ
Jednostranná závislost
Příčina působí na důsledek, ale důsledek
již zpětně neovlivňuje příčinu.
Oboustranná závislost
Nelze jednoznačně určit příčinu a důsledek.
Vazba je vzájemná, jeden jev ovlivňuje
druhý a druhý zpětně působí na první.
4
ANALÝZA ZÁVISLOSTÍ
V případě jednostranné závislosti, je příčina tzv. vysvětlující
proměnnou (nebo nezávislou proměnnou).
V případě jednostranné závislosti, je důsledek tzv. vysvětlovanou
proměnnou (nebo závislou proměnnou).
Příklad. Sledujeme závislost koncentrace znečišťujících látek
v řece na teplotě vody.Teplota ovlivňuje koncentraci, ale
opačně nelze tvrdit, se teplota vody mění v závislosti na
koncentraci.
Teplota je vysvětlující proměnná.
Koncentrace znečišťujících látek je vysvětlovaná
proměnná.
5
ANALÝZA ZÁVISLOSTÍ
V případě oboustranné závislosti nelze vysvětlující a vysvětlovanou
proměnnou jednoznačně určit.
Příklad. Co je příčina a co důsledek při posuzování vztahu
počtu predátorů a množství kořisti na vymezeném území?
Různé hodnoty počtu predátorů lze vysvětlit změnami
v množství kořisti.
Ale stejně tak lze různé hodnoty v množství kořisti vysvětlit
změnami v počtu predátorů.
Nelze jednoznačně určit, která proměnná je vysvětlující a
která vysvětlovaná. Obě se vzájemně ovlivňují.
6
ANALÝZA ZÁVISLOSTÍ
Závislost funkční (pevná)
Určité hodnotě jedné proměnné odpovídá jen jedna určitá hodnota
jiné proměnné. Závislost lze vyjádřit funkčním vztahem mezi
závislou a nezávislou proměnnou y = f(x).
Příklad. Závislost mezi dobou jízdy a ujetými kilometry, pokud
vozidlo jede konstantní rychlostí 75 km/h.
Doba (h)
Ujeto (km)
0,5
1
2
2,5
10
37,5
75
150
187,5
750
Každou hodnotu lze vypočítat podle funkce:
vzdálenost = rychlost * čas.
7
ANALÝZA ZÁVISLOSTÍ
Závislost funkční (pevná)
Důsledek je určen jednou nebo několika málo příčinami, které lze
jednoznačně určit. Nepůsobí zde žádné neznámé nebo náhodné
vlivy.
Nejvíce ve fyzice, mechanice, chemii a některých oblastech biologie.
8
ANALÝZA ZÁVISLOSTÍ
Závislost stochastická (volná)
„Dvě náhodné proměnné jsou stochasticky závislé, jestliže jsou změny hodnot
jedné z nich doprovázeny změnami podmíněného pravděpodobnostního
rozdělení druhé z nich.“
Určité hodnotě jedné proměnné může odpovídat více hodnot jiné
proměnné, ale jejich výskyt se řídí určitým pravděpodobnostním
rozdělením.
Příklad. Závislost koncentrace přízemního ozónu na slunečním záření.
Sluneční záření
(W/m2)
211
185
278
278
211
160
Koncentrace O3
(µg/m3)
70,1
48,1
100,6
99,8
69,1
51,2
9
ANALÝZA ZÁVISLOSTÍ
Závislost stochastická (volná)
Důsledek je určen velkým počtem příčin, jejichž projev nelze plně
postihnout. Příčiny mohou být i neznámé, může působit i
náhoda. Proto se sleduje vliv jen známých jevů a těch které
působí nejvíce.
Nejvíce v biologii, ekonomii, sociologii.
Příklad: Na výšku člověka působí řada vlivů – dědičnost, věk, vliv
prostředí, strava a řada dalších vlivů, které ani nebyly odhaleny.
Příklad: Na koncentraci přízemního ozónu působí intenzita
slunečního záření, množství emisí NOx, teplota, tlak, rychlost větru
atd.
10
ANALÝZA ZÁVISLOSTÍ
Nezávislost
Proměnná se mění pouze náhodně bez ohledu na hodnotu druhé
proměnné. Střední hodnota jedné veličiny se nemění, i když se
hodnoty druhé veličiny mění.
Příklad: závislost mezi hmotností řidiče a počtem v automobilu
ujetých kilometrů za včerejší den.
Hmotnost (kg)
96
150
75
77
77
77
Ujeto (km)
15
580
21
35
95
120
11
ANALÝZA ZÁVISLOSTÍ
Statistické postupy a metody
Některé se soustřeďují jen na zjištění, zda jsou proměnné závislé či
nikoliv.
Jiné pak slouží ke konkrétní specifikaci závislosti. Měří těsnost
závislosti (pomocí koeficientů), nebo se snaží najít formu
závislosti (např. pomocí konkrétní funkce, jejímž zobrazením je
graf závislosti).
12
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Příklad:
Byl proveden průzkum, který se zabýval závislostí mezi vzděláním
respondentů a jejich názorem na výstavbu nové spalovny
komunálního odpadu.
 Dotázáno bylo celkem 291 respondentů.
 Byly sledovány tři kategorie vzdělání:

základní,

středoškolské ,

Vysokoškolské.
 Objevily se tři formy názoru na výstavbu:

souhlasím ,

nevím,

nesouhlasím.
 Dotázáno bylo celkem 291 respondentů.
13
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Příklad: Byl proveden malý průzkum ... Výsledky průzkumu.
Souhlasím
Nevím
Nesouhlasím
Základní
63
6
30
99
Středoškolské
40
21
41
102
Vysokoškolské
12
34
44
90
115
61
115
291
Celkem
Celkem
Jedná se o tzv. kontingenční tabulku. V tabulce jsou absolutní
četnosti.
Tedy počet dotázaných se základním vzděláním, kteří souhlasí je 63.
Celkový počet nesouhlasících respondentů je 115.
14
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Kontingenční tabulka je dvourozměrná tabulka se slovními
proměnnými.
Korelační tabulka je dvourozměrná tabulka s číselnými
proměnnými, které jsou popsány buďto hodnotami proměnných
nebo intervaly hodnot proměnných.
Např.: Korelační tabulka Sňatky podle vzájemného věku
snoubenců v roce 2008 (zdroj: Český statistický úřad).
Čtyřpolní tabulka je specifická tabulka, kde obě proměnné mají
jen dvě obměny (může být jak kontingenční, tak i korelační).
15
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Příklad: Byl proveden malý průzkum ...
Obecně lze kontingenční tabulku absolutních četností zapsat:
Souhlasím
Nevím
Celkem ni.
Nesouhlasím
Základní
n11
n12
n13
n1.
Středoškolské
n21
n22
n23
n2.
Vysokoškolské
n31
n32
n33
n3.
Celkem n.j
n.1
n.2
n.3
n
nij
řádek
sloupec
Souhlasím
Nevím
Nesouhlasím
Celkem
Základní
63
6
30
99
Středoškolské
40
21
41
102
Vysokoškolské
12
34
44
90
115
61
115
291
Celkem
16
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Příklad: Byl proveden malý průzkum ...
Názornější představu o průzkumu poskytují relativní četnosti !
Souhlasím
Nevím
Nesouhlasím
Celkem
Základní
0,22
0,02
0,10
0,34
Středoškolské
0,14
0,07
0,14
0,35
Vysokoškolské
0,04
0,12
0,15
0,31
Celkem
0,40
0,21
0,40
1,00
22% dotázaných jsou lidé se základním vzděláním, kteří souhlasí s
výstavbou.
Celkový podíl nesouhlasných odpovědí je 40% z celkového počtu
respondentů.
17
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Příklad: Byl proveden malý průzkum ...
Obecně lze kontingenční tabulku relativních četností zapsat:
Souhlasím
Nevím
Nesouhlasím
Celkem pi.
Základní
p11
p12
p13
p1.
Středoškolské
p21
p22
p23
p2.
Vysokoškolské
p31
p32
p33
p3.
Celkem p.j
p.1
p.2
p.3
p
pij
řádek
pij jsou tzv. sdružené relativní četnosti.
pij = nij / n
sloupec pi. a p.j jsou tzv. okrajové relativní četnosti.
18
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Příklad: Byl proveden malý průzkum ...
Tabulka podmíněných relativních četností (řádky tvoří 100%):
Souhlasím
Základní
Nevím
Nesouhlasím
Celkem
63/99 = 0,64
0,06
0,30
1,00
Středoškolské
0,39
0,21
0,40
1,00
Vysokoškolské
0,13
0,38
44/90 = 0,49
1,00
Celkem
0,40
0,21
0,40
1,00
Souhlasím
Nevím
Nesouhlasím
Celkem
Základní
63
6
30
99
Středoškolské
40
21
41
102
Vysokoškolské
12
34
44
90
115
61
115
291
Celkem
19
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Příklad: Byl proveden malý průzkum ...
Tabulka podmíněných relativních četností (řádky tvoří 100 %):
Souhlasím
Nevím Nesouhlasím
Celkem
Základní
0,64
0,06
0,30
1,00
Středoškolské
0,39
0,21
0,40
1,00
Vysokoškolské
0,13
0,38
0,49
1,00
Celkem
0,40
0,21
0,40
1,00
64 % respondentů se základním vzděláním souhlasí, 6 % neví a 30 %
nesouhlasí.
Z celkového počtu dotázaných 40 % souhlasí, 20 % neví a
40 % nesouhlasí s výstavbou.
20
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Příklad: Byl proveden malý průzkum ...
Tabulka podmíněných relativních četností (sloupce tvoří 100%):
Souhlasím
Základní
Nevím
Nesouhlasím
Celkem
0,55
0,10
30/115 =0,26
0,34
Středoškolské
40/115 =0,35
0,34
0,36
0,35
Vysokoškolské
0,10
0,56
0,38
0,31
Celkem
1,00
1,00
1,00
1,00
Souhlasím
Nevím
Nesouhlasím
Celkem
Základní
63
6
30
99
Středoškolské
40
21
41
102
Vysokoškolské
12
34
44
90
115
61
115
291
Celkem
21
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Příklad: Byl proveden malý průzkum ...
Tabulka podmíněných relativních četností (sloupce tvoří 100 %):
Souhlasím
Nevím Nesouhlasím
Celkem
Základní
0,55
0,10
0,26
0,34
Středoškolské
0,35
0,34
0,36
0,35
Vysokoškolské
0,10
0,56
0,38
0,31
Celkem
1,00
1,00
1,00
1,00
Skladba respondentů, kteří odpovídali variantu Nevím: 10 % základní,
34 % středoškolské a 56 % vysokoškolské vzdělání.
Z celkového počtu dotázaných má 34 % základní, 35 % středoškolské
a 31 % vysokoškolské vzdělání.
22
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Příklad: Byl proveden malý průzkum ...
Tabulka podmíněných relativních četností:
Souhlasím
Nevím
Nesouhlasím
Celkem
Základní
0,64
0,06
0,30
1,00
Středoškolské
0,39
0,21
0,40
1,00
Vysokoškolské
0,13
0,38
0,49
1,00
Celkem
0,40
0,21
0,40
1,00
Při pohledu na relativní četnosti se zdá, že rozložení není příliš
rovnoměrné. Větší podíl respondentů se základním vzděláním
souhlasí, zatímco vysokoškoláci spíše neví nebo nesouhlasí.
23
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Příklad: Byl proveden malý průzkum ...
Pokud nejsou četnosti rovnoměrně rozloženy, mohl by to být signál,
že existují rozdíly mezi preferencemi jednotlivých deníků a že
existuje závislost mezi vzděláním a preferovaným deníkem.
Jde však pouze o průzkum, takže je nutno ověřit testem, zda závislost
skutečně existuje.
24
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Závislost lze popsat pomocí testu dobré shody, který určí zda
závislost je či není (neříká nic o tom, jak je závislost velká).
Dále pomocí kontingenčních koeficientů, které určí i jak je závislost
silná.
Obě metody vycházejí z porovnání empirických četností nij s
hypotetickými četnostmi ψij, které reprezentují rovnoměrné
rozložení četností v tabulce a znázorňují situaci, kdy jsou obě
proměnné nezávislé.
25
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Příklad: Byl proveden malý průzkum ...
Tabulka hypotetických četností ψij.
Souhlasí
99*115/291
= 39,1
Základní
Neví
Nesouhlasí
Celkem
39,1
99
102
20,8
Středoškolské
40,3
21,4
102*115/291
= 40,3
Vysokoškolské
35,6
18,9
35,6
90
Celkem
115
61
115
291
 ij 
ni.n. j
n
Každá hodnota ψij je součin celkového součtu
v odpovídajícím řádku ni. s celkovým součtem
v odpovídajícím sloupci n.j, děleno celkovým počtem
prvků v tabulce n.
26
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Příklad: Byl proveden malý průzkum ...
Tabulka hypotetických četností ψij.
Souhlasí
Neví
Nesouhlasí
Celkem
Základní
39,1
20,8
39,1
99
Středoškolské
40,3
21,4
40,3
102
Vysokoškolské
35,6
18,9
35,6
90
Celkem
115
61
115
291
Pokud by byly proměnné nezávislé, pak by z celkového počtu 291
respondentů mělo 39 souhlasit a mít základní vzdělání a 39
nesouhlasit a mít základní vzdělání.
Ve skutečnosti jsou tyto hodnoty ovšem 63 resp. 30, tedy je zde
rozdíl! Test ověří, zda dostatečný pro prokázání závislosti.
27
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Test dobré shody
H0: proměnné jsou nezávislé
HA: proměnné jsou závislé
r
Testovací statistika
s
G  
i 1 j 1

n
ij
 ij 
2
 ij


G >1  r  1 s  1 
Kritický obor
r ... počet řádků tabulky
s ... počet sloupců tabulky
MS Excel: = CHITEST (oblast absolutních četností; oblast
hypotetických četností)
Online kalkulátory: http://www.quantpsy.org/chisq/chisq.htm
http://vassarstats.net/newcs.html
2
28
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Příklad: Byl proveden malý průzkum ...
Test dobré shody
= (n11 – ψ11)2/ψ11 =
= (63 – 39,1)2/39,1= 14,57
Souhlasí
Základní
Neví
Nesouhlasí
14,57
10,49
2,13
Středoškolské
0,00
0,01
0,01
Vysokoškolské
15,62
12,14
2,00
Celkem
30,19
22,63
4,14
Tabulka obsahuje pomocné výpočty pro test dobré shody.
Hodnota testovací statistiky G = 56,96, jde o součet všech
buněk výše uvedené tabulky!
29
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Příklad: Byl proveden malý průzkum ...
Test dobré shody
H0: souhlas s výstavbou spalovny nezávisí na vzdělání
HA: souhlas s výstavbou spalovny závisí na vzdělání
Hladina významnosti α = 0,05
Testovací statistika G = 56,96
Kritický obor
G >120,05  3  1 3  1  
2
 0,95
 4  9, 49
Hodnota testovací statistiky padne do kritického oboru, takže
zamítáme hypotézu o nezávislosti a přijímáme hypotézu, že
souhlas s výstavbou spalovny skutečně závisí na vzdělání
respondentů.
30
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Příklad: Byl proveden malý průzkum ...
Test dobré shody
H0: souhlas s výstavbou spalovny nezávisí na vzdělání
HA: souhlas s výstavbou spalovny závisí na vzdělání
Hladina významnosti α = 0,05
P-hodnota vypočtená funkcí CHITEST p = 1,25494E-11
P-hodnota je výrazně blízká nule, a tedy menší než α = 0,05, takže
zamítáme hypotézu o nezávislosti a přijímáme hypotézu, že
souhlas s výstavbou spalovny skutečně závisí na vzdělání
respondentů.
31
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Podmínky použití testu dobré shody
 Dostatečný počet pozorování – hypotetické četnosti musejí být
ve všech polích tabulky > 5
 Pokud není podmínka splněna, může být řešením sloučení
souvisejících kategorií.
Tabulka s nedostatečně obsazenými políčky
Tabulka po sloučení
souvisejících kategorií
Souhlasím
Nevím
Nesouhlasím
39,1
20,8
39,1
Středoškolské bez
maturity
4,3
2,2
25,1
Základní
39,1
20,8
39,1
Středoškolské s
maturitou
36
19,2
15,2
Středoškolské
40,3
21,4
40,3
Vysokoškolské
Bc.
20,3
16
31,6
Vysokoškolské
35,6
18,9
35,6
Vysokoškolské
Mgr.
15,3
2,9
4
Základní
Blesk
HN
MF Dnes
32
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Kontingenční koeficienty
1.
Cramérův – nabývá hodnoty <0;1>
CCR
Čím blíže je jedné, tím je závislost silnější.
n ... počet pozorování
h ... je menší z dvojice čísel r-1, s-1
Online kalkulátor: http://vassarstats.net/newcs.html
2.
Pearsonův – nabývá hodnoty od 0,
horní mez se s rostoucím h blíží 1.
Čím blíže je jedné, tím je závislost silnější.

G
nh
G
CP 
Gn
33
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
Příklad: Byl proveden malý průzkum ...
Kontingenční koeficienty
1.
Cramérův
CCR 
56,96
 0,3128
291 2
Podle Cramérova koeficientu se jedná o slabou závislost.
2.
Pearsonův
CP 
G
59,96

 0, 4046
Gn
56,96  291
Podle Pearsonova koeficientu se jedná o slabou závislost.
34
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
DALŠÍ TESTY – SPECIÁLNÍ PŘÍPADY
Čtyřpolní tabulka (2x2)
Chí-kvadrát test dobré shody s Yatesovou korekcí
Online kalkulátory:

http://graphpad.com/quickcalcs/contingency1.cfm

http://www.quantpsy.org/chisq/chisq.htm
Čtyřpolní tabulka (2x2) s malým obsazením políček (<5)
Fisherův exaktní test
Online kalkulátory:

http://www.vassarstats.net/tab2x2.html

http://graphpad.com/quickcalcs/contingency1.cfm
35
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
DALŠÍ TESTY – SPECIÁLNÍ PŘÍPADY
Fisherův exaktní test
Příklad: Ochrana budek chráněného ptactva proti predaci
Ochrana/Predace
Predováno
Nepredováno
Ochrana
1
10
Bez ochrany
8
3
Ho: Predace budek není závislá na aplikaci ochrany, tedy ochrana
nefunguje.
Ha: Predace budek se po aplikaci ochrany sníží, tedy ochrana funguje.
P-hodnota (online kalkulátor) = 0,0075
P-hodnota < hladina významnosti (α = 0,05) zamítáme Ho, ochrana
snižuje predaci budek.
36
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
DALŠÍ TESTY – SPECIÁLNÍ PŘÍPADY
Čtyřpolní tabulka dvou závislých výběrů popsaných
dichotomickými proměnnými (nabývají pouze dvou hodnot: ano x ne)
McNemarův test
Online kalkulátory:

http://www.stattools.net/McNemar_Pgm.php

http://www.vassarstats.net/propcorr.html
37
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
DALŠÍ TESTY – SPECIÁLNÍ PŘÍPADY
McNemarův test
Příklad: Postoj lidí ke stavbě spalovny komunálního odpadu před a
po odborné přednášce
Před / Po
Souhlasí
Nesouhlasí
Souhlasí
Nesouhlasí
5
1
16
2
Ho: Počet lidí s pozitivní změnou postoje je pouze náhodně odlišný od
počtu s negativní změnou postoje, tedy přednáška nepřinesla
významné zlepšení postojů.
Ha: Počet lidí s pozitivní změnou je vyšší než počet se změnou
negativní, tedy přednáška přinesla významné zlepšení postojů.
P-hodnota (online kalkulátor) = 0,00275
P-hodnota < hladina významnosti (α = 0,05) zamítáme Ho, přednáška
přinesla významné zlepšení postojů.
38
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
DALŠÍ TESTY – SPECIÁLNÍ PŘÍPADY
Kontingenční tabulka dvou závislých výběrů
Cochranův Q test
Kontingenční tabulka typu NxN dvou závislých výběrů
Bowkerův test
39
ZÁVISLOST DVOU SLOVNÍCH PROMĚNNÝCH
SHRNUTÍ TESTŮ
Rozměry
tabulky
Proměnné
Podmínka
Test
Nástroj
Více jak 2x2
Nezávislé
Hyp. četnosti >5
Chí-kvadrát test
dobré shody
• MS Excel
• Online
kalkulátory
• Software
2x2
Nezávislé
Hyp. četnosti >5
Chí-kvadrát test
dobré shody s
Yatesovou korekcí
• Online
kalkulátory
• Software
2x2
Nezávislé
Emp. četnosti <5
Fisherův exaktní
test
• Online
kalkulátory
• Software
NxN
Závislé
-
Bowkerův test
• Software
MxN
Závislé
-
Cochranův Q test
• Software
2x2
Závislé
-
McNemarův test
• Online
kalkulátory 40
• Software
ZÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ
Příklad: Byly sledovány emise CO2 čtyř bloků uhelné elektrárny ve
vybraných letech (v tis. tun za rok).
Rok
2005
2006
2007
2008
2009
2010
Blok A Blok B
860 1 000
950 1 700
750 1 290
650 1 500
820 1 250
1 460
Blok C Blok D
1 550
800
1 300
900
1 220
700
1 660
600
1 340
750
1 220
41
ZÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ
Příklad: Byly sledovány emise CO2 …
Zajímá nás, zda jsou emise ze všech bloků stejné, nebo zda závisejí na
bloku.
Neboli zda číselná proměnná (emise) závisí na slovní proměnné (blok
elektrárny).
Závislost se zjišťuje pomocí analýzy rozptylu - ANOVA (viz minulá
přednáška).
MS EXCEL: Data – Analýza – Analýza dat – Anova: jeden faktor
Online kalkulátory: http://vassarstats.net/anova1u.html (do 5 skupin)
42
http://www.physics.csbsju.edu/stats/anova.html
ZÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ
Příklad: Byly sledovány emise CO2 …
Původní hypotéza analýzy rozptylu se vztahuje k průměrným
emisím:
H0: μ1 = μ2 = μ3 = μ4 (všechny průměry se rovnají)
HA: alespoň dva průměry se nerovnají
Je ekvivalentní s hypotézami:
H0: Emise nezávisejí na bloku elektrárny.
HA: Emise závisejí na bloku elektrárny.
Pokud totiž platí H0, tak jsou průměrné emise stejné a jejich změny
ovlivňuje něco jiného než je blok elektrárny.
43
ZÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ
Proč název analýza rozptylu?
ni
k
Rozkládá celkovou variabilitu
MS y 
 ( y
ij
i 1 j 1
y )2
n 1
k
na meziskupinovou
MS y .m 
 n ( y y )
i 1
a vnitroskupinovou
2
i
k 1
k
MS y.v 
i
ni
 ( y
i 1 j 1
ij
nk
 yi )2
.
44
ZÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ
Testovací statistika F je podíl meziskupinové a vnitroskupinové
variability.
F
MS y.m
MS y.v
Pokud je meziskupinová variabilita výrazně vyšší než
vnitroskupinová, pak zamítáme nulovou hypotézu
o nezávislosti.
Kritický obor testu: F ≥ F1-α(k-1;n-k)}
45
ZÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ
Podmínky analýzy:

výběry pocházejí z normálního rozdělení nebo n>30

rozptyly všech souborů jsou stejné
σ21 = σ22= σ23 = σ24 ... = σ
k ověření postačuje pravidlo:
max si / min si ≤ 3.
Pokud nejsou podmínky splněny lze použít Kruskal-Walisův test
(neparamerický test shody mediánů – viz přednáška 7).
46
ZÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ
Příklad: Byly sledovány emise CO2 …
Do políčka „Vstupní
oblast“ zadáváme
všechny sloupce
včetně popisků.
Data byla vložena
včetně popisků
proto zaškrtneme
„Popisky v prvním
řádku“.
Jednotlivé skupiny
jsou ve sloupcích
proto zvolíme:
„Sdružit: Sloupce“.
47
ZÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ
Příklad: Byly sledovány emise CO2 …
Anova: jeden faktor
Faktor
Výběr
Blok A
Blok B
Blok C
Blok D
Počet
5
6
6
5
ANOVA
Zdroj variability
Mezi výběry
Všechny výběry
SS
1947141
559336,7
Celkem
2506477
Součet
Průměr
Rozptyl
4030
806
12830
8200 1366,667 58306,67
8290 1381,667 33296,67
3750
750
12500
Testovací statistika F
Kritický obor
Rozdíl
MS
F
Hodnota P
F krit
3 649046,9 20,88696 4,3231E-06 3,159908
18 31074,26
21
Protože platí p-hodnota < α (4,3·10-6 > 0,05), zamítáme nulovou
hypotézu o nezávislosti proměnných.
48
ZÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ
Příklad: Byly sledovány emise CO2 …
Ověření podmínky rovnosti rozptylů
max si / min si ≤ 3.
Maximální si je pro blok C (si = 241,468).
Minimální si je pro blok A (si = 111,803).
241,468/ 111,803 = 2,2. Podíl je menší než 3, rozptyly lze
považovat za rovné a test ANOVA lze použít.
49
ZÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ
Příklad: Byly sledovány emise CO2 …
Test vede k závěru, že průměrné emise CO2 ve čtyřech sledovaných
blocích uhelné elektrárny nejsou stejné, tj. jejich výše je závislá
na bloku.
Závislost mezi číselnou proměnnou (emise) a slovní proměnnou
(blok elektrárny) se podařilo prokázat.
50
ZÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ
Příklad: Byly sledovány emise CO2 …
Přehled o emisích poskytuje krabicový diagram
Krabicovy diagram
Blok A
Blok B
Blok C
Blok D
600
800
1000
1200
Emise co2
1400
1600
1800
51
ZÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ
Těsnost závislosti lze vyjádřit i koeficientem.
Determinační poměr – nabývá hodnoty <0;1>. Jde podíl
meziskupinové variability na celkové variabilitě.
Čím je koeficient blíže k jedné, tím je závislost silnější.
P 
2
S y .m
Sy
52
ZÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ
Příklad: Byly sledovány emise CO2 …
Anova: jeden faktor
Faktor
Výběr
Město A
Město B
Město C
Město D
Počet
5
6
6
5
ANOVA
Zdroj variability
Mezi výběry
Všechny výběry
SS
1947141
559336,7
Celkem
2506477
Součet
Průměr
Rozptyl
4030
806
12830
8200 1366,667 58306,67
8290 1381,667 33296,67
3750
750
12500
Rozdíl
P 
2
S y ,m

S
1947141

 0, 2096
2506477
MS
F
Hodnota P
F krit
3 649046,9 20,88696 4,3231E-06 3,159908
18 31074,26
21
Podle poměru determinace se jedná o slabou závislost.
Na emise působí i další faktory než jen blok elektrárny.
53
ZÁVISLOST ČÍSELNÉ A SLOVNÍ PROMĚNNÉ
SHRNUTÍ TESTŮ
Podmínka
Test
Nástroj
• Výběry
pocházejí z
normálního
rozdělení nebo
n<30.
• Rozptyly jsou
stejné.
ANOVA
• MS Excel
• Online
kalkulátory
• Software
-
Kruskal-Wallisův
test (přednáška 7)
• Online
kalkulátory
• Software
54
ANALÝZA ZÁVISLOSTÍ
DŮLEŽITÉ POJMY – 6. PŘEDNÁŠKA
Funkční závislost
 Stochastická závislost
 Kontingenční tabulka
 Chí-kvadrát test
 Kontingenční koeficienty
 Fisherův exaktní test
 McNemarův test
 ANOVA
 Poměr determinace

55

similar documents