Přednáška 5

Report
Biostatistika
5. přednáška
Aneta Hybšová
email:
[email protected]
2
Náplň kurzu
1.
2.
3.
4.
5.
6.
7.
Úvod do biostatistiky. Význam biostatistiky v biologii a v učitelství.
Biostatistický znak, náhodná veličina.
Analýza jednorozměrných biostatistických dat, četnosti, střední hodnota,
charakteristiky variability, grafické zobrazení. Grafy, tabulky.
Vícerozměrná biostatistická data. Základní a výběrový soubor v biostatistice.
Testování hypotéz v biostatistice, vybrané parametrické a neparametrické
testy, testovací kritérium, kritická hodnota. T-testy, F-test, Mann-Whitneyův
pořadový test, Wilcoxonův test, znaménkový test.
Měření závislosti mezi kvantitativními a kvalitativními proměnnými
(jednoduchá a vícenásobná regresní a korelační analýza, jednorozměrná
analýza rozptylu, analýzy v kontingenčních tabulkách). Pearsonův
koeficient, Spearmanův koeficient pořadové korelace.
Obecný postup analýzy biostatistických dat. Prezentace biostatických
výstupů.
Úvod do vícerozměrných metod. Analýza rozptylu, Analýza kovariance,
Analýza hlavních komponent, Faktorová analýza, Shluková analýza,
Diskriminační analýza.
3
Tvrzení vs. Hypotéza
 Tvrzení


Agresivita u dětí předškolního věku se
vyskytuje častěji u dětí z neúplných rodin.
Chlapci dosahují lepších výsledků ve fyzice
než dívky.
 Hypotéza


Četnost projevů agresivity je vyšší u dětí,
které vyrůstají v neúplné rodině.
Průměrný počet bodů v testu z fyziky je u
chlapců vyšší než u dívek.
4
Komparativní experiment

porovnání dvou a více skupin




stanovení hypotézy H0 = nulová hypotéza






muži vs. ženy – kalorický příjem
žáci s BOV vs. žáci s frontální výukou
pacienti léčení standardně vs. pacienti léčeni novým
lékem
jednoznačné tvrzení
vyjadřuje vztah mezi proměnnými (pohlaví, kalorický
příjem)
lze empiricky ověřit
obvykle tvrdí, že neexistuje rozdíl mezi skupinami
např. Muži mají stejný kalorický příjem než ženy.
stanovení alternativní hypotézy H1


popírá H0
rozdíl mezi skupinami existuje
5
Testování hypotéz

hladina významnosti α



kritická hodnota



pravděpodobnost, že nesprávně odmítneme
nulovou hypotézu
standardně 0,05 (0,01 ; 0,001)
hodnota, která rozděluje kritický obor a obor přijetí
(kvantil)
zpravidla hledáme v tabulkách
testové kritérium



hodnota, podle níž určujeme výsledek testu
pokud spadá do oboru přijetí pak H0 nezamítáme
spočítáme jej
6
Výsledek testování
1) srovnáním vypočteného testového kritéria s kritickou
hodnotou, která se určuje v závislosti na zvolené hladině
významnosti α. Jestliže hodnota vypočtené testovací
statistiky překročí kritickou hodnotu, znamená to, že
existuje evidence pro zamítnutí nulové hypotézy (tzn. „že
jsme potvrdili rozdíl“).
2) pomocí p hodnoty – vypočtená pomocí software
a) Jestliže p-hodnota je menší než hladina
významnosti α, zamítáme H0
b) Jestliže je p-hodnota větší než hladina
významnosti α (chyba α), nulovou hypotézu H0 nemůžeme
zamítnout a tedy předpokládáme, že platí.
7
Statistické metody pro analýzu
nominálních dat
1.
2.
3.
Chí kvadrát test dobré shody
Test nezávislosti chí kvadrát pro
kontingenční tabulku
Fischerův test (kombinatorický)
8
1. Chí kvadrát test dobré
shody

zkoumá, zda existuje souvislost mezi dvěma
jevy, resp. nominálními proměnnými
H0: mezi skupinami není rozdíl
ověřujeme, zda četnosti, které byly získány
měřením se liší od očekávaných četností
vychází z absolutních četností
Očekáváná četnost – četnost při platnosti H0

hrací kostka




9
1. Chí kvadrát test dobré
shody - předpoklad
 očekávané
četnosti jsou větší než 5
 80% očekávaných četností je větších než
5
10
1. Chí kvadrát test dobré
shody - příklad
 Skupina
90 žáků ZŠ odpovídala na otázku:
Který z vyučovacích předmětů máš
nejraději?
A) matematika
B) fyzika
C) chemie
 Rozhodněte zda mezi oblibou předmětů
existuje statisticky významný rozdíl.
11
Postup:
1)
2)
3)
4)
5)
Stanovení očekávaných četností O
Počet stupňů volnosti
Stanovení kritické hodnoty
Výpočet chí-kvadrát testového kritéria
Porovnání kritické hodnoty a testového kritéria
12
1. Chí kvadrát test dobré
shody - příklad
Předmět
Matematika
Pozorovaná
četnost P
35
Očekávaná
četnost O
30
P-O
(P-O)2
(P-O)2
----------O
5
25
0,833
Fyzika
28
30
-2
4
0,133
Chemie
27
30
-3
9
0,3
Součet
90
90
-
-
1,266





testové kritérium je 1,266
stupně volnosti 2 (počet řádků – 1)
hladina významnosti 0,05
kritická hodnota (tabelovaná) 5,99 – přijímáme H0
Výsledky lze připsat působení náhody. Obliba předmětů je stejná.
13
Příklad 2 - Zmrzlina

Řetězec cukráren, který nabízí 4 druhy zmrzliny
otevřel provozovnu v nové lokalitě. Ve stávajících
provozovnách řetězce byla dosud struktura
prodeje podle druhů zmrzliny následující: vanilková
62%, čokoládová 18%, jahodová 12%, pistáciová
8%. Po otevření provozovny v nové lokalitě máme
záznam o následujícím prodeji: vanilková 120,
čokoládová 40 jahodová 18, pistáciová 22.

Vyjádřete se pomocí statistického testu ke shodě
či odlišnosti struktury prodeje v nové lokalitě oproti
dosavadním prodejům řetězce.
14
Příklad 2 - Zmrzlina
zmrzlina
struktura prodeje
nová provozovna
oč.při stejné struktuře
chi-kvadrát
vanilková
62%
120
124
0,13
čokoládová
18%
40
36
0,44
jahodová
12%
18
24
1,5
pistáciová
8%
22
16
2,25
S
100%
200
200
4,32
- počet stupňů volnosti - 3
- hladina významnosti – 0,05
Spočtená hodnota testového kritéria (4,32) nepřekračuje mez
vymezující kritický obor (7,81), nachází se v oboru přijetí a na
zvolené 5%ní hladině významnosti hypotézu o shodě struktury
prodeje nezamítáme.
15
2. Test nezávislosti chí kvadrát
pro kontingenční tabulku
 existuje
souvislost mezi dvěma jevy, resp.
nominálními proměnnými?
 H0:
skupiny jsou shodné
 PŘEDPOKLAD

80% očekávaných četností nad 5
16
Příklad 4
 400
náhodně vybraných studentů
odpovědělo na dvě otázky:


Byl jste v loňském roce ubytován na
kolejích? ANO - NE
Jaký je Váš průměrný studijní průměr?
 A)
lepší než 1,6
 B) 1,6-2,1
 C) horší než 2,1
Rozhodněte zda existuje vztah mezi
průměrnou známkou a bydlením na kolejích.
17
 H0:
Mezi četnostmi na obě uvedené
otázky není závislost.
 H1: Mezi četnostmi na obě uvedené
otázky je závislost.
Empirická četnost
průměr/ koleje
ano
ne
do 1,6
39
41
1,6 - 2,1
107
73
od 2,1
93
47
součet
239
161
součet
80
180
140
400
18
Empirická četnost
průměr/ koleje
ano
ne
do 1,6
39
41
1,6 - 2,1
107
73
od 2,1
93
47
součet
239
161
průměr/ koleje
do 1,6
1,6 - 2,1
od 2,1
součet



Teoretická četnost
součet průměr/ koleje
ano
ne
80
do 1,6
47,8
32,2
180
1,6 - 2,1
107,55
72,45
140
od 2,1
83,65
56,35
400
součet
239
161
chí kvadrát
ano
ne
1,620084 2,404969
0,002813 0,004175
1,045099 1,55142
2,667995 3,960564
součet
4,025053
0,006988
2,596518
6,628559
počet stupňů volnosti (r-1)*(s-1) = 2
kritická hodnota (2) = 5,991 alfa 0,05
prokázána rozdílnost mezi empirickými a
očekávanými četnostmi = souvislost mezi znaky
součet
80
180
140
400
19
Příklad 5 - Platy

Příjmy obyvatelstva závisí na dosaženém vzdělání.
Počítejte na 1% hladině významnosti.
empirické
do 7
7-12
13-18
19-24
nad 24
součet
základní
293
876
712
173
67
2121
středoškolské vysokoškolské
156
3
609
34
667
68
112
18
25
2
1569
125
součet
452
1519
1447
303
94
3815
teoretické
do 7
7-12
13-18
19-24
nad 24
součet
základní
251
845
805
168
52
2122
středoškolské vysokoškolské
185
15
625
50
595
47
125
10
39
3
1569
125
součet
451
1520
1447
303
94
3815
20
Příklad 5 - Výsledek
 kritická
hodnota (8) je 15,507 pro alfa 0,01
 testové kritérium 73,29
 prokázán statisticky významný rozdíl
21
Příklad na doma
 Celkem
bylo sledováno 54 semenáčků o
stejné výchozí velikosti na sekané louce a
68 semenáčků na pasené louce. Za měsíc
zbylo 12 semenáčků na sekané louce a 8
semenáčků na pasené louce.
 Liší
se přežívání semenáčků zkoumané
trávy na louce sekané a pasené?

similar documents