testin

Report
Tilastollista päättelyä
Vesa A. Niskanen
Parametrinen vai ei-parametrinen
(parametriton) testi?
• Ei-parametrinen (kun yksikin näistä voimassa):
– Testimjat eivät ole vaaditun jakauman (esim.
normjak) mukaisia.
– Testimjat luokittelu tai järjestysasteikolla.
– Aineistot pieniä (alle 30 hav.)
• Toisinaan kannattaa myös tehdä eiparametrinen testi parametrisenkin lisäksi.
2
Tilastollinen testaus
• Ohjelmat laskevat p-arvon eli riskitason (eli
merkitsevyystaso, level of significance).
• 0≤p≤1
• Esim. p=0,05 (=5%), p=0,01 (=1%).
• Johtopäätökset:
• Jos p ei ole pieni (esim. p>0,05), niin valitaan
nollahypoteesi (H0).
• Jos p tarpeeksi pieni (esim. p<0,05), niin hylätään
H0 ja valitaan vaihtoehtoinen hypoteesi (Hv).
3
Esimerkki (t-testi)
• H0: urokset ja naaraat samanpainoisia
• Hv: eivät samanpainoisia
• Jos tulosteissa saadaan p=0,03 => johtopäätös
on Hv.
4
p-arvo
• Kertoo meille riskin eli todennäköisyyden olla
väärässä, jos johtopäätökseksi valitaan on Hv.
– Esim. p=0,72. Jos nyt johtopäätöksemme Hv, niin olemme
väärässä todennäköisyydellä 0,72 (72%). Siis ei Hv, vaan
H0.
– Esim. p=0,02. Jos nyt johtopäätöksemme Hv, niin olemme
väärässä todennäköisyydellä 0,02 (2%). Siis Hv.
• Toinen tapa: p on todennäköisyys, että testisuureen
arvo saadaan sattumalta.
5
Esim. Khii2-jakauma ja p-arvo
p
χ2
6
Ordinal, interval or ratio scales (Petrie & Watson)
Also nonequal
variances
• Large data sets: normality is not necessary
• Small data sets: use also non-parametric test
• Ordinal scale: use also non-parametric test
7
Petrie & Watson
Likelihood ratio test
(log likelihood)
Fisher’s exact (non-large data)
Likelihood ratio test
(log likelihood)
Fisher’s exact (non-large data)
8
Ristiintaulukointi,
riippumattomuustestit
•
•
•
•
Pienehkö aineisto: Fisherin eksakti testi.
Muulloin: Likelihood ratio (eli log-likelihood).
Khii-neliö eräissä tilanteissa epäluotettava, siksi en suosittele.
Päättely:
– H0 (nollahypot): ei riippuvuutta (kun esim p>0,05),
– Hv (vaihtoeht hypot): on riippuvuus (kun esim. p<0,05).
– Jos Hv, lisätarkastelu esim. sarake- tai rivi% avulla.
9
Korrelaatiot
• Mitta-asteikon mjat (miel. normaalisti
jakautuneet): Pearson.
• Järj.asteikolla Pearson myös yleensä hyvä.
• Tarvittaessa järj. asteikolla Spearman tai
Kendall.
• Päättely:
– H0: ei korrel,
– Hv: on korrel (kun esim. p<0,05).
• Käytä lisäksi graafista tarkastelua (scatter plot)
10
Scatter plots
negative, linear
positive, linear
positive, non-linear
non-linear
no correlation
11
Mja normaalijakauman mukainen?
• Pienehkö aineisto: Shapiro-Wilk.
• Muulloin: Kolmogorov-Smirnov.
• Päättely:
– H0: on normjak,
– Hv: ei normjak (esim. p<0,05).
• Käytä lisäksi graafista tarkastelua.
12
Normjak,
kuvia
Bodywt Stem-and-Leaf Plot
Frequency
Stem & Leaf
4.00 Extremes (=<62)
1.00
6. 8
6.00
7 . 446688
6.00
8 . 022668
33.00
9 . 000002222444444566666666788888889
69.00
10 . 000000000000022222222444444444444446666666666666666666688888888888888
64.00
11 . 0000000011222222224444444444444444444446666666666666888888888899
74.00
12 . 00000000000000000000011222222223334444444444445556666666666788888888888888
50.00
13 . 00000000000122222222344444444444444566666688888889
31.00
14 . 0000002222334444445666668888899
19.00
15 . 0002222224466666788
13.00
16 . 0222445668889
5.00
17 . 24445
11.00 Extremes (>=178)
Stem width:
Each leaf:
10
1 case(s)
13
Kaksi riippumatonta otosta
• Esim. ovatko urosten ja naaraiden painot samat?
• Ryhmät suuria (>30 hav), testimja mitta-asteikolla: ttesti.
• Ryhmät pieniä (<30) testimja mitta-asteikolla ja
havainnot ryhmissä normjak: t-testi (ehkä myös MannWhitney).
• Ryhmät pieniä (<30) ja havainnot ryhmissä eivät
normjak: Mann-Whitney.
• Testimja järjasteikolla: Mann-Whitney.
• Päättely:
– H0: ei eroa ryhmissä (keskiarvoissa),
– Hv: on ero (esim. p<0,05).
14
Kaksi tai enemmän riippumattomia otoksia
ja 1 luokitteleva mja (ANOVA)
• Esim. onko painoissa eroa eri dieettiryhmissä?
• Mitta-asteikon testimja, ja ryhmien havainnot normjak tai
niiden varianssit yhtäsuuria (siis varianssien osalta Levenen
testissä H0 eli esim p>0,05): yksisuunt. varianssianalyysi
(parametrinen testi).
• Mitta-asteikon tai järj. asteikon testimja, ryhmien havainnot
eivät normjak eikä niiden varianssit yhtäsuuria (varianssien
osalta Levenen testissä Hv eli esim p<0,05): Kruskall-Wallis.
15
Kaksi tai enemmän riippumattomia otoksia ja 1
luokitteleva mja (yksisuuntainen ANOVA), (2)
• Yleistestin päättely (esim. ANOVA-taulu):
– H0: ei eroa ryhmien välillä,
– Hv: on ero ainakin kahden ryhmän osalta (esim. p<0,05).
• Jos yleistestissä Hv: silloin esim. parittaiset vertailut eli Post Hoc –testit:
– yhtäsuuret ryhmien varianssit, parametrinen: esim. Tukey (paljon
ryhmiä) tai Bonferroni (vähän ryhmiä);
– ei yhtäsuur ryhmien varianssit, parametrinen: esim. Tamhane T2
– Kruskall-Wallis (siis ei-parametrinen): esim. Mann-Whitney tai
Kruskall-Wallis Bonferroni-korjauksella (SPSS laskee suoraan).
• Bonferroni-korjaus: kerro p-arvot luvulla b kun b=k*(k-1)/2, missä k on
ryhmien määrä.
• Post Hoc -testin päättelyt parien osalta:
– H0: ei eroa testimjan osalta parin tapauksessa,
– Hv: on ero (esim. p<0,05).
16
Kaksi tai enemmän riippumattomia otoksia
ja useampi kuin 1 luokitteleva mja
• Monisuuntainen ANOVA. Luokittelevat mjat kiinteitä (fixed) tai
satunnaisia (random) tekijöitä. Jos molempia, niin mixed effects –malli.
• Ei-param. testiä ei ole tarjolla.
• Esim. esim painojen ero sukupuolen ja dieettien ryhmissä.
• Normaalisuus ja varianssien Levenen testi: kuten 1-suunt. ANOVA (siis
Levenen H0: samat varianssit).
• Varianssitaulu (test of between-subjects effects):
– Jokaisen tekijän (oma)vaikutus: H0: ryhmien välillä ei eroa; Hv: ainakin kahden ryhmän
välillä ero.
– Yhdysvaikutus (interaction, jos tarpeeksi havaintoja): H0: ei ole; Hv: on.
• Ryhmien parittaiset vertailut pairwise comparison -tauluissa (jos yllä Hv,
Bonferroni –korjauksella).
• Graafinen esitys yhdysvaikutuksen tarkasteluun.
17
Kaksi tai enemmän riippumattomia otoksia, 1 tai
useampi luokitteleva mja ja kovariaatteja
• Kovarianssianalyysi.
• Esim. painojen ero dieettien ja sukupuolten ryhmissä kun alkupainon
(kovariaatin) vaikutus eliminoitu. Lasketaan siis kovariaateilla korjattujen
keskiarvojen eroja.
• Testimja normaalinen, ryhmien varianssit samat (Levenen testissä siis
mielellään H0), kovariaatit ja testimja korreloivat, kovariaatit eivät korreloi
keskenään.
• Varianssitaulu (test of between-subjects effects, korjatut keskiarvot):
– Jokaisen tekijän (oma)vaikutus: H0: ryhmien välillä ei eroa; Hv: ainakin
kahden ryhmän välillä ero.
– Yhdysvaikutus (interaction, jos tarpeeksi havaintoja): H0: ei ole; Hv: on.
Pitäisi olla H0, koska muuten keskiarvojen erojen tulkinta vaikeaa.
• Post Hoc –testit korjatuista keskiarvoista (jos edellä Hv): kuten monisuunt.
ANOVA.
18
Parittaiset (riippuvat) otokset, 2 kpl
• Esim. alkupaino – loppupaino kun dieetti käsittelynä
• Paljon havaintoja (>30), testimjat mitta-asteikolla: t-testi.
• Vähän hav.yksiköitä (<30), testimjat mitta-asteikolla ja
havainnot ryhmissä normjak: t-testi.
• Vähän hav.yksiköitä (<30) testimjat mitta-asteikolla ja
havainnot ryhmissä eivät normjak: Wilcoxon (ehkä myös
Sign- eli merkkitesti).
• Testimjat järj.asteikolla: Wilcoxon (ehkä myös Sign).
• Dikotomiset mjat: McNemar.
• Päättely:
– H0: ei eroa (usein käytännössä myös: käsittely ei vaikuttanut),
– Hv: on ero (esim. p<0,05).
19
Kaksi tai useampia mittauksia samoista
yksiköistä (1)
• Esim. painon muutos useiden mittauskertojen
välillä tietyn dieetin aikana.
• Parametrinen: toistettujen mittausten analyysi
(ANOVA) kun toistomjat normjak ja ryhmien
varianssit samat.
• Mittauksien (within –subject mjat) lisäksi voidaan
käyttää luokittelevia mjia (between subjects mjat)
ja jopa kovariaatteja.
20
Kaksi tai useampia mittauksia samoista
yksiköistä (2)
• Tarkimmin mittauksien erot
univariaattitestesteillä:
• Mauchly’s test of spherity (kovarianssimatriisien
symmetrisyys):
• H0: ovat symmetrisiä, Hv: eivät ole.
– Jos edellä H0: seuraavasta taulusta tests withinsubjects effects katsotaan testi spherical assumed.
– Jos Hv ( ei symmetrisiä) ja Greenhouse-Geisser >0,75:
taulusta tests within-subjects effects katsotaan testi
Huynh-Feldt.
– Jos Hv ( ei symmetrisiä) ja Greenhouse-Geisser < 0,75:
taulusta tests within-subjects effects katsotaan testi
Greenhouse-Geisser.
21
Kaksi tai useampia mittauksia samoista
yksiköistä (3)
• Tests within-subjects effects -taulu:
• Kaikissa testeissä (eli spherical assumed, Huynh-Feldt
ja Greenhouse-Geisser, kannattaa aina katsoa ne
kaikki):
– H0: mittauksien välillä ei eroja; Hv: on eroja (ainakin kahden
välillä).
• Jos edellä Hv: parittaiset vertailut (esim.
peräkkäiset pareittain) test of within-subjects
contrasts -taulusta:
– H0: parin osalta ei eroa; Hv: on ero.
22
Kaksi tai useampia mittauksia samoista
yksiköistä (4)
• Esim. painon muutos mittauskertojen välillä dieetin
aikana.
• Ei-parametrinen: Friedman
– H0: mittauksien välillä ei eroa; Hv: ainakin 2 mittauksen
tapauksessa ero.
• Jos edellä Hv: jatkovertailut 2 mittausta kerrallaan
esim. Friedman tai Wilcoxon Bonferroni-korjauksella
(SPSS laskee tämänkin).
• Bonferroni-korjaus: kerro p-arvot luvulla b kun
b=k*(k-1)/2, missä k on mittauksien lukumäärä.
• Päättely:
– H0: ei eroa ko. kahden mittauksen välillä,
– Hv: on ero (esim. p<0,05).
23
Lineaarinen regressioanalyysi (1)
• Selitettävä normjak, kaikki mjat ainakin
välimatka-asteikko (joskin selittäjät joskus jopa
luokitteluasteikolla).
• Esim. kuinka lehmän painoa voidaan arvioida
rinnanympäryksen ja korkeuden perust.
• Selittäjät korreloivat selitettävän kanssa.
• Selittäjät eivät saa korreloida keskenään (ei siis
multikollineaarisuutta)
• Outlierit pois aineistosta, jos mahdollista.
24
Lineaarinen regressioanalyysi (2)
• Model summary -taulu: selitysaste (rsquare, 0-1, paras arvo
1), korjattu selitysaste yleensä luotettavampi kriteeri (adjusted
rsquare, 0-1, siinäkin paras arvo 1).
• ANOVA-taulu: yleistestissä pitää johtopäätös olla Hv (esim.
p<0,05).
• Coefficients taulu:
– Regressiokertoimet B-sarakkeessa.
– Toleranssit kertovat multikollineaarisuudesta (po. lähellä
1).
– t-testit: onko ko. selittäjä oleellinen (on, jos p pieni eli Hv).
• Residuaalit po. normjak nollan ympärillä (niiden keskiarvo
pitää olla 0). Studentisoidut residuaalit ilmaisevat outlierit
(silloin outlier kun ko. arvo <-3 tai >3).
• Myös askeltavia (esim. stepwise) menetelmiä
“automaattiseen” mallinnukseen.
25
Logistinen regressioanalyysi (1)
• Selitettävä mja dikotominen 0/1, jolloin 0=kontrolli.
• Esim. mitkä tekijät selittävät/ennustavat
korvatulehdusta (0=ei tulehdus, 1=tulehdus).
• Selittäjät mieluiten diskreettejä dummy-mjia (vaikka
asteikko vapaa). Jatkuvat mjat miel. norm jak.
• Selittäjät eivät saa korreloida (ei
multikollineaarisuutta, tämä tärkeä).
• Outlierit pois aineistosta, jos mahdollista.
• (Multinomial-tapaus: selitettävällä useampi luokka).
26
Logistinen regressioanalyysi (2)
• Vertailuarvon valinta (SPSS): contrast=indicator ja pienempi arvo (0)
vertailuarvoksi (SPSS: first).
• Tavallisesti aloitetaan tulosten tarkastelu kohdasta Block=1.
– Omnibus test eli yleistesti regkertoimille: yleensä vain model-rivin tarkastelu.
Pitäisi olla pieni p-arvo (Hv).
– Model summary –taulussa selitysaste: Nagelkerke rsquare, 0-1, paras arvo 1.
– Classification table eli luokittelutaulukossa pitää olla mahd. paljon oikeita
luokituksia.
– Variables in equation –taulu: Waldin testin p-arvot kertovat oleelliset selittäjät
(po. niillä pieni p); B-sarakkeen kertoimet kertovat sitten riskin kasvusta (B>0)
tai vähenemisestä (B<0). Tai (vain diskr. mjat): Exp(B) eli odds ratio –arvot
(riskisuhde) kertovat luotettavasti riskin kasvusta (>1) tai vähenemisestä (<1)
selittäjien luokissa, jos arvo 1 on riskisuhteen (95%) luottamusvälin
ulkopuolella.
• Residuaalit normjak nollan ympärillä (niiden keskiarvo pitää olla 0).
• Joskus tämä menetelmä voidaan korvata erotteluanalyysillä, jolloin
mjilla kuitenkin enemmän rajoituksia.
• Vrt. myös Coxin regressionanalyysi.
27
Coxin regressioanalyysi
• Selitettävä mja on aika, selittäjillä asteikko ja
tyyppi vapaa.
• Vain oleelliset selittäjät mukaan (esim. t-testien
avulla).
• Selittäjät eivät saa korreloida (ei
multikollineaarisuutta).
• Outlierit pois aineistosta, jos mahdollista.
• Elinaika-aineistojen analyysi, päättyy esim.
kuolemaan (status).
• Vrt. Myös logistinen regressionanalyysi.
28
Kaplan-Meier elinaika-analyysi
• Selitettävä mja on aika, selittäjänä vain yksi
luokitteluasteikon selittäjä.
• Elinaika-aineistojen analyysi, päättyy esim.
kuolemaan (status).
• Vrt. myös logistinen regressionanalyysi ja
Coxin regressioanalyysi.
29
Sekamallit: Kaksi tai enemmän riippumattomia otoksia
ja useampi kuin 1 luokitteleva mja
• Monisuuntainen ANOVA
• Esim. painojen erot kun ryhminä sairaalat (lohko),
sukupuoli (pääruutu), dieetti (osaruutu).
• Jos muuten ryhmiin tulee liian vähän havaintoja, niin
sekamallit (mixed models, esim. osaruutukokeet eli
split-plot –kokeet).
30
Sekamallit: Kaksi tai enemmän riippumattomia otoksia
ja useampi kuin 1 luokitteleva mja
• Esim. painojen erot kun ryhminä sairaalat (lohko),
sukupuoli (pääruutu, ne arvotaan ensin, alla sar.),
dieetti (osaruutu, ne arvotaan sitten, alla rivit).
Sair 1
Sair 2
u, d1
n, d2
n, d1
u, d3
u, d3
n, d1
n, d2
u, d2
u, d2
n, d3
n, d3
u, d1
31

similar documents