Document

Report
Raziskovalna metodologija v
psihologiji
psihologija (III.st.) – 1. letnik
2011/12
Vnos, urejanje in pregled podatkov pred multivariatno
analizo in statistični modeli
Kaj so multivariatne metode (MVM)?
“Statistične metode za analizo več (odvisnih) spremenljivk
hkrati.”
Nekatera tipična MV raziskovalna vprašanja:
»Kako na podlagi več napovednih spremenljivk čim bolje napovedati
vrednosti odvisne spremenljivke?« (multipla regresija/logistična regresija)
»Kako večje število spremenljivk nadomestiti z majhnim številom novih
spremenljivk?« (analiza glavnih komponent)
»S katerimi hipotetičnimi spremenljivkami lahko pojasnimo korelacije med
večjim številom opazovanih spremenljivk?« (faktorska analiza)
»Ali lahko določimo skupine podobnih oseb/objektov/spremenljivk?«
(clusterska analiza)
»Ali se predpostavljeni model odnosov med spremenljivkami prilega
podatkom?« (strukturno modeliranje)
»Ali eksperimentalni pogoj vpliva na povprečja dveh ali več odvisnih
spremenljivk?« (multivariatna analiza variance – MANOVA)
MVM nujne pri proučevanju:
•kompleksnih modelov napovedovanja / razvrščanja,
•interakcije in moderacije,
•mediacije,
•latentnih spremenljivk,
•strukture pojavov…
Delitev MVM:
1. glede na cilj: napovedovanje - strukturiranje
2. opisne, eksploratorne – “modelske”, konfirmatorne
3. glede na raziskovalni načrt: (kvazi)eksperiment korelacijsko raziskovanje
Statistični modeli
Model = formaliziran oz. abstrakten poenostavljen
opis realnosti.
Značilnosti statističnih modelov:
•formalna (matematična) struktura
•poenostavljenost & posplošljivost (abstraktna
načela)
•»preizkusljivost«
• Model vs. tavtologija.
(=logična trditev, pri kateri je sklep
enak premisi oz. obrazec in predlaganem izračunu, ki je vedno
pravilen)
• Model in ciljna funkcija (c.f. je bistven del
metode!)
Kaj običajno srečamo:
•teoretične porazdelitve
•(naključno) vzorčenje
•bivariatna regresijska analiza
•ANOVA
n
Splošni linearni model:
Yi  a   b j X ij  ei
j 1
b…uteži – določene glede na namen analize
i…indeks osebe
X…(neodvisna) spremenljivka
j…indeks (neodvisne) spremenljivke
a…konstanta
e…ostanek/rezidual/napaka
Preverjanje modela:
1. dihotomno (model drži ali ne): problem 
potrjevanje H0
2. stopnja odstopanja od modela – goodness of fit
(problem kriterijev; marsikje slabo razvito!)
Prileganje modelu ni isto kot velikost učinka!
Napake v modeliranju:
1. sistematične (v modelu)
2. naključne (merjenje / vzorčenje)
Anscombe's quartet…
… comprises four datasets that have identical simple
statistical properties, yet appear very different when
graphed. Each dataset consists of eleven (x,y) points.
They were constructed in 1973 by the statistician F.J.
Anscombe to demonstrate both the importance of
graphing data before analysing it and the effect of
outliers on statistical properties.
…to emphasize the importance of looking
at one's data before analyzing it!!!
Anscombe's Quartet
I
II
III
IV
Lastnost
Vrednost
Povprečje vsake x spremenljivke
9,0
Varianca vsake x spremenljivke
10,0
Povprečje vsake y spremenljivke
7,5
x
y
x
y
x
y
x
y
10.0
8.04
10.0
9.14
10.0
7.46
8.0
6.58
8.0
6.95
8.0
8.14
8.0
6.77
8.0
5.76
Varianca vsake y spremenljivke
3,75
13.0
7.58
13.0
8.74
13.0
12.74
8.0
7.71
Korelacija med vsakim parom x in y
0,816
9.0
8.81
9.0
8.77
9.0
7.11
8.0
8.84
Regresijska premica
y = 3 + 0,5x
11.0
8.33
11.0
9.26
11.0
7.81
8.0
8.47
14.0
9.96
14.0
8.10
14.0
8.84
8.0
7.04
6.0
7.24
6.0
6.13
6.0
6.08
8.0
5.25
4.0
4.26
4.0
3.10
4.0
5.39
19.0
12.50
12.0
10.84
12.0
9.13
12.0
8.15
8.0
5.56
7.0
4.82
7.0
7.26
7.0
6.42
8.0
7.91
5.0
5.68
5.0
4.74
5.0
5.73
8.0
6.89
Anscombe, Francis J. (1973) Graphs in statistical analysis. American Statistician,
27, 17–21.
seems to be distributed normally, and
corresponds to what one would expect when
considering two variables correlated and following
the assumption of normality
…vsa odstopanja
so naključne
napake…
the distribution is linear, but with a different
regression line, which is offset by the one outlier
which exerts enough influence to alter the
regression line and lower the correlation
coefficient from 1 to 0.81
not distributed normally; while an obvious
relationship between the two variables can be
observed, it is not linear, and the Pearson
correlation coefficient is not relevant
…vsa
odstopanja so
sistematične
napake
(kvadratna
funkcija)…
one outlier is enough to produce a high
correlation coefficient, even though the
relationship between the two variables is not
linear
Urejanje podatkov
Šifra
Moški Starost Izobrazba
IQ
A01
1
25
7
125
A02
1
25
6
111
•osebe v vrsticah,
spremenljivke v stolpcih
A03
0
36
6
104
•načelo “1 enota (oseba) – 1
vrstica” (par obravnavamo
kot eno enoto)
A04
1
23
4
95
A05
0
48
5
109
B01
0
-9999
5
98
B02
0
31
3
92
Podatkovna matrika:
•najprej identifikacijska
B03
1
27
4
spremenljivka, nato splošne
1
41
4
demografske spremenljivke, B04
za tem vse ostalo
•numerično kodiranje kvalitativnih spremenljivk (1/0 pri
dihotomnih; 1=da)
•jasna imena (zapišimo si natančen opis vsake spremenljivke!)
•kode za manjkajoče vrednosti (potrebno sporočiti programu!)
•vhodni podatki za MV analizo so lahko tudi druge matrike (npr.
kovariančna matrika, matrika razdalj…)
94
88
Manjkajoče vrednosti (missing data)
Zelo velik problem!
Večina multivariatnih analiz zahteva popolne podatke.
Preprečevati v procesu zbiranja podatkov.
Ni preprostih dobrih rešitev – več o tem ob koncu
semestra…
Privzeto v SPSS: brisanje vseh oseb z manjkajočimi
vrednostmi.
Nezaželene odvisnosti
A. odvisnost oseb:
• Navadno posledica stopenjskega vzorčenja.
• Ignoriranje ima lahko zelo resne posledice (neveljavnost
stat. testov)!
• Rešitev: večnivojski modeli.
B. odvisnost spremenljivk:
Nastane zaradi:
1. medsebojne pogojenosti odgovorov;
2. ipsativnega vrednotenja (npr. pri prisilni izbiri);
3. možnosti izbiranja nalog;
4. hkratne uporabe X, Y in aX+bY ipd.,
5. hkratne uporabe (skoraj) identičnih spremenljivk.
Preprečiti v procesu zbiranja podatkov (1-3) oz. analize (4-5).
Pomen natančnega pregleda podatkov pri MV analizi:
- odkrivanje napak in motenj (težko razvidne iz
rezultatov!)
- preverjanje predpostavk (normalnost, linearnost,
homoscedastičnost)
Osnovni pregled:
M, SD / AD, min, max
histogram / tabela frekvenčne porazdelitve
okvir z ročaji (boxplot)
razsevni diagrami (scatter-plot)
Npr.:
Dihotomno (1/0) točkovana postavka:
Descriptive Statistics
N
VAR00001
107
Valid N (listwise)
107
Valid
Minimum
Maximum
,00
11,00
Mean
Std. Deviation
,6729
1,12246
Cumulative
Percent
Frequency
Percent
Valid Percent
,00
45
42,1
42,1
42,1
1,00
61
57,0
57,0
99,1
11,00
1
,9
,9
100,0
Total
107
100,0
100,0
V obeh primerih ima M “nevpadljivo”
vrednost (0,67 oz. 3,30)!
Postavka
“Likertovega tipa”
(1-5)
r = 0,250
...na prvi pogled
v redu, toda…
Če pravilno
določimo kodo
za manjkajočo
vrednost:
r = 0,048
Vpliv omejene
variabilnosti na korelacijo:
r = 0,80
80
70
60
50
40
30
20
20
30
40
50
60
70
80
60
70
80
r = 0,60 (selekcija)
80
70
60
50
40
30
20
20
30
40
50
60
70
80
r = 0,88 (ekstremne skupine)
80
70
Mimogrede:
sprememba merske
lestvice ne vpliva na r!
60
50
40
30
20
20
30
40
50
Osamelci (ekstremne vrednosti, outliers)
Neobičajno visoke / nizke vrednosti
(odklon od povprečja je velik v primerjavi z variabilnostjo)
Problematični, ker lahko nesorazmerno vplivajo na
M, SD oz. Var, r in b (ter ostale izpeljane statistike!) 
vplivne točke (influential observations)
Univariatni in multivariatni osamelci
Multivariatni: neobičajen vzorec povezanosti.
Vsak uni- je tudi multi-, ne velja pa obratno!
Diagnostika:
•slike (zaboj z ročaji za univar., razsevni diagram za bivar.)
• “z > 3”, “X-Me >1,5(Q3-Q1)” ipd. (univariatni)
•Mahalanobisova razdalja D (multivar.): posplošitev z2 na več
spremenljivk, upošteva variabilnost in korelacijo; pribl. po 2 …
(pove, kako daleč je enota od centroida vseh enot na prediktorski spremenljivki –
velika razdalja pove, da je vrednost osamelec za prediktorje)
Primer: osamelci v bivariatnem primeru
0
2
1
3
0
1
2
3
z(X)
/
4
2
4
z(Y)
/
3,6
-2
-2
r
0,90
0,91
0,83
0,75
regr.
enačba
Y' =
Y' =
Y' =
Y' =
51,9+0,98X
51,9+0,98X
55,4+0,90X
61,6+0,77X
M(D)
1,98
1,98
1,98
1,98
max(D)
6,26
13,66
44,35
64,10
 2 =  −  ′ −1  − 
D = Mahalanobisova razdalja
z(X), z(Y) = z vrednost osamelca na vsaki od spremenljivk
(v vseh primerih se povečata SD in spremenita M,
vendar so razlike majhne)
Razlogi za nastanek osamelcev:
1. napake pri zbiranju podatkov
2. napake pri vnosu/manipulaciji podatkov
3. kodiranje manjkajočih vrednosti (tipična koda: -9999)
4. oseba ne pripada ciljni populaciji
5. oblika porazdelitve
Ukrepi:
• popravek (2,3),
• brisanje (1,4  potrebna utemeljitev!)
• pretvorbe podatkov (5)
• (bolj) robustne metode (5)
• analiza z in brez osamelcev (5, 5?)
preveriti, ali je
osamelec tudi vplivna
točka!
Normalnost porazdelitve
Ni nujen pogoj pri vsaki analizi!
Običajno najbolj problematična visoka sploščenost.
Preverjanje univariatne normalnosti:
•P-P in Q-Q grafi,
•koeficienta sploščenosti in asimetrije
•testi normalnosti (npr. Shapiro-Wilk)
Multivariatna normalnost (MVN):
•vse obtežene vsote spremenljivk so normalno porazdeljene
•vse pogojne porazdelitve so normalne
•univariatna n. je nujen, vendar ne zadosten pogoj za MVN
Preverjanje:
slabo razvito! Test MV sploščenosti in asimetrije.
Linearnost povezav
•implicira vsaj intervalno merjenje
•pomembna pri analizah, ki temeljijo na r ali Cov
•vzroki nelinearnosti: intrinzična nelinearnost ali oblika
porazdelitve
•diagnostika: pregled razsevnih diagramov in rezidualnih
grafov
Homoscedastičnost (ant. heteroscedastičnost)
•enaka variabilnost napak pri vsaki vrednosti X
• enaka natančnost (napovedi) pri vsakem X
•preverjamo z grafičnimi preizkusi (rezidualni graf)
“Metuljasta heteroscedastičnost” zaradi
združevanja različnih skupin
90
90
80
80
70
70
60
60
50
50
40
40
30
30
20
20
10
10
0
20
40
r=0
60
80
100
0
20
40
60
r = 0,71
80
100
Linearnost, homoscedastičnost in normalnost so
lahko povezane:
3.2
3.0
2.8
2.6
2.4
2.2
SKEW
2.0
1.8
1.6
10
20
NORMAL
30
40
50
60
70
80
90
Pretvorbe:
 ploščinska normalizacija;
 nelinearne funkcije, npr. koren, logaritem ali inverz.
160
200
140
As=-0,43
Spl=0,40
120
As=-0,82
Spl=1,36
100
80
100
60
40
Std. Dev = .73
Std. Dev = .22
20
Mean = 3.89
Mean = 7.03
N = 1000.00
00
9.
50
8.
00
8.
50
7.
00
7.
50
6.
00
6.
50
5.
00
5.
50
4.
00
4.
KOREN
N = 1000.00
0
31
4.
19
4.
06
4.
94
3.
81
3.
69
3.
56
3.
44
3.
31
3.
19
3.
06
3.
94
2.
81
2.
0
LN
Nelinearne pretvorbe lahko ublažijo odstopanja od linearnosti,
homoscedastičnosti in normalnosti, vendar navadno otežijo
interpretacijo spremenljivk. X in f (X) ne moreta biti hkrati intervalni!
Kaj moramo torej preveriti, preden poženemo
multivariatno analizo?
1. So podatki ustrezno vneseni?
2. Nepristne odvisnosti spremenljivk ali oseb?
3. Manjkajoči podatki?
4. Pregled univariatnih opisnih statistik in slik.
5. Multivariatni osamelci (outliers) in vplivne točke?
kjer vrsta analize to zahteva, pa še:
6. Oblika porazdelitve: normalnost,
homoscedastičnost?
7. Linearni odnosi?
8. Je variabilnost vzorca primerljiva s populacijsko?

similar documents