luento7_kalvot

Report
Kvantitatiiviset tutkimusmenetelmät
Luento 7
Logistinen regressioanalyysi
ja lineaariset mallit
Kaisu Puumalainen
Binäärinen logistinen regressio
Logistinen regressioanalyysi
selitettävä luokiteltu ja selittäjät jatkuvia (voi olla myös
kategorisia)
ryhmät a priori
2 ryhmää -> binary (dichotomous) logistic
3-k ryhmää -> ordinal response tai multinomial
(polytomous) logistic
Hosmer & Lemeshow (2000) Applied Logistic Regression,
2nd ed. New York: Wiley
http://www2.chass.ncsu.edu/garson/pa765/logistic.htm
http://support.sas.com/documentation/cdl/en/statug/63033/
HTML/default/viewer.htm#logistic_toc.htm
4
Sovelluksia
asiakkuuden ja ei-asiakkuuden selittäminen
mikä erottaa kannattavia ja ei-kannattavia yrityksiä
miksi toinen tuote menestyy ja toinen ei
mikä on erilaisten tekijöiden vaikutus taudin puhkeamisriskiin
5
Vaiheet
tavoitteet
Mitkä selittäjät vaikuttavat merkitsevästi
Vaikutusten suunta ja suuruus
luokittelu ryhmiin, ennustaminen
suunnittelu
selittäjien valinta
riittävä otoskoko
analyysi- ja validointiotokset
edellytykset
Muuttujien mittaustaso ja datan riittävyys
OLS edellytyksiä ei ole
6
Vaiheet
mallin estimointi
enter tai stepwise, maximum likelihood
ennustetarkkuuden arviointi
mallin merkitsevyys
selityskerroin
Onnistumisprosentti luokittelussa
tulkinta
Kertoimet ja odds ratio
validointi
split sample
7
Muuttujien valinta
selitettävä
aidosti luokiteltu tai jatkuvasta tehty
dikotominen eli binäärinen (tai 3-4 ryhmää)
voidaan myös verrata vain ääriryhmiä
Huom. SAS EG binäärinen vaatii, että selitettävässä ei esiinny mitään
muuta kuin 2 eri arvoa (puuttuvat arvot suodatettava etukäteen)
selittäjät
Jatkuvia tai luokiteltuja
Luokitelluille ei tarvitse tehdä erillistä dummy-muunnosta, vaan SAS tekee
sen itse
8
Otoksen riittävyys
min 10 (miel. 20) havaintoa per selittäjä
Selitettävän muuttujan joka ryhmässä väh. 20 havaintoa tai ainakin enemmän
kuin selittäjiä
Selitettävän muuttujan ryhmät miel. suunnilleen samankokoisia
analyysiotos 50-75% ja holdout 25-50%
ositettu otanta jotta ryhmäkoot säilyvät edustavina
9
Estimointi
vaihtoehtona diskriminanttianalyysi, mutta sillä on
tiukemmat taustaedellytykset
Maximum likelihood-menetelmä
muistuttaa tavallista regressiota
Testit
Epälineaarisia ja kategorisia saadaan mukaan
Diagnostiikkaa
Ennustaa tapahtuman todennäköisyyden p ja oddsin eli
vedonlyöntisuhteen Odds = p/(1-p) eli p= odds/(1+odds)
10
Lineaarinen vs. logistinen

Yi  b0  bi xi

pi 
1
1 e
 ( b0  bi xi )
11
Logistinen malli
todennäköisyys

pi 
1
1  e (b0 bi xi )
e(b0 bi xi )
odds


( b0 bi xi )
1  odds
1 e

pi
b0  bi xi
logit
odds 

e

e

1  pi

 pi 
logit ln
   b0  bi xi
 1  pi 
12
Esimerkki: logit= -6+.39x
x
logit
odds
P
0
-6.00
.00
.00
3
-4.83
.01
.01
6
-3.66
.03
.03
10
-2.10
.12
.11
13
-.93
.39
.28
14
-.54
.58
.37
15
-.15
.86
.46
16
.24
1.27
.56
17
.63
1.88
.65
20
1.80
6.05
.86
24
3.36
28.79
.97
30
5.70
298.87
1.00
13
Esimerkki: logit= -6+.39x
8
6
4
2
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
-2
-4
-6
-8
logit -6+.39x
p odds/1+odds
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
14
Estimointi
OLS estimointi ei toimi, koska residuaalien varianssi ei ole vakio
Ei analyyttista ratkaisua, vaan iteratiivinen maximum likelihood-estimointi
15
Parametriestimaatit
tulkinta eroaa OLS-regressiosta:
positiivinen b lisää tapahtuman todennäköisyyttä ja
negatiivinen b vähentää, mutta yhteys on lineaarinen
vain logitin kanssa, ei oddsin eikä todennäköisyyden!!
Selittäjän Odds ratio = exp(b) = a -> kun x kasvaa yhdellä
niin odds a-kertaistuu
Kun x kasvaa kahdella niin odds a2-kertaistuu
”Standardoituja” kertoimia ei saa muuten kuin
standardoimalla selittäjät ennen estimointia
16
Keskivirheet ja merkitsevyys
Kertoimen b luottamusväli
LCL=b - z*SEb UCL=b + z*SEb
Odds ration luottamusväli
eLCL …eUCL
kertoimen b merkitsevyyden testaus
Wald = b2 / SE2b noudattaa khi-toiseen jakaumaa df=1, jos sig.<.05 niin
kerroin on merkitsevä
17
Mallin hyvyys
Ei % y:n vaihtelusta kuten OLS, vaan yhteensopimattomuutta (deviance)
Vertailupohjana perusmalli (base model, null model), jossa selittäjänä vain
vakio
Deviance-mittarina -2log likelihood (–2LL)
-> minimiarvo on nolla ja pienet arvot hyviä
pseudo R2 , selityskertoimet
ei kerro montako % y:n vaihtelusta selittyy x:ien avulla
Yleensä matalampia kuin OLS-mallin R2
Yksinkertaisin versio R2=(Dnull – Dk) / Dnull
Cox&Snell maksimi alle 1
Nagelkerke ”Max-rescaled R Square” aina parempi, koska max=1
18
Mallin merkitsevyys
OLS F-testin asemesta likelihood ratio chi square
Chi square= Dnull – Dk
H0:malli yhtä huono kuin nollamalli; df=k
Jos sig<.05 niin malli on merkitsevä
Vaihtoehtoina Wald tai Hosmer&Lemeshow (jossa H0: malli on yhteensopiva
datan kanssa!)
19
Residuaalit
Pearson ja Deviance- residuaalit
Iso arvo tarkoittaa että ko. havainto sopii huonosti malliin, eli sen
poisjättäminen parantaisi mallin sopivuutta dataan
20
Diagnostiikka
Periaatteessa samoja kuin OLS-regressiossa
Leverage (kuinka erikoinen havainto) tulkittavissa vain havainnoilla, joilla
ennustettu todennäköisyys välillä .10 … .90
DFBETA (paljonko vaikuttaa kertoimiin)
Cook (paljonko vaikuttaa sopivuuteen)
21
Luokittelu
ennustetarkkuus: ovatko havainnot luokiteltu oikeisiin ryhmiinsä
Huom! Joskus hyvästäkin mallista voi tulla huono ennustetarkkuus
luokittelumatriisi
hit ratio: montako % luokiteltiin oikein
22
Luokittelumatriisi
Ennustettu
Oikea
0
0
1
Yht. Osuus oikein
40
20
60
.67 specificity
1
10
40
50
.80 sensitivity
Yht.
50
60
110 80/110
.20
false
neg.
.33
false
pos.
.73 rate of
correct class.
23
Luokittelu
ennustetarkkuus verrattuna sattumaan
yhtäsuuret ryhmät
c=1/ryhmien määrä
erisuuret ryhmät
maximum chance criterion c= suurimman ryhmän suhteellinen osuus
proportional chance criterion c=p2+(1-p)2 jos kaksi ryhmää
hit ratio po. vähintään 1,25 kertaa sattumalta saatavan
suuruinen
24
SAS-esimerkki
Aineistona pankin asiakkaat
Selitettävä muuttuja DEFAULT, luokittelu (1=maksuhäiriö,
0=ei maksuhäiriöitä)
Selittäjinä
Koulutus, aika samassa osoitteessa, aika samassa työpaikassa,
tulot, velat suhteessa tuloihin
Huom! SAS laskee puuttuvan arvon omaksi luokakseen,
joten suodata analyysiin vain ne havainnot, joilla
selitettävä muuttuja saa validin arvon
25
Puuttuvien arvojen suodatus
26
Puuttuvien arvojen suodatus
Selitettävän muuttujan puuttuvat arvot suodatetaan pois datasta
27
SAS: analyze – regression - logistic
Dummykoodaus
Kategoriset
selittäjät tänne
28
Selitettävän tiedot
Tämän luokan todennäköisyyttä mallinnetaan
29
Selittäjät
Valitse kaikki muuttujat ja klikkaa Main
30
Enter vai stepwise
31
Mitä tulostetaan
32
Kuvaajat
33
Mitä tallennetaan
34
SAS- koodi
PROC LOGISTIC DATA=WORK.SORTTempTableSorted
PLOTS(ONLY)=ALL
;
CLASS ed
(PARAM=REF);
MODEL default (Event = '1')=employ address income debtinc ed
SELECTION=NONE
INFLUENCE
LACKFIT
AGGREGATE SCALE=NONE
RSQUARE
CTABLE
PPROB=(0.5)
LINK=LOGIT
CLPARM=BOTH
CLODDS=BOTH
ALPHA=0.05
;
/
OUTPUT OUT=LOGREG.PREDLogRegPredictionsFILTER_FOR_(LABEL="Logistic regression predictions and statistics for
SASUSER.FILTER_FOR_BANKLOAN_SAS7BDAT")
PREDPROBS=INDIVIDUAL
RESCHI=reschi_default
RESDEV=resdev_default
DIFCHISQ=difchisq_default
DIFDEV=difdev_default
UPPER=upper_default
LOWER=lower_default ;
RUN;
QUIT;
Footer
Menetelmän perustiedot
Model Information
Data Set
Response Variable
Number of Response
Levels
Model
Optimization
Technique
WORK.SORTTEMPTABLESORT
ED
default
Previously
defaulted
2
binary logit
Fisher's scoring
Number of Observations Read
333
Number of Observations Used
333
36
Kategoristen muuttujien koodaus
Response Profile
Ordered
Value default
10
21
Class Level Information
Total
Frequency
150
183
Probability modeled is default=1.
Class
ed
Value
1
2
3
4
5
Design Variables
1
0
0
0
0
1
0
0
0
0
1
0
0
0
0
1
0
0
0
0
37
Mallin merkitsevyys ja sopivuus
Model Fit Statistics
Deviance and Pearson Goodness-of-Fit
Statistics
Criterio
n
Value DF Value/DF Pr > ChiSq
1.0674
0.1934
Deviance 345.8366 324
Pearson 323.6928 324
0.9991
0.4944
Criterion
AIC
SC
-2 Log L
Intercept
Only
Intercept
and
Covariates
460.360
363.837
464.169
398.110
458.360
345.837
Tulisi olla lähellä ykköstä ja ei-merkitsevä
Number of unique
profiles: 333
RSquare
Cox-Snell
0.2867
Max-rescaled RSquare
0.3836
Nagelkerke
38
Mallin ja selittäjien merkitsevyys
Type 3 Analysis of Effects
Testing Global Null Hypothesis:
BETA=0
Test
Likelihood
Ratio
Score
Wald
Chi- D Pr > Chi
Square F
Sq
112.5237
94.4558
69.2901
8
8
8
Mallin merkitsevyys, <.05 on
merkitsevä
<.0001
<.0001
<.0001
Effect
employ
Wald
DF Chi-Square Pr > ChiSq
1
30.9639
<.0001
address
1
10.0017
0.0016
income
1
8.9239
0.0028
debtinc
1
43.8928
<.0001
ed
4
1.9037
0.7535
Kunkin selittäjän merkitsevyys, <.05
on merkitsevä
39
Parametriestimaatit ja merkitsevyys
Analysis of Maximum Likelihood Estimates
Parameter
Intercept
employ
address
income
debtinc
ed
ed
ed
ed
1
2
3
4
DF
Estimate
Standard
Error
Wald
Chi-Square
Pr > ChiSq
1
-0.3123
1.5077
0.0429
0.8359
1
-0.1987
0.0357
30.9639
<.0001
1
-0.0727
0.0230
10.0017
0.0016
1
0.0204
0.00684
8.9239
0.0028
1
0.1395
0.0210
43.8928
<.0001
1
-0.0920
1.5031
0.0037
0.9512
1
0.1246
1.5089
0.0068
0.9342
1
-0.1550
1.5305
0.0103
0.9193
1
-0.6275
1.5735
0.1590
0.6900
Mitä kauemmin samassa työpaikassa sitä pienempi maksuhäiriön
todennäköisyys, korkein maksuhäiriön tn koulutustasolla 2 ja matalin tasolla 4
40
(tosin koulutus ei merkitsevä)
Effect
employ
address
income
debtinc
ed 1 vs 5
ed 2 vs 5
ed 3 vs 5
ed 4 vs 5
Odds Ratio Estimates
Point
95% Wald
Estimate Confidence Limits
0.820
0.764
0.879
0.930
0.889
0.973
1.021
1.007
1.034
1.150
1.103
1.198
0.912
0.048
17.358
1.133
0.059
21.800
0.856
0.043
17.199
0.534
0.024
11.663
Kuinka hyvin ennustettu
todennäköisyys ja todellinen
maksuhäiriöluokka korreloivat
keskenään. D,Gamma ja tau välillä
0…1, isot hyviä
Yksi vuosi lisää samassa
työpaikassa pienentää
maksuhäiriön oddsia 0.82kertaiseksi
Association of Predicted Probabilities
and Observed Responses
81.5 Somers'
0.629
Percent
Concordant
D
18.5 Gamma
0.629
Percent
Discordant
0.0 Tau-a
0.312
Percent Tied
Pairs
27450
c
0.815
41
Parametriestimaattien luottamusvälejä
Profile Likelihood Confidence Interval for
Parameters
Paramete
Estimat 95% Confidence Limit
r
e
s
-0.3123
-3.6696
3.0361
Intercept
-0.1987
-0.2720
-0.1320
employ
-0.0727
-0.1189
-0.0284
address
0.0204
0.00858
0.0350
income
0.1395
0.0999
0.1826
debtinc
-0.0920
-3.4347
3.2583
ed
1
0.1246
-3.2278
3.4810
ed
2
-0.1550
-3.5412
3.2278
ed
3
-0.6275
-4.0736
2.8170
ed
4
Profile Likelihood Confidence Interval for Odds
Ratios
Estimat 95% Confidence Limit
Effect
Unit
e
s
1.0000
0.820
0.762
0.876
employ
1.0000
0.930
0.888
0.972
address
1.0000
1.021
1.009
1.036
income
1.0000
1.150
1.105
1.200
debtinc
0.912
0.032
26.005
ed 1 vs 5 1.0000
1.133
0.040
32.491
ed 2 vs 5 1.0000
0.856
0.029
25.224
ed 3 vs 5 1.0000
0.534
0.017
16.726
ed 4 vs 5 1.0000
42
Oddsien luottamusvälit
43
ROC- käyrä:
isompi alue käyrän alapuolella
-> paremmin luokitteleva malli
% of
events
correctly
classified
(% of
defaults
predicted
as default)
% of non-events incorrectly classified (% of non-def predicted as defaults)
44
Luokittelu ja mallin sopiuvuus
Classification Table
Correct
Incorrect
Prob
NonLevel Event Event Event
0.500 140
94
56
Hosmer and Lemeshow
Goodness-of-Fit Test
ChiPr > ChiS
Square DF
q
5.2007
8
0.7359
Percentages
NonSensi- Speci- False False
Event Correct tivity ficity POS NEG
43
70.3
76.5
62.7 28.6 31.4
140/183 94/150 56/196 43/137
Testaa mallin sopivuutta, H0: malli on
yhteensopiva, eli p ei saisi olla <.05
45
Havaintojen listaus I
Regression Diagnostics
Covariates
Years
with
Case
current
Number employer
1 20.0000
2 12.0000
3
4
5
6
7
8
9
10
4.0000
6.0000
9.0000
12.0000
2.0000
3.0000
8.0000
8.0000
Years at Household
current income in
address thousands
9.0000
11.0000
0
9.0000
26.0000
8.0000
1.0000
15.0000
4.0000
1.0000
67.0000
38.0000
23.0000
29.0000
69.0000
58.0000
37.0000
20.0000
27.0000
35.0000
Debt to
income
Level of
Level of
Level of
Level of
ratio education education education education Pearson Deviance
(x100)
1
2
3
4 Residual Residual
30.6000
3.6000
5.2000
16.3000
6.7000
18.4000
14.2000
2.1000
14.4000
2.9000
1.0000
1.0000
1.0000
1.0000
0
0
0
1.0000
1.0000
1.0000
0
0
0
0
1.0000
1.0000
0
0
0
0
0
0
0
0
0
0
1.0000
0
0
0
0
0
0
0
0
0
0
0
0
0
-1.3522
-0.3150
-0.9980
-1.3597
-0.4669
-1.3478
-2.4580
-0.4991
-1.1474
-0.6228
-1.4420
-0.4350
-1.1757
-1.4470
-0.6280
-1.4391
-1.9758
-0.6669
-1.2962
-0.8097
Havaintokohtainen listaus selittäjien arvoista ja residuaaleista. Iso residuaali
tarkoittaa että mallin sopivuus paranisi paljon jos havainto jätettäisiin pois
46
Havaintojen listaus II
Regression Diagnostics
Hat
Matrix
Case Diagona Intercep employ address income debtinc
ed1
ed2
ed3
Number
l
t DfBeta DfBeta DfBeta DfBeta DfBeta DfBeta DfBeta DfBeta
1 0.0491 0.0325 -0.125 0.0429 0.0403 -0.194 -0.004 0.0007 0.0035
2 0.00963 -0.0012 -0.018 -0.010 0.0125 0.0214 -0.002 -0.000 -0.001
3 0.0177 -0.0107 0.016 0.0617 -0.017 0.0486 -0.016 -0.001 -0.003
4
5
6
7
8
9
10
0.0111
0.0367
0.0226
0.0196
0.0213
0.0112
0.0175
Leverage
0.00416
0.00346
0.0160
-0.0094
-0.0041
-0.0008
-0.0056
0.0318
-0.000
-0.056
0.0754
0.0053
-0.023
-0.019
-0.026
-0.074
0.0196
0.1343
-0.048
0.0362
0.0311
0.0017
-0.000
0.0057
-0.016
0.0127
0.0234
-0.000
-0.060
0.0281
-0.079
-0.098
0.0421
-0.027
0.0503
Vaikutus parametriestimaatteihin
-0.012
-0.000
0.0042
0.0008
-0.005
-0.011
-0.009
0.0027
-0.007
-0.026
0.0026
0.0002
0.0001
-0.002
0.003
0.0023
0.0021
-0.066
-0.000
-0.000
-0.003
Confidence
Interval
ed4 Displacemen
DfBeta
tC
-0.008
-0.001
-0.002
0.0051
0.0028
-0.003
0.0021
0.0012
-0.003
-0.004
0.0992
0.000974
0.0183
0.0210
0.00861
0.0430
0.1235
0.00554
0.0151
0.00702
Vaikutus luottamusväleihin
47
Havaintojen listaus III
Regression Diagnostics
Case
Number
1
2
3
4
5
6
7
8
9
10
Confidence
Interval
Displacement
CBar
0.0944
0.000965
0.0180
0.0207
0.00830
0.0420
0.1210
0.00542
0.0149
0.00690
Delta
Deviance
2.1738
0.1902
1.4003
2.1144
0.4027
2.1131
4.0248
0.4502
1.6951
0.6625
Delta ChiSquare
1.9228
0.1002
1.0140
1.8694
0.2263
1.8586
6.1630
0.2545
1.3315
0.3948
Vaikutus luottamusväleihin Vaikutus mallin sopivuuteen
48
Diagnostiikkaa
49
Diagnostiikkaa
50
Havaintojen vaikutus estimaatteihin
51
Havaintojen vaikutus estimaatteihin
52
Vaikuttavuus ja ennustettu arvo
53
Leverage
54
Diagnostiikkaa
55
Selittäjä vs. ennustettu p
56
Havaintojen listaus
emplo addres incom debtin creddeb othdeb defaul
age ed
y
s
e
c
t
t
t Filter_ _FROM _INTO IP_0
39 1
20
9
67
30.6 3.8339 16.668
0
10
1
0.3535
43 1
12
11
38
3.6
0.1286 1.2394
0
10
0
0.9097
25 1
4
0
23
5.2
0.2524 0.9436
0
10
0
0.5009
37 1
6
9
29
16.3
1.7159 3.0111
0
10
1
0.3510
45 2
9
26
69
6.7
0.7073 3.9157
0
10
0
0.8210
33 2
12
8
58
18.4
3.0842 7.5878
0
10
1
0.3550
26 3
2
1
37
14.2
0.2049 5.0491
0
10
1
0.1420
45 1
3
15
20
2.1
0.1050 0.3150
0
10
0
0.8006
25 1
8
4
27
14.4
1.0187 2.8693
0
10
1
0.4316
25 1
8
1
35
2.9
0.0771 0.9379
0
10
0
0.7205
26 2
6
7
45
26.0
6.0489 5.6511
0
10
1
0.0656
30 2
10
4
22
16.1
1.4097 2.1323
0
10
1
0.4429
Oikea luokka Ennustettu luokka Tn että ei default
57
Havaintojen listaus
_LEVEL lower_defa upper_defa reschi_defa resdev_defa difdev_defa difchisq_defa
IP_1
_
ult
ult
ult
ult
ult
ult
0.6464
1
0.42441
0.81930
-1.35220
-1.44203
2.17381
1.9228
0.0902
1
0.04827
0.16258
-0.31501
-0.43500
0.19019
0.1002
0.4990
1
0.37155
0.62659
-0.99801
-1.17572
1.40027
1.0140
0.6489
1
0.54539
0.74018
-1.35967
-1.44697
2.11445
1.8694
0.1789
1
0.07570
0.36718
-0.46689
-0.62801
0.40269
0.2263
0.6449
1
0.49533
0.77076
-1.34782
-1.43913
2.11307
1.8586
0.8579
1
0.73338
0.92993
-2.45804
-1.97580
4.02479
6.1630
0.1994
1
0.10850
0.33760
-0.49906
-0.66692
0.45020
0.2545
0.5683
1
0.46405
0.66688
-1.14742
-1.29622
1.69511
1.3315
0.2794
1
0.17881
0.40862
-0.62280
-0.80967
0.66246
0.3948
0.9343
1
0.86329
0.96980
-3.77364
-2.33407
5.59978
14.3923
0.5570
1
0.38667
0.71498
-1.12142
-1.27616
1.66831
1.2973
Tn että default Luott.väli enn. tn:lle Residuaalit
Vaikutus sopivuuteen
58
RAPORTOINTI
Selitettävän muuttujan luonne ja linkkifunktio
(binary, ordinal, multinomial)
Mihin ryhmään kuulumista mallinnettiin,
vertailuryhmä
Mallin sopivuus: Chi-Square+p, HosmerLemeshow+p, pseudo R2, hit ratiot %(total,
sensitivity, specificity)
Estimaatit, keskivirheet, Wald ja merkitsevyys
Maininta residuaali- ja vaikuttavuustarkasteluista
59
RAPORTOINTI, binary
P(international)
B
Novice entrepreneurs
P(not BG|international)
S.E.
Exp(B)
B
S.E.
Exp(B)
1.300
.820
3.670
.470
.781
1.600
No int. work exp.
-3.784***
1.228
.023
19.593
28420.721
3.2E08
No int. education
.875
.771
2.400
1.743*
.932
5.714
Novice entr.& no int. work exp.
1.231
1.544
3.424
-39.410
33627.851
.000
Novice entr. & no int. educ.
-.932
1.223
.394
19.123
17974.842
2.0E08
.511
.422
1.667
-.134
.518
.875
Constant
Model fit
Correct classification rate
Chi square 29.0 (df=5), p.00
Nagelkerke R Square .378
Chi square 10.6 (df=5), p.06
Nagelkerke R Square .264
international 88.2%, domestic 59.5% , overall 76.1%
BG 50%, other int. 80%, overall 70.6%
60
LINEAARISET MALLIT
(VARIANSSIANALYYSIT)
Oneway ANOVA,
GLM Univariate (n-way ANOVA,
ANCOVA)
61
PERUSASIAT
Selitettävä muuttuja on jatkuva
Selittävät muuttujat ovat kategorisia (factor, CLASS) tai
jatkuvia (covariate)
Onko selitettävän muuttujan keskiarvoissa eroa selittävän
muuttujan ryhmien välillä
Selittävien muuttujien interaktioita voidaan myös mallintaa
Sopii hypoteesien testaamiseen, erityisesti käytetty
kokeellisissa tutkimuksissa
62
PERUSASIAT
Factor A (toimiala)
Level 1 (teollisuus)
Factor B (koko)
Level 1 (pieni)
Factor A (toimiala)
Level 2 (kauppa)
Cell
Factor B (koko)
Level 2 (keskisuuri)
Factor B (koko)
Level 3 (suuri)
3 X 2 full factorial design (full: kaikissa soluissa on havaintoja)
Balanced design: kaikissa soluissa yhtä paljon havaintoja
63
EDELLYTYKSIÄ
Onko kussakin ryhmässä tarpeeksi havaintoja? (miel. >20)
Havaintojen riippumattomuus
Varianssi-kovarianssimatriisien samanlaisuus (ei haittaa jos
suurin ryhmä < 1.5*pienin ryhmä, 4* jos yhtäsuuret
ryhmät)
Normaalisuus
Lineaarisuus
Ei outlier-havaintoja
64
VARIANSSIANALYYSIN
TULKINTA
Onko malli merkitsevä?
F-testi ja R square
Welch, jos varianssit erisuuret (testataan Levenen tai Brown-Forsythen
testillä)
Minkä selittäjämuuttujien vaikutukset ovat merkitseviä? (F-testit ja partial eta
squared)
Mitkä ryhmät eroavat? Post hoc tai kontrastit
Miten ryhmät eroavat? Estimoidut ryhmäkeskiarvot
65
Oneway ANOVA
Yksi selitettävä jatkuva muuttuja (y) ja yksi selittävä
muuttuja (x), jossa min. 3 luokkaa, luokkien määrä k
Edellytyksiä: selitettävä (y) normaalijakautunut ja sen
varianssit eri luokissa samat
H0: y:n keskiarvot samat kaikissa x:n luokissa
Vaihtelu jaetaan kahteen komponenttiin: within groups
(error) ja between groups (model, treatment) -> ks. TAP
prujusta kaavat
Testisuure on between / within ja noudattaa F-jakaumaa
vapausastein k-1, n-k
Jos varianssit erisuuret, niin F-testin asemesta Welch
Jos F-testi on merkitsevä, niin post hoc-testeillä katsotaan
mitkä ryhmäparit poikkeavat toisistaan
66
Multiway ANOVA, GLM
Yksi jatkuva selitettävä, kaksi tai useampia luokiteltuja
selittäjiä (factorial design)
ANCOVA, jos jonkin jatkuvan selittäjän vaikutus halutaan
eliminoida
Päävaikutukset tai suorat vaikutukset (main effect) ja
yhdysvaikutukset eli interaktiot
fixed factor, jos kaikki mahdolliset ryhmät ovat mukana ja
random factor, jos otoksessa edustettuna satunnaisesti
havaintoja joistakin mahdollisista ryhmistä
67
ANCOVA
Mallissa mukana kovariaatti (= jatkuva selittäjä, jonka
vaikutus halutaan eliminoida, esim. työkokemuksen
vaikutus eliminoidaan sukupuolen ja palkan välisestä
yhteydestä)
Regressio kovariaatin ja selitettävän välille -> residuaalille
ANOVA
Kovariaatin ja selitettävän välillä oltava lineaarinen yhteys,
joka on samanlainen kaikissa faktorimuuttujan ryhmissä
kovariaatin ja faktoreiden välillä ei yhteyttä
Kovariaatteja saa olla enintään 0.1*n – (k-1)
68
Interaktiot
Kahden faktorin yhteisvaikutus, eron suuruus yhden faktorin ryhmien välillä
riippuu toisen faktorin arvosta
Crossing effect = interaction effect
Ordinal (keskiarvokuviossa viivat erisuuntaiset, mutta eivät leikkaa)
Disordinal (keskiarvokuviossa viivat leikkaavat toisensa)
69
Ei interaktiota
kannattavuuden keskiarvot
40
30
teollisuus
20
kauppa
10
0
pieni
keskisuuri
suuri
Sekä koolla että toimialalla merkitsevä suora vaikutus
Ei interaktiota, homogeneity of slopes
70
Interaktiot
kannattavuuden keskiarvot
50
Ordinaalinen interaktio (koon
vaikutus teollisuudessa
voimakkaampi kuin
kaupassa)
Dis-ordinaalinen interaktio
(koon vaikutus teollisuudessa
eri suuntainen kuin
kaupassa)
40
30
teollisuus
20
kauppa
10
0
pieni
keskisuuri
suuri
kannattavuuden keskiarvo
50
40
30
teollisuus
20
kauppa
10
0
pieni
keskisuuri
suuri
71
Sisäkkäiset vaikutukset
Nested effect B(A) ”B nested within A”
Koko (toimiala): koon vaikutus erikseen kullakin toimialalla
Eroaa interaktiosta vain siinä että B:n (koko) suora vaikutus ei ole mallissa
mukana
B:n (koko) kulmakerroin vaihtelee A:n (toimiala) luokissa
72
Estimoidut ryhmäkeskiarvot
Estimated marginal means tai LS (least squares) means
Mallin tuottamat ennustetut ryhmäkeskiarvot, kun muiden selittäjien vaikutus on
otettu huomioon
Eri kuin otoksesta laskettu tavallinen ryhmäkeskiarvo, jos selittäjillä on yhteyttä
keskenään
73
Neliösummat
Tyyppi I ei kontrolloi mallissa myöhemmin tulevien selittäjien vaikutuksia
Tyyppi II kontrolloi kaikkien muiden selittäjien vaikutukset
Tyyppi III ja IV parhaat jos soluissa eri määrät havaintoja, IV jos on tyhjiä soluja
74
Post hoc-testit
Multiple comparison procedures, mean separation tests
Ajatuksena on välttää I tyypin virhettä joka johtuu siitä kun
tehdään monta yksittäistä parivertailua, joissa jokaisessa
on 5% riskitaso niin hylkäämisvirheitä tulee
Esim. Bonferroni, Scheffe, Sidak,…
Tukey-Kramer muita voimakkaampi
H0: ryhmäkeskiarvot samat -> jos hylätään niin ovat eri
mutta jos jää voimaan niin ei välttämättä ole samat (voi
johtua vaikka otoksen pienuudesta ettei päästä
hylkäämään)
75
SAS: analyze – ANOVA – linear models
Estimoitavat vaikutukset
Interaktiovaikutus tästä, valitse ensin molemmat
muuttujat, sitten Cross
Neliösummat
Muita optioita, tarpeeton
Post hoc-testit
Kuvaajat
SAS - koodi
PROC GLM DATA=kirjasto.datatiedosto
PLOTS(ONLY)=DIAGNOSTICS(UNPACK)
PLOTS(ONLY)=RESIDUALS
PLOTS(ONLY)=INTPLOT
;
CLASS Elinkaari Perheyr;
MODEL growthorient= ln_hlo Elinkaari Perheyr Elinkaari*Perheyr
/
SS3
SOLUTION
SINGULAR=1E-07
;
LSMEANS Elinkaari Perheyr Elinkaari*Perheyr / PDIFF ADJUST=BON ;
RUN;
QUIT;
Mallin merkitsevyys ja sopivuus
Class Level Information
Class
Levels Values
Elinkaari
3 234
Perheyr
2 01
Sum of
Squares
13.03085542
75.69810081
88.72895623
Source
Model
Error
Corrected Total
DF
6
125
131
R-Square
0.146861
Coeff Var
21.79382
Root MSE
0.778193
Number of Observations Read
Number of Observations Used
Mean Square
2.17180924
0.60558481
F Value Pr > F
3.59 0.0026
growthorient Mean
3.570707
181
132
Selittäjien merkitsevyydet
Source
DF Type III SS Mean Square F Value Pr > F
ln_hlo
1 2.88693851
2.88693851
4.77 0.0309
Elinkaari
2 9.52176337
4.76088169
7.86 0.0006
Perheyr
1 0.28960870
0.28960870
0.48 0.4905
Elinkaari*Perheyr
2 1.99071120
0.99535560
1.64 0.1974
Parametriestimaatit
Parameter
Intercept
ln_hlo
Elinkaari
2
Elinkaari
3
Elinkaari
4
Perheyr
0
Perheyr
1
Elinkaari*Perheyr 2 0
Elinkaari*Perheyr 2 1
Elinkaari*Perheyr 3 0
Elinkaari*Perheyr 3 1
Elinkaari*Perheyr 4 0
Elinkaari*Perheyr 4 1
Estimate
3.196306815
0.161079578
0.372704251
-0.041166136
0.000000000
-0.862973482
0.000000000
1.250588328
0.000000000
0.654885600
0.000000000
0.000000000
0.000000000
B
B
B
B
B
B
B
B
B
B
B
B
Standard
Error
0.49826714
0.07377500
0.49030119
0.46224369
.
0.92404272
.
0.98491805
.
0.94241380
.
.
.
t Value
6.41
2.18
0.76
-0.09
.
-0.93
.
1.27
.
0.69
.
.
.
Pr > |t|
<.0001
0.0309
0.4486
0.9292
.
0.3522
.
0.2065
.
0.4884
.
.
.
Yhtälöt kullekin 6 solulle, esim.
Elinkaari=2 ja perheyr=0
Growth = 3.20 + 0.16*ln_hlo + 0.37 – 0.86 + 1.25
= 3.96 + 0.16*ln_hlo
Elinkaari=3 ja perheyr=0
Growth = 3.20 + 0.16*ln_hlo – 0.04 – 0.86 + 0.65
= 2.95 + 0.16*ln_hlo
Elinkaari=4 ja perheyr=0
Growth = 3.20 + 0.16*ln_hlo + 0.00 – 0.86 + 0.00
= 2.34 + 0.16*ln_hlo
Elinkaari=2 ja perheyr=1
Growth = 3.20 + 0.16*ln_hlo + 0.37 + 0.00 + 0.00
= 3.57 + 0.16*ln_hlo
Elinkaari=3 ja perheyr=1
Growth = 3.20 + 0.16*ln_hlo - 0.04 + 0.00 + 0.00
= 3.16 + 0.16*ln_hlo
Elinkaari=4 ja perheyr=1
Growth = 3.20 + 0.16*ln_hlo + 0.00 + 0.00 + 0.00
= 3.20 + 0.16*ln_hlo
86
Parametriestimaatit
The X'X matrix has been found to be singular, and a generalized inverse
was used to solve the normal equations. Terms whose estimates are
followed by the letter 'B' are not uniquely estimable.
Tämä huomautus tulee aina kun mallissa on kategorisia selittäjiä,
SAS pystyy kuitenkin estimoimaan kertoimet
87
Homoskedastisuus
Havaintodiagnostiikkaa
Residuaalien jakaumat
Mallin sopivuus
Havaintojen vaikuttavuus
Residuaalin riippumattomuus
Ryhmäerojen merkitsevyys,
suorat vaikutukset
Elinkaari
2
3
4
Perheyr
0
1
growthorient LSMEAN
LSMEAN
Number
4.14643211
1
3.43471035
2
3.14843369
3
Least Squares Means for effect Elinkaari
Pr > |t| for H0: LSMean(i)=LSMean(j)
i/j
1
2
3
Dependent Variable: growthorient
1
2
3
0.0006
0.1225
0.0006
1.0000
0.1225
1.0000
H0:LSMean1=LSMean
growthorient
2
LSMEAN
Pr > |t|
3.46261763
0.4905
3.69043314
Ryhmäerojen merkitsevyys,
interaktiot
growthorient LSMEAN
Elinkaari Perheyr
LSMEAN Number
2
0
4.34023953
1
2
1
3.95262468
2
3
0
3.33066641
3
3
1
3.53875430
4
4
0
2.71694695
5
4
1
3.57992043
6
Kasvuvaiheen ei-perheyritykset
eroavat vakiintuneen vaiheen eiperheyrityksistä
Least Squares Means for effect Elinkaari*Perheyr
Pr > |t| for H0: LSMean(i)=LSMean(j)
i/j
1
2
3
4
5
6
Dependent Variable: growthorient
1
2
3
4
5
1.0000 0.0161 0.1052 0.8474
1.0000
0.1040 0.8177 1.0000
0.0161 0.1040
1.0000 1.0000
0.1052 0.8177 1.0000
1.0000
0.8474 1.0000 1.0000 1.0000
1.0000 1.0000 1.0000 1.0000 1.0000
6
1.0000
1.0000
1.0000
1.0000
1.0000
RAPORTOINTI
koko mallin merkitsevyys: F-testi ja selityskerroin
suorien ja interaktiovaikutusten luonne ja
merkitsevyys: parametriestimaatit B
estimoidut ryhmäkeskiarvot
post hoc testitulokset tai kontrastitestien tulokset
96
Estimoidut ryhmäkeskiarvot
5
4.5
kasvuhakuisuus
4
3.5
perheyr
3
ei-perheyr
2.5
2
1.5
1
kasvuvaihe
vakiintunut
Henkilöstömäärä oletettu keskiarvoksi (20)
loppumassa

similar documents