Statistik 1 – Lektion 3

Report
Statistik 1 – Lektion 3
By, energi & miljø, forår 2010
v. Morten Skou Nicolaisen
Sidste kursusgang
o Stikprøver.
o Vægtning.
o Konfidensintervaller.
o Spredningsdiagrammer.
o Korrelation.
o Signifikans.
o Ekstreme værdier.
Denne kursusgang
o Mindste kvadraters metode.
o Spredningsdiagrammer.
o Lineær regression.
o Outliers.
o Regressionskoefficienter.
o Signifikans.
o Transformation for at opnå linearitet.
Mindste kvadraters metode
o Metode til at finde den linje, hvor forskellen
mellem forventede og observerede værdier er så
lille som mulig (dvs. hvor fejlleddet er mindst).
o Anvender residualernes
(fejlleddenes) kvadrater (deraf
navnet), bl.a. for at undgå, at fejlled
med forskellige fortegn udligner
hinanden.
Mindste kvadraters metode
Forventet værdi (model):
ŷi=axi+b
Observation:
yi=axi+b+ei
Vi ønsker altså at
minimere summen af de
kvadrede fejl.
Fejl vs. afvigelse
Lineær regressionslinie
Forudsætninger til lineær regression
o Sammenhængen er lineær.
o Homoskedasticitet.
o Fejlled skal være indbyrdes ukorrolerede.
o Uafhængig variabel ukorroleret med
fejlleddet.
o Fejlleddet skal være normalfordelt.
o Lineær regression er dog ret robust overfor
variable, hvor ikke alle forudsætninger er
overholdt.
Determinationskoefficient
o Determinationskoefficienten (R2) angiver graden af
forklaring som modellen giver for sammenhængen
mellem den afhængige og uafhængige variabel.
o Ved bivariat lineær regression vil den være det samme
som den kvadrerede korrelationskoefficient (angivet
ved Pearsons r), så der gælder at R2=r2.
o Determinationskoefficienten kan derfor kun antage
værdier mellem 0 og 1, og kan betragtes som en
procentvis angivelse af modellens forklaringsevne.
Tolkning af regressionsresultater
o Interessante variable:
•
•
•
•
R: multipel korrelationskoefficient.
R2: Determinationskoefficient (inkl. tilpasset).
B: Regressionskoefficient (inkl. Beta).
Sig: Signifikans.
Model Summary
Model
1
R
,753a
R Square
,567
Adjusted
R Square
,563
Std. Error of
the Estimate
3725,97266
a. Predictors: (Constant), boligareal
Coefficientsa
Model
1
(Constant)
boligareal
Unstandardized
Coefficients
B
Std. Error
955,203
727,709
78,002
5,915
a. Dependent Variable: boligenergi
Standardized
Coefficients
Beta
,753
t
1,313
13,188
Sig.
,192
,000
Tolkning af regressionsresultater
Konstantleddet
Coefficientsa
Model
1
Unstandardized
Coefficients
B
Std. Error
33,630
19,518
18,974
1,324
(Constant)
skoleaar
Standardized
Coefficients
Beta
t
1,723
14,334
,329
Sig.
,085
,000
a. Dependent Variable: persind2
200
Gjennomsnittlig kroppshøyde for 20-årige menn
184
182
180
178
176
174
172
170
188 0
Årstall
190 0
180
160
140
120
100
80
60
40
20
0
192 0
194 0
196 0
198 0
200 0
202 0
100 0
120 0
140 0
160 0
180 0
200 0
Årstall
Undgå generelt at ekstrapolere til x-værdier, der ligger udenfor datasættet.
220 0
Hvornår bruges hvad
Hvornår bruges hvad
Dikotom (med kun
2 værdier)
 Binær logistisk
regression
Uafhængig
variabel
Afhængig variabel
Med flere end 2 værdier
NominalOrdinalInterval- og
niveau
niveau
forholdstalsniveau
 Multinominal logistisk
 Lineær
regression
regression
Dikotom
(med kun 2 værdier)
Nominalnive  Binær logistisk  Multinominal logistisk
au
regression med
regression
dummy-variabler
 Lineær
regression med
dummyvariabler
 Lineær
regression med
dummyvariabler
 Lineær
regression
Med
Ordinalnivea  Binær logistisk  Multinominal logistisk
flere end u
regression med
regression
2
dummy-variabler
værdier
Interval- og  Binær logistisk  Multinominal logistisk
forholdstalsregression
regression
niveau
Oversigt over muligheder til at benytte regressionsanalyse ved forskellige måleniveauer
på den uafhængige og den afhængige variabel.
Eksempel 1
o Datafilen ”Hovedstadsomraadet …” benyttes.
o Vi vil først lave et spredningsdiagram, der viser hvordan
den årlige personlige indtægt (persind2) varierer i
forhold til hvor mange uddannelsesår respondenterne
har gennemført (skoleaar).
o Vi vil derefter ved hjælp af SPSS indtegne
regressionslinien for denne sammenhæng i
spredningsdiagrammet, og bearbejde diagrammets
tekstfelter og layout, så det bagefter kan præsenteres i
en rapport.
o Til sidst vil vi lave en lineær regressionsanalyse af
sammenhængen mellem uddannelsens længde og
indtægten.
Outliers
Opgave 1
o Datafilen ”Hovedstadsomraadet …” benyttes.
o Respondenter med ekstreme rejselængder med bil skal udelades fra
analysen. Brug f. eks. descriptive/explore og undermenuen
statistics/percentiles til at identificere respondenter med rejselængder,
som er mere end tre kvartildifferencer over den øverste kvartil, og benyt
select cases til at fravælge disse respondenter.
o Lav et spredningsdiagram, der viser hvordan respondenternes rejselængde
med bil i løbet af undersøgelsesugens fem hverdage, målt i km (bilhverd)
varierer med boligens afstand fra Københavns centrum, målt i km
(centafs). Brug SPSS til at indtegne regressionslinien for denne
sammenhæng i spredningsdiagrammet, og bearbejd diagrammets
tekstfelter og layout, så det bagefter kan præsenteres i en rapport.
o Lav en lineær regressionsanalyse af denne sammenhæng. Hvor meget
stiger den gennemsnitlige rejselængde med bil, når boligens afstand fra
Københavns centrum forøges med 1 km?
o Hvor godt vil i sige, at den retlinjede regressionslinie passer til det
observerede mønster af rejselængder og boliglokaliseringer?
Lavt signifikans- eller forklaringsniveau
o Mulige forklaringer på lav signifikans el. R2:
•
•
•
•
•
•
Ingen sammenhæng mellem variable
Komplekse fænomener med mange variable
For få observationer
For lille variation
Specifikationsfejl i modellen.
Type 2 fejl: falsk negativ (excessive skepticism).
o Indenfor psykologi og samfundsvidenskab
(planlægning) er forholdsvis lave R2 værdier ikke
unormale, da enkelte faktorer normalt vil have en
begrænset forklaringseffekt på folks
handlemønstre.
Eksempel 2
o Alder og indtægt sammenlignes.
o Ser ikke ud til at være lineær.
o Betyder resultatet, at der ikke er nogen
sammenhæng mellem variablene?
Coefficientsa
Model
1
(Constant)
alder
Unstandardized
Coefficients
B
Std. Error
301,211
17,514
,001
,348
a. Dependent Variable: persind2
Standardized
Coefficients
Beta
,000
t
17,198
,002
Sig.
,000
,999
Eksempel 2 (fortsat)
o En kurve passer bedre.
o Nedenfor er analysen lavet med en ny
variabel, der afhænger af hvor tæt
respondentens alder er på 50 år: alder3 =
(2500-(50-alder)2).
Coefficientsa
Model
1
(Constant)
alder3
Unstandardized
Coefficients
B
Std. Error
-255,787
42,194
,247
,019
a. Dependent Variable: persind2
Standardized
Coefficients
Beta
,302
t
-6,062
13,300
Sig.
,000
,000
Opgave 2
o Datafilen ”Hovedstadsomraadet …” benyttes.
o Vi så i den forrige opgave, at sammenhængen mellem rejselængder
og boliglokaliseringer snarere synes at være kurveformet end
lineær.
o Så længe boligens afstand fra Københavns centrum er forholdsvis
moderat, stiger rejselængden med bil ret markant, jo længere væk
fra centrum man bor. Men blandt dem, der bor langt væk fra
centrum, ser en yderligere forøgelse af centrumsafstanden ikke ud
til at hænge sammen med forøget rejselængde med bil – snarere
tvært imod.
o Lav separate regressionsanalyser for de respondenter, der bor indtil
30 km fra Københavns centrum, og dem, der bor mere perifert.
Respondenter med ekstreme rejselængder skal fortsat holdes uden
for analysen. Hvad fortæller disse resultater?
Transformation for at opnå linearitet
o Transformation ved logaritmiske funktioner tillægger
generelt værdier i en ende af skalaen mere vægt end i den
anden ende.
o Dette kunne evt. være en mulig justering i forrige opgave,
da indflydelsen ikke synes at være så stor for respondenter,
der bor langt væk fra centrum.
2,5
Gj.sn. bebyggelsesprosent i lokalområdet
2,0
1,5
1,0
,5
2,0
1,5
1,0
,5
0,0
0,0
Rsq = 0,5442
0
Gj.sn. bebyggelsesprosent i lokalområdet
2,5
2,5
10
20
,2
2,0
1,5
1,0
,5
Rsq = 0,7413
,6
,4
1
,8
4
2
8
6
20
0,0
Rsq = 0,7413
-1,0
-,5
0,0
,5
1,0
10
Logaritmen til av standen i km til sentrum
Av stand f ra Oslo sentrum (km)
Av stand f ra Oslo sentrum (km)
1,5
Eksempel 3
o For at tage højde for, at sammenhængen mellem boligens centrumsafstand og
rejselængden med bil ikke er lineær, vil vi transformere rejselængderne ved hjælp
af en ikke-lineær funktion.
o Vi prøver først at lave en ny variabel med 10-tals logaritmen af rejselængden med
bil på hverdage. Benyt transform/compute variable til dette. Vi kalder den nye
variabel lgbilrejs.
o Vi laver nu et nyt spredningsdiagram med lgbilrejs langs den vertikale akse og
centafs langs den horisontale akse, og bruger SPSS til at indtegne
regressionslinien. Respondenter med ekstreme rejselængder skal fortsat være
udeladt. Vi udfører også en ny regressionsanalyse med lgbilrejs som den
afhængige variabel og centafs som den uafhængige variabel. Er der ændringer i
modellens forklaringskraft (R2) og i den standardiserede regressionskoefficient?
o Vi undersøger hvad der sker, hvis vi i stedet transformerer den uafhængige variabel
(boligens afstand fra centrum). Vi laver en ny variabel lgcentafs, som er den
briggske logaritme til centafs, og udfører tilsvarende analyser som i forrige
eksempel, men med ordinært målte rejselængder.
Opgave 3
o I studiet i Hovedstadsområdet blev også respondenternes samlede
rejselængde med alle typer af transportmidler i løbet af ugens hverdage
undersøgt. Denne variabel blev benævnt hverdtot.
o Brug desciptive/explore til at identificere respondenter med ekstremt
lange samlede rejselængder i løbet af hverdagene, og fravælg disse
respondenter.
o Lav et spredningsdiagram for sammenhængen mellem centafs og
hverdtot, og derefter et tilsvarende diagram for sammenhængen mellem
lgcentafs og hverdtot. Brug i begge tilfælde SPSS til at indtegne
regressionslinien.
o Udfør regressionsanalyser af sammenhængene mellem centafs og
hverdtot, og mellem lgcentafs og hverdtot. Er R2-koefficienten og den
standardiserede regressionskoefficient blevet forhøjet, sammenlignet med
analyserne baseret på ordinært målte centrumsafstande?
o Hvad kan evt. forskelle forklares ved?
Eksempel 4
o Baseret på teoretiske overvejelser såvel som foreløbige analyser af det
empiriske datamateriale, fandt forskerne, at sammenhængen mellem
boligens afstand fra Københavns centrum og rejselængderne bedst kunne
beskrives, hvis centrumsafstanden transformeredes ved hjælp af en
funktion sammensat af en hyperbolsk tangensfunktion og en kvadratisk
funktion. Lav en sådan ny, transformeret centrumsafstandvariabel,
afstfun2, baseret på den følgende funktion: afstfun2 = (Exp(centafs*0.18 –
2.85) - Exp( -(centafs*0.18 – 2.85))) / (Exp(centafs*0.18 – 2.85) + Exp( (centafs*0.18 – 2.85))) – (0.00068*( centafs – 42)*(centafs – 42) – 2.8).
o Lav et spredningsdiagram for sammenhængen mellem afstfun2 og
hverdtot, og brug SPSS til at indtegne regressionslinien. Respondenter
med ekstreme rejselængder skal fortsat være udeladt.
o Udfør en regressionsanalyse af sammenhængen mellem afstfun2 og
hverdtot. Er R2-koefficienten og den standardiserede
regressionskoefficient blevet forhøjet, sammenlignet med analyserne
baseret på ordinært målte og logaritmisk målte centrumsafstande?
Multipel lineær regressionsanalyse
Model: y=a1x1+a2x2+…+anxn+b
Indtægt
Alder
Uddannelse
Multipel lineær regressionsanalyse
Coefficientsa
Model
1
(Constant)
alder3
Unstandardized
Coefficients
B
Std. Error
-255,787
42,194
,247
,019
Standardized
Coefficients
Beta
,302
t
-6,062
13,300
Sig.
,000
,000
t
1,723
14,334
Sig.
,085
,000
a. Dependent Variable: persind2
Coefficientsa
Model
1
(Constant)
skoleaar
Unstandardized
Coefficients
B
Std. Error
33,630
19,518
18,974
1,324
Standardized
Coefficients
Beta
,329
a. Dependent Variable: persind2
Coefficientsa
Model
1
(Constant)
alder3
skoleaar
Unstandardized
Coefficients
B
Std. Error
-474,678
44,266
,231
,018
17,993
1,269
a. Dependent Variable: persind2
Standardized
Coefficients
Beta
,278
,312
t
-10,723
12,622
14,180
Sig.
,000
,000
,000
Multipel lineær regressionsanalyse
Model Summary
Med flere variable
stiger R2 som regel,
men ikke nødvendigvis
den tilpassede R2.
Model
1
R
,302a
R Square
,091
Adjusted
R Square
,090
Std. Error of
the Estimate
215,40723
a. Predictors: (Constant), alder3
Model Summary
Hvis antallet af
variable er ligeså
stort som antallet af
observationer, så vil
R2 altid være lige
med 1, og man bør
derfor se på den
tilpassede R2 ved
mange observationer.
Model
1
R
,329a
R Square
,109
Adjusted
R Square
,108
Std. Error of
the Estimate
211,88025
a. Predictors: (Constant), skoleaar
Model Summary
Model
1
R
a
,432
R Square
,187
Adjusted
R Square
,186
a. Predictors: (Constant), skoleaar, alder3
Std. Error of
the Estimate
202,42646
Opgave 4
o Udfør en multipel regressionsanalyse af følgende uafhængige variablers
effekter på den samlede rejselængde i løbet af ugens hverdage (hverdtot):
o
o
o
o
o
o
Boligens ikke-lineært målte beliggenhed i forhold til Københavns centrum (aftstfun2).
Uddannelseslængde (skoleaar).
Personlig årsindtægt (persind2).
Hvorvidt respondenten er erhvervsaktiv (erhvakt).
Hvorvidt tjenesterejser indgår som en del af den rapporterede rejselængde (erhvrejs).
Alder, målt som den transformerede variabel, der angiver hvor tæt på 50 år
respondenten er (alder3) .
o Respondenter med ekstreme rejselængder skal udelades fra analysen.
o Hvilke variable har de stærkeste sammenhænge med rejselængden i løbet
af ugens hverdage?
o Udfør samme analyse igen, men denne gang på hhv. mænd og kvinder.
o Hvilke kønsspecifikke forskelle kan vi se ud fra resultaterne?
Modelsøgning
o Enter:
• Manuel modelsøgning. Giver god kontrol over modellen,
men kræver indsigt og overblik. Tager også længere tid.
o Forward:
• Starter med en tom model og inkluderer herefter variable
baseret på deres partielle korrelationer.
o Backward:
• Starter med en mættet model og ekskluderer herefter
variable baseret på deres signifikansniveau.
o Stepwise:
• Som forward, men undersøger løbende om der er ikkesignifikante variable i modellen og ekskluderer dem.

similar documents