Multivariata Metoder en översikt

Report
Multivariata Metoder
en översikt
Klara Westling – IVL Svenska Miljöinstitutet AB
Multivariata metoder
 Multivariat dataanalys omfattar i allmänhet samtidig
analys av flera variabler än bara några få. Grundtanken
är att ju fler variabler vi har med desto bättre kan vi
beskriva den situation vi vill studera.
 Världen är multivariat!
 Utmaningen är att hantera de korrelationer och
samspelseffekter som ofta finns mellan variablerna.
Vi har två metodgrupper
– Beskrivande analys (BA)
– Relationsanalys (RA)
Multivariata Metoder
Klara Westling, 2012-04-24
Beskrivande analys (BA)
 Översikt, sortering och klassificering
– Beskrivande analys syftar till att visa strukturen i våra data, både
inom observationerna och variablerna, men också dem emellan (bara
x-variabler)
– Utan kända klasser
–
–
–
–
Principalkomponentanalys (PCA)
Korrespondensanalys (CA) + kanonisk CA
Faktoranalys (FA)
Klusteranalys (KA)
– Med kända klasser
– KNN – K närmaste grannar
– SIMCA (anv. PCA)
– PLS-DA
Multivariata Metoder
Klara Westling, 2012-04-24
Principalkomponentanalys (PCA)
 Arbetshästen vid multivariat dataanalys
 Finner dominanta korrelationsstrukturer i data
 Separerar struktur från brus
 Avvikare syns lätt
 Klarar bortfall i data (dock inte alla algoritmer)
 Lämplig för översikt, sortering och klassificering
 Vid förekomstdata av djur och växter kan dock CA vara
att föredra
Multivariata Metoder
Klara Westling, 2012-04-24
PCA – kortfattad beskrivning
•
•
•
•
Kort exempel med olika källors påverkan på PM10 i luften
x-variabler: Dubbdäck, vedeldning, avgaser (NO2) (eg. 6 st)
y-variabel: PM10 i luften
6 modeller (2 månader/modell), varierar över året
PM10 predikteras baserat på x-variabler och modeller
Use of
studded tyres
Use of
studded tyres
PM10
content
PM10 content
NO2
NO2
ST
Wood fuel
burning
Wood fuel
burning
NO2
Multivariata Metoder
Klara Westling, 2012-04-24
WFB
Exempel – PCA - Arbetslöshet
Data: Arbetslöshet i % inom olika sektorer för länder i
Europa (3 grupper: EEC, ickeEECväst, ickeEECöst)
.
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
TC
Group
1 Belgium
3.3
0.9
27.6
0.9
8.2
19.1
6.2
26.6
7.2
1
2 Denmark
9.2
0.1
21.8
0.6
8.3
14.6
6.5
32.2
7.1
1
10.8
0.8
27.5
0.9
8.9
16.8
6.0
22.6
5.7
1
3 France
4 W_Germany
6.7
1.3
35.8
0.9
7.3
14.4
5.0
22.3
6.1
1
5 Ireland
23.2
1.0
20.7
1.3
7.5
16.8
2.8
20.8
6.1
1
6 Italy
15.9
0.6
27.6
0.5
10.0
18.1
1.6
20.1
5.7
1
7 Luxembourg
7.7
3.1
30.8
0.8
9.2
18.5
4.6
19.2
6.2
1
8 Netherlands
6.3
0.1
22.5
1.0
9.9
18.0
6.8
28.5
6.8
1
9 UK
2.7
1.4
30.2
1.4
6.9
16.9
5.7
28.3
6.4
1
10 Austria
12.7
1.1
30.2
1.4
9.0
16.8
4.9
16.8
7.0
2
11 Finland
13.0
0.4
25.9
1.3
7.4
14.7
5.5
24.3
7.6
2
12 Greece
41.4
0.6
17.6
0.6
8.1
11.5
2.4
11.0
6.7
2
13 Norway
9.0
0.5
22.4
0.8
8.6
16.9
4.7
27.6
9.4
2
14 Portugal
27.8
0.3
24.5
0.6
8.4
13.3
2.7
16.7
5.7
2
15 Spain
22.9
0.8
28.5
0.7
11.5
9.7
8.5
11.8
5.5
2
6.1
0.4
25.9
0.8
7.2
14.4
6.0
32.4
6.8
2
16 Sweden
17 Switzerland
7.7
0.2
37.8
0.8
9.5
17.5
5.3
15.4
5.7
2
18 Turkey
66.8
0.7
7.9
0.1
2.8
5.2
1.1
11.9
3.2
2
19 Bulgaria
23.6
1.9
32.3
0.6
7.9
8.0
0.7
18.2
6.7
3
20 Czechoslovakia
16.5
2.9
35.5
1.2
8.7
9.2
0.9
17.9
7.0
3
21 E_Germany
4.2
2.9
41.2
1.3
7.6
11.2
1.2
22.1
8.4
3
22 Hungary
21.7
3.1
29.6
1.9
8.2
9.4
0.9
17.2
8.0
3
23 Poland
31.1
2.5
25.7
0.9
8.4
7.5
0.9
16.1
6.9
3
24 Romania
34.7
2.1
30.1
0.6
8.7
5.9
1.3
11.7
5.0
3
25 USSR
23.7
1.4
25.8
0.6
9.2
6.1
0.5
23.6
9.3
3
26 Yugoslavia
48.7
1.5
16.8
1.1
4.9
6.4
11.3
5.3
4.0
3
Multivariata Metoder
Klara Westling, 2012-04-24
Exempel – PCA - Arbetslöshet
Med 2 komponenter förklaras 62% av variationen i data
Unemploy.M1 (PCA-X), Overview
Series (Settings for Group)
t[Comp. 1]/t[Comp. 2]
Missing
Colored according to values in variable Unemploy(Group)
1
Unemploy.M1 (PCA-X), Overview
p[Comp. 1]/p[Comp. 2]
Colored according to model terms
2
3
4
Hungary
E_Germany Czechoslov
3
0.5
0.4
USSR
Luxembourg
1
0.3
UK
-1
-2
PS
TC
0.2
Austria
W_Germany
Greece
Ireland
Sw
Finland
itzerlan
Italy SpainPortugal
Norw ay France
Belgium
Sw eden
Netherland
Denmark
0
MAN
Poland
Romania
Bulgaria
p[2]
2
t[2]
MIN
0.6
Yugoslavia
Turkey
0.1
AGR
CON
-0.0
-0.1
-0.2
-3
SPS
-0.3
SER
-0.4
-4
FIN
-5
-4
-3
-2
-1
0
1
2
3
4
5
t[1]
R2X[1] = 0.387461
R2X[2] = 0.236686
Ellipse: Hotelling T2 (0.95)
SIMCA-P+ 11.5 - 2010-06-04 14:26:39
6
-0.5
-0.4
-0.3
-0.2
-0.1
-0.0
0.1
0.2
0.3
0.4
p[1]
R2X[1] = 0.387461 R2X[2] = 0.236686
SIMCA-P+ 11.5 - 2010-06-04 14:27:09
Multivariata Metoder
Klara Westling, 2012-04-24
0.5
Exempel – PCA - Arbetslöshet
Man kan också se på observationer och variabler i
samma bild
Multivariata Metoder
Klara Westling, 2012-04-24
Exempel – PCA - Arbetslöshet
 Resultaten kan också visas i 3D: Unemploy
Multivariata Metoder
Klara Westling, 2012-04-24
Exempel – PCA - Arbetslöshet
 Även den omodellerade variationen (residualen) hos
varje observation kan visualiseras
Unemploy.M1 (PCA-X), Overview
DModX[Comp. 2](Normalized)
1.8
1.6
D-Crit(0.05)
1.2
1.0
0.8
0.6
0.4
Yugoslavia
USSR
Romania
Poland
Hungary
E_Germany
Czechoslov
Bulgaria
Turkey
Switzerlan
Sweden
Spain
Portugal
Norway
Greece
Finland
Austria
UK
Netherland
Luxembourg
Italy
Ireland
W_Germany
France
0.0
Denmark
0.2
Belgium
DModX[2](Norm)
1.4
Obs ID (Primary)
M1-D-Crit[2] = 1.709
1 - R2X(cum)[2]
= 0.3759
SIMCA-P+
11.5 - 2010-06-04 16:23:12
Multivariata Metoder
Klara Westling, 2012-04-24
Faktoranalys (FA)
– Äldre broder till PCA
– Modellerar både strukturen och bruset
– Bygger på ett antal statistiska förutsättningar som skall
vara uppfyllda
– Inget för nybörjaren
Multivariata Metoder
Klara Westling, 2012-04-24
Korrespondensanalys (CA)
 Kusin till PCA
 Användningsområden parallella med PCA
 Används då beskrivningsvariablerna har en
klockformad fördelning (förekomstdata av djur och
växter)
 PCA baseras på linjär fördelning (t.ex. vattenkemi)
PCA
Multivariata Metoder
Klara Westling, 2012-04-24
Klusteranalys (KA)
– Grupperar observationerna enligt “likhet”
– Ingen unik primär lösning pga många
uppdelningsmetoder och många
likhetskriterier
– Resultatet presenteras ofta i
ett dendrogram (träddiagram)
Multivariata Metoder
Klara Westling, 2012-04-24
Exempel – Klusteranalys (okända klasser)
Data: Arbetslöshet i Europa
Multivariata Metoder
Klara Westling, 2012-04-24
SIMCA – klassificering
 Bygger på separata PCA-modeller för varje klass
 Nya observationer klassas till den klass som den passar
 Metoden upptäcker observationer som inte passar till
någon klass!
Multivariata Metoder
Klara Westling, 2012-04-24
Sammanfattning – beskrivande analys
 PCA är den rekommenderade metoden
Den är robust och väl lämpad för att:
– Visualisera data
– Finna grupperingar
– Upptäcka avvikare
– Klassificera nya observationer
– Bra grafisk diagnostik och presentation
 CA kan användas vid förekomstdata (som har
klockformad respons hos beskrivningsvariablerna)
 KA kan användas för att objektivt dela in ett material i
grupper
Multivariata Metoder
Klara Westling, 2012-04-24
Relationsanalys (RA)
 Samband och prediktioner (x- och y- variabler)
– relationsanalys syftar till att beskriva relationen mellan två
grupper av variabler. Ofta kallar vi den ena gruppen för
förklaringsvariabler (x) och den andra för
beroendevariabler (y). Vi vill vet hur förklaringsvariablerna
kan användas för att beskriva och prediktera
beroendevariablerna.
– Med ursprungsvariabler
– MLR, SMLR
– Med latenta variabler / underrumsmetoder
– PLS, (ANN)
Multivariata Metoder
Klara Westling, 2012-04-24
MLR och SMLR (med ursprungsvariabler)
 MLR - multipel linjär regression
–
–
–
–
–
Den mest felanvända metoden
Fungerar dåligt med korrelerade variabler
Hanterar inte bortfall
Klarar bara en y-variabel per modell
Antar att x är exakt och 100% relevant, endast
rekommenderad då man gjort faktorförsök innan och man
vet att x är det man anger
 SMLR – stegvis MLR
– Väljer en delmängd av x-variablerna beroende på deras
modelleringsförmåga
– Stor risk för övermodellering (overfit)
– Urvalet och resultaten är mycket data- och brusberoende –
det finns väldigt många sätt att välja X-variabler i stora
dataset
Multivariata Metoder
Klara Westling, 2012-04-24
PLS (latenta variabler)
–
–
–
–
–
–
–
–
Maximerar kovariansen mellan x och y
Korrelerade variabler ger stabilare modell
Finner samband i närvaro av både brus och bortfall
Klarar flera y i samma modell
Intern validering reducerar risken för övermodellering
Grafisk presentation för diagnostik och prediktion
Upptäcker avvikare inför prediktioner för nya observationer
Olinjäritet mellan x och y fångas med transformationer och/eller
tillägg av högre ordningens termer av x (ex: x32, x1*x5, x22*x7)
– Kan också användas för identifiering av tidsseriemodeller typ AR, MA
och ARMA med tillägg av tidsförskjutna x- och/eller y-variabler på xsidan
Multivariata Metoder
Klara Westling, 2012-04-24
Exempel PLS - Krondroppsdata
 Data: X – tid, plats, nederbörd,
Y – analyser av 12 olika föroreningar i krondropp
M1023.DS1 M1023
Variable(SO4-Sex)
Colored according to Obs ID (Blåbärskullen ÖF)
AK
BF
BK
TK
0.8
10
AK90/91
0.7
9
AK91/92
AK93/94
0.3
0.2
M1023.M2 (PLS), Time Nederb Site as X
YPred[Last comp.](SO4-S)/YVar(SO4-S)
Colored according to Obs ID (Primary)
oorgN
Mn2+
K+
Na+
Mg2+
Ca2+
0.0
NH4-N
0.1
NO3-N
BK01/02BK97/98
BK02/03
BK04/05
BK03/04
TK05/06 TK00/01TK96/97
BK07/08
BK06/07
TK98/99
TK97/98
TK01/02
TK99/00
TK06/07
TK04/05
TK02/03
TK07/08TK03/04
Cl-
BK00/01
BK99/00
BK98/99
BK96/97
SO4-Sex
BK05/06
SO4-S
AK
BF
BK
TK
Var ID (Primary)
SIMCA-P+ 11.5 - 2010-04-06 18:54:21
AK92/93
14
Obs ID (Primary)
SIMCA-P+ 11.5 - 2010-04-06 16:46:11
M1023.M2 (PLS), Time Nederb Site as X
CoeffCS[Last comp.](SO4-S)
12
AK90/91
10
YVar(SO4-S)
0.6
0.4
0.2
-0.0
AK91/92
AK93/94
AK94/95
8
AK97/98 AK95/96
AK98/99
AK96/97
AK00/01
BF98/99
AK01/02
BK00/01
BF00/01
BK99/00
BF99/00
AK05/06
BK05/06
BF97/98
BF06/07
AK99/00
BK98/99
BK96/97
AK04/05
AK02/03
BF05/06
AK03/04
BF96/97
BF01/02 AK06/07
BK01/02
BK02/03
BF03/04
BF04/05BK97/98
BK04/05
BF02/03
BK03/04 BF07/08
BK06/07
BK07/08 AK07/08
TK05/06
TK00/01
TK98/99 TK96/97
TK01/02
TK04/05
TK99/00TK97/98
TK02/03
TK06/07
TK03/04
TK07/08
6
-0.2
-0.4
4
Yr*Yr
Nedb
Yr
Site(TK)
Site(BF)
Site(AK)
-0.6
Site(BK)
AK07/08
0.4
H+
1
BF98/99
BF00/01
BF97/98
BF99/00
BF06/07
BF05/06
BF96/97
AK05/06AK01/02
BF01/02
BF03/04
AK02/03
BF04/05
BF02/03
AK03/04AK99/00
AK04/05
BF07/08
AK06/07
CoeffCS[4](SO4-S)
2
0.5
AK95/96
AK97/98
AK98/99
AK00/01AK96/97
6
3
0.6
AK94/95
7
BF07/08
BF06/07
BF05/06
BF04/05
BF03/04
BF02/03
BF01/02
BF00/01
BF99/00
BF98/99
BF97/98
BF96/97
AK07/08
AK06/07
AK05/06
AK04/05
AK03/04
AK02/03
AK01/02
AK00/01
AK99/00
AK98/99
AK97/98
AK96/97
AK95/96
AK94/95
AK93/94
AK92/93
AK91/92
AK90/91
BK07/08
BK06/07
BK05/06
BK04/05
BK03/04
BK02/03
BK01/02
BK00/01
BK99/00
BK98/99
BK97/98
BK96/97
TK07/08
TK06/07
TK05/06
TK04/05
TK03/04
TK02/03
TK01/02
TK00/01
TK99/00
TK98/99
TK97/98
TK96/97
SO4-Sex
8
4
R2VY[4](cum)
Q2VY[4](cum)
0.9
11
5
M1023.M2 (PLS), Time Nederb Site as X
AK92/93
12
2
1
2
3
4
5
6
7
8
9
10
11
12
13
YPred[4](SO4-S)
Var ID (Primary)
SIMCA-P+ 11.5 - 2010-06-04 16:51:35
RMSEE = 1.08475
Multivariata Metoder
Klara Westling, 2012-04-24
SIMCA-P+ 11.5 - 2010-04-06 18:52:34
14
Sammanfattaning - relationsanalys
 PLS passar i de flesta fallen
 PLS är överlägset MLR och SMLR när det finns många och
korrelerade x-variabler
 PLS har bättre grafiska diagnostiska möjligheter än de andra
metoderna
 Stegvis regression är inte alls rekommenderat, stor risk för
övermodellering
 ANN (neurala nätverk) kan man pröva om inget annat fungerar
Multivariata Metoder
Klara Westling, 2012-04-24

similar documents