01ponovitev 1 osnovne statistike in normalnost

Report
Ponovitev 1. del
Osnovne statistike in normalnost
porazdelitve
1. ZAJEM IN PRIPRAVA PODATKOV
•
•
•
•
•
1.1. KAKOVOST PODATKOV
1.2. POSTOPANJE S PODATKI
1.3. VRSTE MERILNIH LESTVIC
1.4. VRSTE ANALIZ
1.5. POPULACIJA IN VZOREC
1.2. POSTOPANJE S PODATKI
• Predmet = objekt, osebek, meritev (vrstica)
• Spremenljivka – izmerjena lastnost predmeta (stolpec)
– Enake enote posamezne spremenljivke
– Enak postopek meritve spremenljivke
• Manjkajoči podatki
– Nadomeščanje
– Meje detekcije (3/4 ali 1 1/4)
– Cenzurirane vrednosti (30%)
• Referenčne številke, označbe in kode
– Naključni vrstni red analize
– Številčne kode
– Geografski položaj kot spremenljivka
1.5. POPULACIJA IN VZOREC
• Statistični vzorec je celotna zbirka objektov ali
meritev, ki so del proučevane populacije in so njeni
nepristrani in reprezentativni predstavniki.
– Zajem podatkov ≠ potrjevanje pričakovanj
– Ustrezni merilnih postopkov (umerjenost, delovni pogoji,
usposobljenost...)
– Kontrola analitske napake
1.5.1. Vzorčenje
• Velikost vzorca
– Občutljivost reševanega primera
– Pilotski vzorec
• Ocena parametrov celotne populacije
– Pravilna odstopanja (plastovitost)
– Naključna odstopanja
• Ocena spremenljivosti znotraj populacije
– Nehomogena populacija
• Vzorčenje podpopulacij
• Postopne spremembe – profil pravokotno na smer spremembe
• Nepoznana – enakomerno ali v mreži
2. STATISTIKE Z ENO SPREMENLJIVKO
• Prvi pregled nad podatki
• Podatki s sorazmerno in intervalno lestvico
• Numerični in grafični opis
2.1. Histogram vzorca
• Ugotavljanje pravilnosti porazdelitve
• Odločitev o nadaljnih postopkih
• Neposredna (geološka) interpretacija
Histogram (ISTRA_tla 20v *269c)
90
80
70
No of obs
60
50
40
30
20
10
0
-1
0
1
2
3
4
5
6
7
8
9
10
F e
Histogram (ISTRA_tla 20v *269c)
Histogram (ISTRA_tla 20v *269c)
350
40
35
300
30
250
No of obs
No of obs
25
200
150
20
15
100
10
5
50
0
0.50
4.75
F e
9.00
0
0.5000
1.7750
3.0500
4.3250
5.6000
6.8750
8.1500
1.1375
2.4125
3.6875
4.9625
6.2375
7.5125
8.7875
F e
2.1.1. Histogram vzorca
• Pravila izdelave histograma
– Število razredov
• Dovolj veliko, da postene oblika porazdelitve vidna
• Dovolj majhno, da ni praznih razredov
• Kvadratni koren števila opazovanj - √n
– Meje razredov
• Vkjučene morajo biti vse opazovane vrednosti
• Nobeno opazovanje naj ne sovpada z mejo  imajo eno
decimalno mesto več kot meritve
• Enake širine  višine in površine stolpcev so sorazmerne
frekvencam razredov – razpon podatkov delimo s številom
razredov
– Frekvence razredov ugotovimo z uvrščanjem (štetjem)
opazovanj v posamezen razred
2.1.2. Opis oblike
• Število modusov
– Unimodalna
– Bimodalna
2.1.2.Opis oblike
• Asimetričnost
(skewness)
– Pozitivno (desno)
premaknjena
 > Me
– Negativno (levo)
premaknjena
 < Me
2.1.2. Opis oblike
• Stopnja pogostnosti
(kurtosis)
– Sploščenost
– Zašiljenost
2.1.2. Opis in razlaga oblike histograma
• Poševnost (A, √b1) je mera asimetričnosti
(skewness). Ko je krivulja simetrična je A =
0.
A  b1 
m3
m23
• Sploščenost (E, b2) je mera zašiljenosti
(leptokurtična E>0) ali sploščenosti
(platikurtična E<0). Normalna krivulja je
mezokurtična (E= 0).
 m4 
m4
E  b2  2  3   2 
m2
 m2 
2
2.1.3. Mere položaja vzorca
•
•
•
•
•
Aritmetična sredina ≈ povprečje
Geometrična sredina
Harmonična sredina
Mediana – sredinska vrednost
Modus – vrednost z največjo frekvenco
2.1.3.1. Aritmetična sredina
• Običajna mera opisovanja vzorcev, čeprav
nanjo vplivajo skrajne vrednosti.
1 n
x   xi
n i 1
Primer:
I. 1, 2, 2, 3
II. 1, 2, 2, 30
x = 2
x = 8,75
2.1.3.2. Geometrična sredina
• Uporabna pri pozitivno premaknjenih podatkih,
kjer je aritmetična sredina nereprezentativno
visoka.
xG  x1  x2  ... xn
n
Primer:
I. 1, 2, 2, 3
II. 1, 2, 2, 30
x G = 1,86
x G = 3,31
2.1.3.3. Harmonična sredina
• Je obratna vrednost aritmetične sredine obratnih
vrednosti.
• Uporabna je pri zelo levo premaknjenih populacijah,
ker teži k nižjim vrednostim (v primerjavi z aritmetično
in geometrično sredino) in zmanjšuje učinek
izstopajoče visokih vrednosti (outlierjev).
xH 
n
n
1

i 1 xi
Primer:
I. 1, 2, 2, 3
II. 1, 2, 2, 30

n
1
1
1

 ... 
x1 x2
xn
x H = 1,71
x H = 1,97
2.1.4. Mere razpršenosti vzorca
• Uporaba je za:
– Neposredna geološka interpretacija
– Določanje števila podatkov, potrebnih za zanesljivo
oceno parametrov
• Vrste mer razpršenosti:
– Razpon (range)
– Odstopanje znotraj kvartilov (IQD)
– Mere odstopanja od povprečja – varianca (s2) in
standardni odklon (s)
– Variacijski koeficient (CV)
2.1.4.1. Razpon
• Razlika med najvišjo (max.) in najnižjo (min.)
vrednostjo vzorca.
razpon = xmax – xmin
• Zelo zanesljiva mera pri majhnem številu
opazovanj; pri velikem lahko nanj vplivajo
izstopajoče vrednosti.
Primer:
I. 1, 2, 2, 3
II. 1, 2, 2, 30
razpon = 3 – 1 = 2
razpon = 30 – 1 = 29
2.1.4.2. Odstopanje znotraj kvartilov
• IQD (Intra quartile deviation) je območje med 25% in
75% vrednosti (razpona).
IQD = Q3 – Q1
Primer:
I.
II.
1, 2, 2, 3
1, 2, 2, 30
IQD = 1
IQD = 14,5
Q1 
razpon  25 (3  1)  25

 0,5
100
100
Q3 
razpon  75 (3  1)  75

 1,5
100
100
2.1.4.3. Varianca vzorca
• Na velikost vsote kvadriranih razlik od srednje
vrednosti vpliva število opazovanj v vzorcu (n),
zato za oceno uporabimo varianco (s2). Ta za
razliko od σ2 ni asimetrična, zato nekoliko
podceni parameter populacije. Problem
rešimo tako, da namesto z n, CSS delimo z (nn
1).
1
2
2
s 
(x  x)

n 1
i 1
i
2.1.3.4. Standardni odklon vzorca
• Enote variance so kvadrirane, zato pogosto
uporabimo kvadratni koren variance –
standardni odklon (s), kjer so enote enake
meritvam in ga je zato enostavneje interpretirati.
s s
2
2.1.3.5. Koeficient variacije - CV
• Koeficient variacije je definiran kot razmerje med
standardnim odklonom in aritmetično sredino.
• Merjen je v odstotkih in ga zato lahko uporabimo za
primerjavo razpršenosti različnih statističnih
populacij.
• Izračunamo ga:
s
CV  100 %
x
2.2. GRAFIČNO PREISKOVANJE PODATKOV
• Škatla – črta (box and whisker) graf
– Uporaben za primerjavo nizov podatkov ter odkrivanje
“sumljivih” vrednosti.
– Glavnina podatkov
je v škatli, “repi”
porazdelitve pa
so črte, outlierji
točke.
Box Plot of multiple v ariables
Spreadsheet1 2v *4c
Median; Box: 25%-75%; Whisker: Non-Outlier Range
35
30
25
20
15
10
5
Median
25%-75%
Non-Outlier Range
Outliers
Extremes
0
-5
Var1
Var2
2.3. Naključne spremenljivke
• Ne moremo napovedati vrednosti naključne
spremenljivke, lahko pa izračunamo
verjetnost, da bo opazovanje imelo določeno
vrednost oz. vrednost znotraj danega razpona.
• Način, kako je celotna verjetnost 1,
porazdeljena med možne vrednosti naključne
spremenljivke, imenujemo verjetnostna
porazdelitev.
2.4.1. Nezvezne verjetnostne porazdelitve
 Verjetnost izida izračunamo s pomočjo
verjetnostnih funkcij, ki so različne za
različne mehanizme opazovanih
procesov.
 Nezvezne
 Enolična
 Binomna
 Poissonova
 Negativna binomna
2.4.1.1. Poissonova porazdelitev
• Zanima nas, ali se dogodki pojavljajo naključno in
neodvisno.
• Poissonova porazdelitev je model za tako
naključnost.
• Dogodki so naključni in neodvisni, kadar velja:
–Verjetnost posameznega dogodka, ki se pojavi v
kratkem časovnem ali prostorskem intervalu, je
približno sorazmerna dolžini intervala.
–Verjetnost, da se v takem intervalu pojavi več kot en
dogodek, je dejansko nič.
–V neprekrivajočih se intervalih je pojavljanje ali
nepojavljanje dogodkov neodvisno.
2.4.1.1. Poissonova porazdelitev
• Kadar navedena pravila držijo, ima število dogodkov,
ki se pojavijo v končnem intervalu t enot časa ali
prostora Poissonovo porazdelitev z verjetnostno
funkcijo:
Pr(X  x)  exp(t )  (t ) x x!
x = 0, 1, ...
Kjer je  povprečno število dogodkov v enoti
intervala.
2.4.1.1. Poissonova porazdelitev
•
Primer:
V 50-letnem obdobju se povprečno pojavita 2,2
poplavi. Kakšne so verjetnosti:
I.
II.
III.
IV.
Točno dveh poplav v 50 letih?
Točno ene poplave v 25 letih?
Najmanj ene poplave v 50 letih?
Ne več kot dveh poplav v 25 letih?
2.4.2. Verjetnostne porazdelitve zveznih
naključnih spremenljivk
• Verjetost, da bo opazovanje X ležalo v
določenem razponu (x1, x2), predstavlja
površina pod krivuljo med mejama x1 in x2.
• Vrste zvezne porazdelitve:
–Enolična
–Eksponenčna
–Normalna
2.4.2.1. Eksponenčna porazdelitev
• Povprečna hitrost (stopnja, pogostnost) dogodkov
na enoto intervala je λ, zato je povprečen čas med
dogodki:
1
E ( x) 

1
Var ( X )  2

Pr(X  x)  exp(x)
Pr(x1  X  x2 )  exp(x1 )  exp(x2 )
Pr(X  x)  1  exp(x)
2.4.2.1. Eksponenčna porazdelitev
•
Primer: Na ljubljanskem območjih sta se v
zadnjih nekaj 100-letnih obdobjih pojavila po
2,1 potresa. Kakšna je verjetnost, da je čas
med dvema zaporednima potresoma
I.
II.
III.
Preko 25 let
Manj kot 50 let
Med 30 in 40 let
2.4.2.2. NORMALNA PORAZDELITEV
2.4.2.1. Pomen normalne porazdelitve
• Kadar so opazovane vrednosti vsota več
neodvisnih, naključnih prispevkov, izvirajo
iz normalne (Gaussove) porazdelitve, ki je
simetrična.
• Prvi parameter funkcije je srednja
vrednost, drugi razpon (obseg)
porazdelitve na merilni lestvici.
• Vrednosti porazdelitve so lahko pozitivne
ali negativne. Matematično popolna
normalna porazdelitev se v obe smeri
nadaljuje v neskončnost.
2.4.2.2. Uporaba tabel normalne
porazdelitve
• Naključno spremenljivko s srednjo vrednostjo  in
standardnim odklonom σ transformiramo:
X 
z

2.4.2.2. Uporaba tabel normalne porazdelitve
•
Primer: Povprečna vsebnost Pb v Mežici je
12%, standardni odklon je 1,6%. Kakšna je
verjetnost, da bo imel naključno izbran kos
vsebnsot Pb:
I.
II.
III.
IV.
15% ali manj
14% ali več
8% ali manj
Med 8 in 15%?
2.4.2.3. Srednja vrednost in varianca
porazdelitve vzorčenja srednje vrednosti vzorca
• Kvadratni koren variance vzorčevalne porazdelitve
je standardna napaka (SE – standard error)
statistike:
SE( x ) 
2
n


n
• Srednje vrednosti vzorca standariziramo podobno
kot posamezno vrednost:
z
X 

n
2.5. Preverjanje razporeditve
• Običajno preverjamo ali se porazdelitev ujema
z normalno – Gaussovo.
– Vizualno iz oblike histograma
– Enakosti x , x G, x H , Me.
– Testiranje parametrov asimetričnosti (√b1 ≈ 0) in
sploščenosti (b2 ≈ 0)
– Graf normalne verjetnost
– X2 test
– Kolmogorov – Smirnov test
2.5.1. Histogram
Histogram: Al2O3
K-S d=,12638, p> .20; Lillief ors p<,10
Shapiro-Wilk W=,96654, p=,25152
14
12
8
6
Histogram: Cu
4
K-S d=,22745, p<,05 ; Lillief ors p<,01
Shapiro-Wilk W=,56395, p=,00000
2
22
20
0
8,0
8,5
9,0
9,5
10,0
10,5
11,0
11,5
12,018
X <= Category Boundary
16
14
No. of obs.
No. of obs.
10
12
10
8
6
4
2
0
0
20
40
60
80
100
120
X <= Category Boundary
140
160
180
200
2.5.2. Primerjava ocen srednje
vrednosti, asimetričnosti in polščenosti
Mean
Geo Mean
Median
Skewness
Kurtosis
Al2O3
10,0
10,0
10,1
0,150
-0,98
CaO
10,8
10,4
11,6
-0,877
0,32
Cr
218,9
217,2
212,3
1,298
2,55
Cu
48,0
44,8
40,9
4,308
23,04
2.5.3. Graf zadetkov normalne verjetnosti
Normal P-Plot: Cu
2,5
2,0
1,5
0,5
0,0
-0,5
Normal P-Plot: Al2O3
2,5
-1,0
2,0
-1,5
1,5
-2,0
1,0
-2,5
20
40
60
80
100
120
Value
140
Expected Normal Value
Expected Normal Value
1,0
0,5
160
180
200
0,0
-0,5
-1,0
-1,5
-2,0
-2,5
8,0
8,5
9,0
9,5
10,0
Value
10,5
11,0
11,5
12,0
2.5.4.
2
X
test
• Primernejši je za nezvezne kot zvezne porazdelitve.
• Ne zahteva poznavanja parametrov.
• Uporaben je v številnih drugih statističnih testih,
kjer primerjamo tisto kar pričakujemo, glede na
zadani kriterij, s tistim, kar dejansko opazujemo.
• Postavimo hipotezi:
H0: podatki iz populacije imajo določena razmerja
v vsakem od k razredov – porazdelitev
podatkov se ne razlikuje od normalne
H1: podatki iz populacije nimajo določenih
razmerij – porazdelitev se razlikuje od normalne
2.5.4. X2 test
• Testna statistika X2 je:
k
(O j  Pj ) 2
j 1
Pj
2  
k število razredov (kategorij), kamor uvrščamo opazovanja
Oj opazovane frekvence (pogostnosti, preštetja) v j-tem
razredu
Pj pričakovane frekvence v j-tem razredu, če drži H0; v
angleških besedilih je označba Ej (expected)
• Kvadrat v števcu odstrani težave negativnih in pozitivnih
odstopanj, ki se med seboj izničijo.
• Deljenje s pričakovano frekvenco uravnoteži učinek
velikosti številk in s tem omogoči uporabo enotnih
tabel.
2.5.4. X2 test
• Izračunano vrednost primerjamo s tabelirano
vrednostjo X2 pri določeni stopnji zaupanja
(običajno α = 0,05) ter ustreznih stopnjah prostosti.
• Porazdelitev X2 je premaknjena v desno, pri čemer
stopnja asimetričnosti zavisi od parametra ν.
• Stopnje prostosti ν so:
ν = k – 1 – (število ocenjenih parametrov)
• H0 zavrnemo, kadar je izračunana vrednost X2 višja
od tabelirane.
2.5.4. X2 test
• Opozorila:
1. V vsakem razredu moramo pričakovati vsaj 5
opazovanj. Pogoju običajno zadostimo z nižanjem
števila razredov.
2. Izid je zelo občutljiv na število uporabljenih
razredov: verjetneje je, da bo H0 zavrnjena, če je
število razredov visoko; pri majhnem številu
razredov je zavrnitev H0 lahko le posledica grobih
in nepomembnih podobnosti med podatki in
modelom.
2.5.5. Kolmogorov - Smirnov test
• Kumulativne relativne frekvence vzorčenih
podatkov primerjamo z vrednostmi teoretične
porazdelitvene funkcije F(x) za porazdelitev, ki jo
testiramo.
• Če podatki izhajajo iz porazdelitve, podane v H0, se
morajo vrednosti F(x(1)), ..., F(x(n)), dokaj dobro
ujemati z 1/n, ..., 1.
• Izračunamo velikost največje razlike med teoretično
in opazovano kumulativno funkcijo ter jo
primerjamo s tabelirano kritično vrednostjo.
2.5.5. Kolmogorov - Smirnov test
• H0 (ni odstopanja med porazdelitvama) zavrnemo,
kadar je izračunana vrednost K-S statistike višja od
tabelirane.
2.5.5. Kolmogorov - Smirnov test
• Kadar ne poznamo aritmetične sredine in
standardnega odklona hipotetične normalne
porazdelitve (to pomeni, da jo ocenimo iz podatkov
vzorca), moramo
za oceno
statistične
značilnosti KS
razlike uporabiti
Lilleforsove tabele
verjetnosti.
Histogram: Cr
K-S d=,13832, p> .20; Lillief ors p<,05
Expected Normal
16
14
12
No. of obs.
10
8
6
4
2
0
160
180
200
220
240
260
X <= Category Boundary
280
300
320
2.5.6. Shapiro – Wilkov W test
• Izračun W statistike za testiranje, ali naključni vzorec
x1, x2, ..., xn izhaja iz normalne porazdelitve je:
2


  ai x(i ) 

W   ni 1
2
(
x

x
)

n
i 1
• Kjer so x(i) vrednosti urejenih podatkov (x(1) je
najnižja) in ai konstante, izračunane iz aritmetičnih
sredin, varianc in kovarianc urejenih (ordered)
statistik vzorca velikosti n, z normalno
porazdelitvijo.
2.5.6. Shapiro – Wilkov W test
• Nizke vrednosti W kažejo na odmik od normalnosti.
• Če je p-vrednost manjša od izbrane stopnje
zaupanja α (0,05), zavrnemo H0, da je porazdelitev
normalna.
• Shapiro – Wilkov W test je med najbolj
priljubljenimi testi normalnosti.
Histogram: Cr
K-S d=,13832, p> .20; Lillief ors p<,05
Shapiro-Wilk W=,90096, p=,00154
16
14
12
Histogram: TiO2
10
No. of obs.
K-S d=,09708, p> .20; Lillief ors p> .20
Shapiro-Wilk W=,97381, p=,43935
22
20
8
6
18
4
16
2
12
0
10
160
200
180
220
240
260
280
300
320
X Histogram:
<= CategoryCu
Boundary
K-S d=,22745, p<,05 ; Lillief ors p<,01
8
6
Shapiro-Wilk W=,56395, p=,00000
4
22
2
20
0
18
0,45
0,50
0,55
0,60
0,65
0,70
0,75
16
X <= Category Boundary
14
No. of obs.
No. of obs.
14
12
10
8
6
4
2
0
0
20
40
60
80
100
120
X <= Category Boundary
140
160
180
200
2. 6. Transformacije
• Veliko statističnih testov zahteva, da so podatki
normalno porazdeljeni.
• Kaj storimo, če ugotovimo, da niso?
– Opustimo nenormalno razporejeno spremenljivko.
• Problem je, če je spremenljivka za obravnavani problem
bistvena in je ni smiselno opustiti.
– Nenormalno porazdeljene podatke skušamo s kašno od
smiselnih transformacij prevesti v normalno obliko.
• Pri multivariatnih metodah ali, ko primerjamo spremenljivke
med seboj je pogosto zaželeno, da so te predstavljene v enaki
obliki (npr. vse logaritmirane).
2.6. Transformacije
• Logaritmiranje
– log10x
– lnx
• Ulomek
– 1/x
– 1/x2
• Potenca
– x2, x3
– Box – Cox transformacija
2.6.1. Box-Cox transformacija
• Je postopek ugotavljanja ustreznega eksponenta λ, s
katerim potenciramo vse podatke, da jih
transformiramo v normalno obliko.
• Box-Coxov postopek išče lambde od λ= -5 do λ = +5,
dokler ne najde najustreznejše vrednosti.
x 
x 1

• Za λ = 0 vrednost transformacije ni x0, ker bi bila v
tem primeru 1 za vsako vrednost, temveč log(x).
2.6.1. Box-Cox transformacija
• Običajne Box-Cox transformacije
λ
-2
-1
-0,5
0
0,5
1
2
x’
x-2 = 1/x2
x-1 = 1/x1
x-0,5 = 1/√x
log(x)
x0,5 = √x
x1 = x
x2
2.6.1. Box-Cox transformacija
• Izbrana λ je tista, ki najbolj zveča logaritem funkcije
podobnosti.
• Metoda dejansko ne preverja normalnosti (in zato
ni zagotovilo zanjo), temveč išče najmanjši
standardni odklon.
• Deluje le za pozitivne podatke večje od 0.
– To lahko dosežemo z dodajanjem konstante pred
transformacijo
2.6.1. Box-Cox transformacija
• Izračuna tudi interval zaupanja (confidence levels
(CL), ki pokaže razpon, v katerem je
najprimernejša λ.
• Običajno jo
zaokrožimo na
celo število,
kar olajša
preračunavanje
podatkov v in
iz transformacije.
Search history (Zn)
lambda = -1,007784 shif t = 0,000000
lower CL = -1,738560 upper CL = -0,369017
300
280
260
Expected normal value
240
220
200
180
160
140
120
100
80
-3
-2
-1
0
Lambda (
1
2
3
95% Conf idence limit)
4
5
6
Histogram & normal probability plots (Zn)
lambda = -1,007784 shif t = 0,000000
35
30
Counts
Counts
25
20
15
10
5
0
0
40
60
120
160
200
240
100
140
180
220
260
Zn (original)
Zn (transformed)
3,0
2,5
0.99
2,0
0.95
1,5
0.85
1,0
0.70
0,5
0,0
0.50
-0,5
0.30
-1,0
0.15
-1,5
0.05
-2,0
0.01
-2,5
-3,0
20 40 60 80 100 120 140 160 180 200 220 240
3,0
2,5
0.99
2,0
0.95
1,5
0.85
1,0
0.70
0,5
0,0
0.50
-0,5
0.30
-1,0
0.15
-1,5
0.05
-2,0
0.01
-2,5
-3,0
0,966 0,970 0,974 0,978 0,982 0,986 0,990
0,968 0,972 0,976 0,980 0,984 0,988
Zn (original)
Expected normal value
Expected normal value
20
80
22
20
18
16
14
12
10
8
6
4
2
0
0,964 0,968 0,972 0,976 0,980 0,984 0,988 0,992
0,966 0,970 0,974 0,978 0,982 0,986 0,990
Zn (transformed)

similar documents