Dag 2

Report
Hvordan får man data og modell til å passe sammen?
Når modell+metodikk krasjer med
virkeligheten
Ønsker å finne sammenhengen mellom
vannstand (h) og vannføring (Q). Antar
formen:
C
h
Q=C(h-h0)b
h0 er bunnvannstanden, b har å gjøre
med formen på elveprofilen og C har å
gjøre med bredden på elva.
Tilpasser med et sett
vannføringsmålinger.
Q
b
h0
Datum, h=0
Med likelihoods-tilpasning gir enkelte
Hva som utgjør rimelige og urimelige
målesett uendelige parametre!
Tilpasningen blir bra, men med komplett parameter-verdier, er ikke noe frekventistisk
metodikk i utgangspunket tar høyde for.
urimelige parameter-verdier.
Bayesiansk statistikk, derimot…
Statistisk skoler- Bayesiansk
Bayesiansk statistikk: Her oppsummerer man alt man vet om parametrene
via en fordeling (siden de er usikre). Først angir man en såkalt a’ priorifordeling som beskriver førkunnskap om parameterverdiene, , og evt.
også modellene, M. Dette oppdateres så med data, D, via Bayes
formel:
f ( | D , M ) 
f ( D |  , M ) f ( | M )
for parameter
- inferens
gitt modell
f (D | M )
Pr(M | D) 
f (D | M) Pr(M)
for modell - inferens
Førkunnskap
Likelihood
f (D)
Uformell versjon av Bayes formel: posterior=prior*likelihood/marginal
Fra førkunnskap + data får man en såkalt a’posteriori-fordeling for
parameterne gitt modell. Dette oppsummerer all kunnskap man har om
parameterne etter å ha håndtert data.
All inferens gjøres altså med sannsynlighetsberegninger.
Bayesiansk statistikk –
en medisinsk oppvarming
Forestill deg en sykdom med en medisinsk test som alltid vil finne
sykdommen hvis man har den.
Den er ellers svært nøyaktig også, og vil gi falske positive i kun 1%
av tilfellene der man ikke har sykdommen.
Sykdommen er sjelden, bare en av tusen har den.
Hvis du tester positivt, hvor sannsynlig er det at du har
sykdommen?
Pr(syk | positiv test)  Pr(positiv
Pr(positiv
Pr(positiv
test | syk)Pr(syk )/Pr(posit iv test) 
test | syk)Pr(syk )
test | syk)Pr(syk )  Pr(positiv
100 % * 0 . 1 %
100 % * 0 . 1 %  1 % * 99 . 9 %

test | frisk)Pr(f risk)
 9%
Det er altså bare 9% sjanse at du har sykdommen! Hva skjer?
Bayesiansk statistikk –
en grafisk medisinsk oppvarming
Ett tusen personer før testen, representert med små sirkler
= Syk
= Frisk
Bayesiansk statistikk –
en grafisk medisinsk oppvarming
Etter testen, vil en syk og ca. ti friske teste positiv
= Syk
= Frisk
Sannsynligheten for at du har sykdommen har økt
enormt, men ti av elleve (91%) vil teste positiv selv
om de er frisk, kun 9% fordi de faktisk har
sykdommen.
Positiv test er altså evidens (og ganske sterkt sådan)
for sykdom, men ikke så sterkt at vi tror det er mer
sannsynlig enn at vi fremdeles er frisk.
En naiv frekventist kjøre en modelltest og si at
sannsynligheten for positiv test (1%) er mindre enn
vanlig brukt signifikansnivå (5%), og at de er syk
med 95% konfidens. En dreven frekventisk vil kalle
din sykdomstilstand en skjult variabel heller enn et
modellvalg, og deretter bruke Bayesiansk metodikk.
Bayesiansk statistikk – paralleller
og forskjeller
Parallelt/ligner
• Troverdighetsintervall: Et 95%
Forskjellig
• Fordeling på selve parametrene.
troverdighetsintervall til en parameter er •
et intervall som omslutter 95% av
sannsynlighetsfordeligen til
•
parameteren, gitt den informasjonen du
har.
•
• Modelltesting: Kan beregne
sannsynligheten for en modell gitt data,
•
tilsvarende som man regner ut
sannsynlighetstettheten til en parameter
gitt data.
•
• Estimasjon: Man kan estimere
parametre. Men dette gjøres etter at a’
posteriori-fordelingen er beregnet. Typisk
tar man gjennomsnitt, median eller
modus over fordelingen.
Man trenger en førkunnskap, en
fordeling over parametrene før data: f().
All informasjon etter data ligger i a’
posteriori-fordelingen, f(|D).
All oppdatering skjer via likelihood (ingen
inferens gjort på counter-factuals).
Det er mulig å skaffe evidens for enklere
modeller. Man kan altså gradvis føle seg
tryggere på en null-hypotese.
Har vi håndtert ett datasett, bruker vi det
som førkunnskap hvis vi skal håndtere
ett til.
Førkunnskap – a’ priori-fordeling
 A’ priori-fordelingen skal oppsummere den kunnskapen vi har om
modellen(e) før data.
 Man velger gjerne fordelingsfamilie først, gjerne ut ifra egenskapene til
parameterne (kan de ta verdier over hele tallinjen, er de strengt positive eller i intervallet
0-1?) samt matematiske behagelighetshensyn. Tviler man på utfallet av
slike valg, bør man prøve flere (robusthetsanalyse).
 Man tilpasser så dette til mer konkret førkunnskap, som for eksempel ”i
hvilket intervall ville jeg ikke bli overrasket over å finne parameteren” for
deretter å justere et (f.eks) 95% troverdighetsintervall i forhold til dette.
 Vanlig feil: Se på de data man skal analysere for å si noe om a’ priori-
fordelingen. Da går man i sirkler, og får helt urimelige anslag på
usikkerhet og modellvalg.
Førkunnskap – a’ priori-fordeling (2)
I utgangspunktet rent subjektivt, men kan gjøres mer godtabart for andre
ved:
a. Inkorporere fagkunnskap som et fagfelt har blitt enig om
(intersubjektivitet)
b.
Se hva slags variasjoner som ligger i naturen. For eksempel for
hydrologiske stasjoner, hva er typiske variasjoner i
vannføringskurve-parametre? Kan tenke på dette som ”naturens a’
priori-fordeling”.
c.
Bruke såkalt ikke-informative a’ priori-fordelinger. NB: Disse er ofte
ikke propre fordelinger. F.eks. finnes det ingen ekte
sannsynlighetsfordeling som trekker med lik sannsynlighet over
hele tallinjen. Likevel kan ikke-propre fordelinger ofte resultere i
propre a’ posteriori-fordelinger. PS: Ikke bruk slike i modellsammenligning!
Bayesiansk statistikk – fordelinger
f ( | D ) 
f ( D |  ) f ( )
f (D)
Man starter analysen med to ting:
1. En modell som sier hvordan data produseres, og som omhandler parametre man er
interessert i. Dette er likelihood’en: f(D|).
2. En a’ priorifordeling, f(). Oppsummerer vår førkunnskap om parametrene.
Fra dette får man følgende fordelinger av interesse:
• A’ posteriori-fordeling: f(|D). Dette oppsummerer alt vi vet om parametrene etter at vi har
håndtert våre data.
• Fordelingen til avledede størrelser: h ( ) ~ f ( h ( ) | D )   f ( h ( ) |  ) f ( | D ) d 
Eks: vannføring på en gitt vannstand når Q=C(h-h0)b
• A’ priori prediksjonsfordeling, også kalt marginal-fordelingen. f(D), gir sannsynligheten for
ulike utfall ubetinget på parametereverdien (ut ifra det vi vet om parametrene på forhånd
altså a’ prior-fordelingen). Anvendt på data, gir dette sannsynligheten (likelihood’en) til
data gitt kun modellen (likelihood og prior). Kan derfor også kalles modell-likelihood, siden
den inngår på samme måte i Bayes formel for modell-inferens som parametrisk likelihood
inngår i Bayes formel for parameter-inferens. Matematisk: f ( D )  f ( D |  ) f ( ) d 
•

A’ posteriori prediksjonsfordeling, f(Dnew|D), sannsynligheten for å få nye data gitt de
gamle (Dette er et eksempel på fordelingen til en avledet størrelse). Tar altså hensyn til
usikkerheten i parametrene etter data-håndtering.
PS: A’ posteriorifordelingen vil være a’ priorifordeling når vi skal håndtere nye data.
Prediksjonsfordelingen vil være den nye marginalfordelingen.
Bayesiansk statistikk – sammenligning av sannsynligheter
Bayes formel: f ( | D ) 
f ( D |  ) f ( )
f (D)
Om en parameter-verdi øker eller minsker i sannsynlighet etter data, relativt til en annen
parameter-verdi, kan ses hvis vi sammenligner a’ posteriori-sannsynlighetene:
f ( 1 | D )
f ( 2 | D )

f ( D |  1 ) f ( 1 )
/
f ( D |  2 ) f ( 2 )
f (D)
f (D)

f ( D | 1 )
f (D |2 )

f ( 1 )
f ( 2 )
Parameterverdi 1 øker dermed i sannsynlighet relativt til 2 hvis f(D| 1)>f(D| 2), altså data er mer
sannsynlig med parameterverdi 1 enn 2. (Har her underkjent at det er kun en modell vi ser på.)
Tilsvarende gjelder for modeller:
Pr( M 1 | D )
Pr( M 2 | D )

f ( D | M 1 ) Pr( M 1 )
f (D)
/
f ( D | M 2 ) Pr( M 2 )
f (D)

f (D | M 1)
f (D | M 2 )

Pr( M 1 )
Pr( M 2 )
Altså en modell øker i sannsynlighet relativt til en annen hvis data er mer sannsynlig (marginalisert
over parameterverdiene) for denne modellen enn for den andre, Pr(D|M1)>Pr(D|M2).
Viktigst av alt: Man får ikke noe fra absolutte sannsynligheter for data gitt antagelse. Det er kun
sammenligning av sannsynligheter (eller sannsynlighetstettheter) som teller!
Bayesiansk statistikk – ukjent forventing på
normalfordelte data med kjent standardavvik
Førkunnskap: ~N(0=0, =3)
2
2
1. Likelihood: f ( x |  ,  ) ~ N (  ,  / n )
(All informasjon om  ligger i gjennomsnittet i dette
tilfellet).
2. A’ priorifordeling, velger:
f (  ) ~ N (  0 , )
2
•
Etter-kunnskap: ~N((x)=2.15, (x)=0.44)
For n=5, x=2.2, =1
A’ posteriori-fordeling (omstendelig
utregning):
 x  2   0 2 / n  2 2 / n
f (  | x ) ~ N 
, 2
2
2
2



/
n



/n

N (  ( x ),  ( x ))
2




Bayesiansk statistikk – ukjent forventing på
normalfordelte data med kjent standardavvik
1. Likelihood:
f ( x |  , ) ~ N ( , / n)
2
2
(All informasjon fra data ligger i gjennomsnittet i
dette tilfellet).
2. A’ priorifordeling, velger:
Egentlig
samplingsfordeling
for gjennomsnitt
(ukjent for oss),
=2,=1,n=5
f (  ) ~ N (  0 , )
2
•
A’ priori prediksjons-fordelingen:
2
2
f ( x ) ~ N (  0 ,   / n )
Marginalfordelig
til gjennomsnitt
for oss.
•
A’ posteriori prediksjonsfordeling:
Prediksjonsfordeling,
n=m=5,
x=2.2, =1
f ( x new | x ) ~ N (  ( x ),  ( x )   / m )
2
2
Bayesiansk statistikk – modellsammenligning
Teknisk sett gjør vi modellsammenligning med Bayes formel:
Pr(M | D) 
f (D | M) Pr(M)
f (D)
Drivkraften her er marginalfordelingene til data, f(D|M). Sammenligner vi de, kan
vi se om vi får evidens for den ene eller andre modellen.
Eks: Eksperiment på ekstrasensoriske sanser gav 18 av 30 korrekte utfall på
enten-eller-spørsmål hos en forsøksperson. Er det noe i det? Bruker
binomialfordeling med enten kjent, p=0.5 (nei), eller ukjent (ja) uniformt fordelt
suksessrate.
Kan vise at marginalfordelingen med
uniformt fordelt suksessrate gir lik
sannsynlighet for alle utfall.
Ser fra plottet at utfall mellom 11 og
19 er evidens for p=0.5, mens andre
utfall er evidens mot. 18 riktige er mer
sannsynlig på tilfeldig gjetting enn hvis
det er ekstrasensoriske sanser i spill.
Marginalfordeling for p=0.5 (rød ) og p
ukjent (blå)
Bayesiansk estimering –
en advarsel
Tar man forventnings- eller median-estimat,
kan man regne med at verdien man får er
representativ for a’ posteriori-verdien til
hver parameter, men ikke nødvendigvis at
kombinasjonen er representativ.
Urepresentative parameter-kombinasjoner
kan gjøre en mye dårligere jobb med å
beskrive data enn en god en.
Har sett eksempel på dette i multi-segment
vannføringskurve-tilpasning, som i slike
tilfeller underestimerte vannføringen
konsekvent.
Beste løsning; estimer direkte det du skal fra
a’ posteriori-fordelingen, i stedet for å gå
via parameter-estimat.
Nest beste løsning: Bruk modus. NB: Betyr
optimering!
Forventning
Modus
Parameter 1
Bayesiansk modell-gjennomsnitt
Man kan lage prediksjons-fordelinger kun betinget på
modell, ikke modellparametre, ved å ta hensyn til
usikkerheten i disse:
 f ( D |  , M ) f ( | D , M ) d  (Fra loven om total sannsynlighet)
Tilsvarende kan man finne prediksjons-fordelingen
*ubetinget* på modell:
f ( D ny | D , M ) 
f ( D ny | D ) 

ny
f ( D ny | M ) Pr( M | D )
Bayesiansk vs frekventistisk
Bayesiansk
statistikk
Fordeler
Ulemper
Faglig kunnskap kan tas i bruk.
Siden du må oppgi en førkunnskap, tvinges
du til å lage meningsfulle modeller.
Resultatene er ofte lett å forstå og henger
sammen med dagligdags bruk av
sannsynlighet.
Svært kompliserte modeller kan bygges og
analyseres.
Du trenger ikke ta stilling til om noe er
fundamentalt stokastisk eller ikke.
Du får parameterusikkerhet ”gratis”.
Du blir tvunget til å oppgi en førkunnskap.
Ingen førkunnskap nødvendig, betyr en
mer ”objektiv” metode.
Frekventistisk
statistikk
Mange ferdigmetoder klare til å tas ibruk.
Med andre ord en stor ”verktøykasse”
som kan anvendes med en gang.
Enklere beregninger betyr at det er enklere
å komme i gang med bruken.
Siden førkunnskapen gjerne har en subjektiv
karakter, blir resultatet å anse som
subjektivt også.
Ofte ikke så mange ferdigmetoder
tilgjengelig.
Utregningen før du får resultater er oftere
vanskelig.
Vanskelig å benytte relevant faglig
førkunnskap.
Vanskelig å forstå hva resultatene faktisk betyr!
Kompliserte modeller kan være nærmest
umulig å analysere med frekventistiske
metoder.
Du må ta stilling til om noe er fundamentalt
stokastisk eller ikke.
Parameterusikkerhet er en separat oppgave du
må gjøre etter estimering.
Frekventistisk estimering kan inneholde ”bugs”,
sett i vannføringskurve-estimering.
Bayesiansk vs frekventistisk –
det pragmatiske aspektet
Når modellkompleksiteten er under en hvis terskel, er frekventistisk
metodikk enklest. Over terskelen blir det enklere med Bayesiansk
metodikk.
Arbeid
Frekventistisk
Bayesiansk
Kompleksitet
Simulering og store talls lov
Anta du er interessert i egenskaper til fordelingen til en variabel
(sannsynligheter, forventning, varians, kvantiler etc.). Anta videre at du ikke
kan regne ut disse direkte. Det du derimot kan er enten å trekke direkte fra
variabelen eller du kan konstruere den fra variable du kan trekke fra.
Med mange trekninger (et ensemble) fra den variabelen du er interessert i,
kan du dermed estimere sannsynligheter, forventning, median, varians,
kvantiler og så videre.
Eks:
 Regne ut sannsynligheten for å få yatzi utledet fra en algoritme for
terningkast og omkast.
 Estimere sannsynligheten for en feilsituasjon i innkjøringssystemet ut ifra
feilraten til enkelt-komponentene og kunnskap om hvordan de samhandler.
 Regne ut forventet vannføring fra et ensemble av vær-scenario med
spesifiserte sannsynligheter og/eller ut ifra like sannsynlige modeller.
 Finne egenskapene til en Bayesiansk a’ posteriori-fordeling (via MCMCtrekninger).
Monte Carlo-metodikk
Integral kan estimeres med trekninger, hvis du kan dekomponere det du
integrerer over i en fordeling og en annen funksjon:
I 
 E m ( x ) 
 h ( x ) dx   m ( x ) f ( x ) dxfordeling
f
Her står Ef for ”forventingen når vi bruker fordelingen f”.
Siden snitt kan brukes som estimat for en forventning, vil
I 
1
N
N
 m(x
(i)
)
der
x (i) ~ f ( x )
i 1
Eks: Man kan beregne  ved å trekke observere at arealet av en sirkel omsluttet av
rektangelet 0<x<1,0<y<1 er /4:
2

1 2
1 2 1 
1
   I  (x - )  ( y  )     dxdy 
4 -1 -1 
2
2
N
 2  

1 1
N

i 1
2

1 2
1 2 1 
I  (x (i) - )  ( y ( i )  )     der x

2
2
 2  

Tar man altså et hagleskudd inn i
rektangelet 0<x<1,0<y<1 og sjekker andelen
som faller innenfor sirkelen x2+y2<1, får
man altså noe som ca. er like /4.
(i)
, y ( i ) ~ U ( 0 ,1)
Monte Carlo-metodikk og Importance sampling
Importance sampling er en Monte Carlo-metode der man har valgt en såkalt
forslags-fordeling, g(x), selv.
I 
 h ( x ) dx   m ( x ) f ( x ) dx  
m ( x) f ( x)
g ( x ) dx 
g (x)
 m ( x) f ( x) 
1 N m ( x(i) ) f ( x(i) )
 
E g 
der x ( i ) ~ g ( x )

g ( x)
g ( x(i) )

 N i 1
Dette kan brukes til å søke ut en forslagsfordeling g som gjør variansen
(usikkerheten) til det beregnede snittet bedre. Teorien sier at desto mer g(x)
ligner på m(x)f(x) (opp til en multiplikativ konstant), desto bedre blir estimatet
(mindre usikkerhet).
Dette kan brukes i Bayesiansk sammenheng til å beregne marginalfordelingen (a’
priori prediksjonsfordeling til data), som brukes til å regne ut
modellsannsynligheter:
Valget av forslagsfordelingen vil avgjøre hvor effektiv denne estimeringen er (hvor
stor varians estimatet har). Desto nærmere forslagsfordelingen ligner h(x) (opp
til en normaliseringskonstant), desto mer effektivt blir det.
Bayesiansk statistikk – når parameter-inferens blir
vanskelig (MCMC)
Minner om Bayes formel (når vi ser på kun en modell):
f ( | D ) 
f ( D |  ) f ( )
f (D)
Marginalfordelingen: f ( D )   f ( D |  ) f ( ) d 
Denne rakkeren kan være problematisk. Ikke alle
integral har analytisk løsning.
Men, det finnes måter å sample (trekke) fra en fordeling, uten å kjenne til
konstantene (normaliseringen) i fordelingen, kun hvordan fordelingen
avhenger av det den er en fordeling av. f(D) er i dette tilfelle den ukjente
normaliseringskonstanten.
En Markov-kjede er en tidsserie der verdien ”nå” avhenger (kun) av forrige
verdi. Enkelte tidsserier stabiliserer seg slik at de har en fordeling som ikke
forandrer seg over tid, den såkalte stasjonærfordelingen.
Det er mulig å lage en tidsserie som er slik at den stasjonære fordelingen
er lik den fordelingen du er ute etter selv om du ikke har
normaliseringskonstanten. Dette kalles MCMC (Markov chain Monte Carlo).
WinBUGS er et system som muliggjør automatisk MCMC-sampling gitt
modell, a’ prior-fordeling og data. (Alt: Egen MCMC-modul i R).
Bayesiansk statistikk – mer MCMC
Generelt går en MCMC rutine slik:
1. Lag et startforslag for parameterne, gammel.
2. Finn en måte (en forslagsfordeling*) å trekke ny parameterverdi gitt
gammel og bruk den: ny~g(ny| gammel)
f ( ny | D )
g ( ny |  gammel )
/
3. Aksepter ny trekning med sannsynlighet
f ( gammel | D ) g ( gammel |  ny )
og bruk gammel trekning hvis ikke.
Merk: Normaliseringer
4. Gå tilbake til 2 så mange ganger du vil.
bortfaller
spacing
Burn-in
* Forslagsfordelingen bestemmer hvor effektiv algoritmen er.
Viktige begreper:
Burn-in: antall
trekninger før tidsserien
nærmer seg stasjonær
fordeling
Spacing: antall
trekninger mellom hver
du kan beholde som ca.
uavhengig trekning. Har
her fått ca 5 uavhengige
trekninger
Prosesser og fordelinger –
rekapitulering
 Uavhengighet er en veldig behagelig egenskap til en prosess.
x1
x2
x3
x4
x5
…..
x6 …..
xn
f ( x1 , x 2 , x 3 , x 4 , x 5 , x 6 ,  , x n ) 
n
f ( x1 ) f ( x 2 ) f ( x 3 ) f ( x 4 ) f ( x 5 ) f ( x 6 )  f ( x n ) 

f ( xi )
i 1
 Samlet fordeling blir da ganske enkel å regne ut, hvis man kjenner
fordelingen til enkelt-variablene. Er variablene likt fordelt blir det enda
enklere. Noen kjente fordelingsfamilier og analysemetoder er tilknyttet
uavhengige, likt fordelte variable via asymptotiske resultat.
 Eks. på asymptotiske resultat for uavhengige variable:
 Summen av n uavhengig, likt fordelte variable går (asymptotisk) i fordeling mot
normalfordelingen, N ( n  , n  ) , der  og  er forventning og standardavvik til
enkelt-variablene. Snittet går mot N (  ,  / n ).
 Maksimum/minimum av n uavhengige, likt fordelte variable går (asymptotisk) i
fordeling mot General Extreme Value (GEV)-fordelingen.
Spesifikke uavhengige variable
prosesser – Bernoulli-prosessen
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
I Bernoulli-prosessen tilhører utfallene to kategorier, gjerne kallt ’suksess’
(her illustrert med lyst blått) og ’feil’ (her illustrert med svart).
Eks:
Kasting av kron/mynt
Rødfarge-status på passerende biler.
Hvorvidt årsmaksimalen for en stasjon oversteg en gitt terskelverdi.
Inkorrekt: Regn-indikator på døgn-nivå..
i.
ii.
iii.
Siden utfallene er uavhengige, kan prosessen spesifiseres med en enkel
parameter, suksess-raten, p=Pr(xi=suksess).
Er det mer enn to kategorier, er prosessen multinomisk, og det trenges
flere parametre.
Spesifikke uavhengige variable
prosesser – Bernoulli-prosessen (2)
x1
x2
x3
x4
x5
x6
x7
x8
Teller du antall suksesser for n forsøk, får du
binomisk fordeling:
n x
n x
Pr( x | n , p )    p (1  p )
 x
I dette tilfelle, n=30,
p=0.3
Kan anta verdiene 0,1,2,…,n
x9
x10
Teller du antall forsøk til n’te feil, får du
negativ binomisk fordeling:
 n  x  1 x
n
 p (1  p )
Pr( x | n , p )  
x


I dette tilfelle, n=1 (geometrisk
fordeling), p=0.3
Kan anta verdiene 0,1,2,…
Spesifikke uavhengige variable
prosesser – Poisson-prosessen
t1
t2
t3
t4 t
Poisson-prosessen er Bernoilli-prosessens storebror, i det at den foregår
i kontinuerlig tid. Hendelsene er igjen uavhengig, med en sannsynlighet
for en hendelse i et lite intervall, t, lik t. Prosessen er altså
karakterisert ved en enkelt parameter, .
Eks:
i.
Antall bil-ulykker pr. år med dødlig utfall.
ii.
Antall kantareller på en sti (avhengighet kun for små områder,
ellers vil raten  forandre seg etterhvert).
iii. Antall ganger man overskrider et gitt vannføringsnivå innenfor et
tidsintervall.
(PS: Strengt tatt ikke uavhengig!)
Egenskaper: Starter vi fra et gitt tidspunkt, t, så er fordelingen for tid til
neste hendelser avhenger ikke av hvorvidt det var en hendelse på
tidspunkt t eller ikke. Prosessen er såkalt hukommelsesløs.
Spesifikke uavhengige variable
prosesser – Poisson-prosessen (2)
t4 t
t1
t2
t3
Fordelinger avledet fra denne prosessen:
Antall hendelser innenfor et Tid til neste hendelse fra et
intervall på størrelse T er
hvilket som helst
Poisson-fordelt:
utgangspunkt er
n
eksponensielt fordelt:
( T )
e
T
f (t )   e
n!
P(n)
 t
f ( t1 , t 2 ,  , t n | n , T )  1 / T
f(t)
I dette
tilfelle er
=10.
n
f(t1)
P ( N  n) 
De usorterte tidspunktene til
hendelser betinget på at det
er n hendelser innenfor et
intervall T er uniformt fordelt:
1
Her:
n=1, T=1
n
Antar ikke-negative heltallsverdier.
Merk, er  stokastisk og gammefordelt, blir
antall hendelser negativt binomisk fordelt.
t
Antar positive reelle verdier
0
Antar reelle verdier mellom 0 og T.
1
t1
Fordelingsfamilier tilknyttet generelle uavhengige
variable - Normalfordelingen
Sentralgrenseteoremet: Har man n identisk fordelte stokastiske bidrag i en
sum der  er forventingsverdien og  er standardavviket for hvert bidrag, vil
summen nærme seg en normalfordeling med forventingsverdi n og
standarddavvik n  når n går mot uendelig. Snittet vil dermed også gå mot
noe normalfordelt, med forventning  og standardavvik / n .
Matematisk ser den slik ut:
f ( x |  , ) 
 (x   )2
exp  
2
2

2 

1




Standard-normalfordelingen:
=0,=1
Fordelingsfamilier tilknyttet generelle uavhengige
variable - lognormal-fordelingen (skalastørrelser)
Når en størrelse er nødt til å være strengt positiv (massen til en person, volum i et
magasin, vannføringen i en elv), passer det ikke å bruke normalfordelingen.
En enkel måte å fikse dette på, er å ta en logaritmisk transformasjon på størrelsen.
Hvis en stokastisk variabel X>0, vil log(X) anta verdier over hele tall-linjen.
Antagelsen log(X)~N(,) gir også en fordeling for X, kalt den lognormale
fordelingen, X~logN(,).
f ( x |  , ) 
 (log( x )   ) 2
exp  
2
2

2  x

1




Hvis forventningen  øker, øker også
usikkerheten (standardavviket), men den
relative usikkerheten forblir konstant.
Fra sentralgrenseteoremet kan man argumentere
for at produktet av uavhengige likt fordelte positive variable går mot noe som er lognormalfordelt.
Fordelingsfamilier tilknyttet generelle uavhengige
variable - (invers) gamma-fordeling
Gamma-fordelingen er en annen fordeling for strengt positive
størrelser.
 1  x / 

f ( x |  , )  x e
/   ( )
Den har en matematisk form som er svært behagelig når man studerer
variasjons-parametre (summer av uavhengige kvadratavvik) og rateparametre (Poisson).
Den er dog ikke så enkel å bruke når man starter med et troverdighetsintervall og ønsker å finne fordelingen som passer med det.
Hvis X er log-normal-fordelt, er også 1/X det. Men hvis X er gammafordelt er 1/X invers-gammafordelt.
f (x | ,  )  x
  1
e
 / x

 /  ( )
Dette er ikke samme fordelingen, selv
om den kan se ganske lik ut.
Fordelingsfamilier tilknyttet generelle uavhengige
variable - Ekstremverdifordelinger (GEV)
Ekstremverdifordelinger er fordelingstyper som typisk vil være gode
tilnærmelser til fordelingen til ekstreme hendelser, under gitte
betingelser. Betingelsene vil angi hvilken fordeling det er snakk om.
Maksimum/minimum av en samling
uavhengige data over et
gitt tidsintervall. Eks: årsflommer
Her sier teorien det er GEV-fordelingen
som gjelder. Denne har tre parametre,
en som angir sentrering, en for
spredning og en angir formen.
f ( x |  , , ) 
1

t( x)
 1
e
t ( x )
x   1 / 

))
når   0
 (1   (
der t ( x )  

( x  ) /
 e
ellers (Gumbel)




Ekstremverdi-analyse
 Målet er å estimere T-års-ekstremen
(flommen). T-års-ekstremen er slik at
etter T år vil det i forventning være én
overskridelse av T-års-ekstremen. For
årlige ekstremer blir dette 1/T-kvantilen
til fordelingen disse verdiene.
 Data: Enten maksima/minima fra blokker
eller fra maksima/minima over/under
terksel.
 For maksima/minima fra årsblokker blir
dette klassisk gjort ved å estimere
ekstremverdi-fordelings-parameterne, og
hente 1/T-kvantilen derifra.
 Asymptotisk teori angir standardfordelinger hvis man har et sett maksima
over gitte (store) blokker med uavhengigeFordeling (svart), data (søyler), MLdata (GEV) eller over en gitt stor verdi
estimert fordeling (rød), Bayesiansk
(Pareto).
prediksjonsfordeling (blå).
Ekstremverdi-analyse-problemer
 Merk at sannsynligheten for å overstige en 100-års-flom på en 100-
års-periode ikke er 100%. Hvert år en sannsynligheten for
overstigning 1/T, som over T uavhengige år blir ca. lik 1-e-163.2%.
 Merk at forutsetningene for asymptotikken er brutt i NVE-data
(slettes ingen uavhengighet innenfor år).
 Merk at estimert T-års-ekstrem vil være det vi får fra å velge en
fordelingsfamilie, estimere parametre og beregne 1/T-kvantil fra
dette. Dette er ikke den egentlige T-års-ekstremen, fordi vi er
usikre på korrekt fordelingsfamilie og usikre på
parameterverdiene. Dette kan føre til skjevheter i estimert T-årsekstrem.
 Eks: Trekker man et datasett på 25 år trukket fra en Gumbel-fordeling med
tilfeldige parametre, vil ML-estimert 100-års-flom overstiges en av 65 ganger når
man trekker en ny årsmaks fra Gumbel-fordelingen. I praksis oppfører derfor
estimert 100-års-flom seg som en 65-års-flom. Det samme fås for L-momenter,
men ikke Bayesianske prediksjonsfordelinger tatt fra vag prior.
Ekstremverdi-analyse og ikkestasjonaritet
 En tidsserie er ikke-stasjonær hvis den fordelingen
til utfallene forandrer seg med tid. Dette er rimelig
å anta er tilfelle for vannføring og meteorologiske
tidsserier p.g.a. klimaendringer.
 I enkleste tilfelle kan endringene beskrives ved
parametriske sammenhenger. For eksempel ved 
1
x  

f
(
x
|

,

,

)

(
1


(
))
e
GEV-fordelingen


kan vi ha at parametrene forandrer seg linært i tid
( 1) /
 (1  (
x
))
1 / 
(Engeland, Hisdal, Frigressi 2005):  ( t )   0    t ,  ( t )   0    t ,  ( t )   0    t
 Mer avansert men mindre predikerbart:
som stokastiske prosesser.
 ( t ),  ( t ),  ( t )
Fordelingsfamilier tilknyttet generelle uavhengige
variable - Ekstremverdifordelinger (Pareto)
1. Maksimum over en gitt terskelverdi
Her sier teorien det er Pareto-fordelingen som gjelder. Denne har tre
parametre, en som angir terskelverdien, xm, en som angir skalaen  og en
som angir formen, k.
f ( x |  , xm , k ) 
1
(1 -
k
(x - x m ))


Pareto-fordelingen kan være
ekstremt tunghalet, det vil si at
sannsynlighets-tettheten avtar
veldig lite utover.
(Dette kan være problematisk for
forventing og standardavvik).
1/k -1
for x m  x (  x m   / k for k positiv)

similar documents