Presentatie Henry Kuipers - Platform Wiskunde Nederland

Report
Grote datasets
Henry Kuipers
Hogeschool Van Hall Larensteijn
Leeuwarden
Opbouw presentaties
• Voorbeelden “grote” datasets
• Visualiseren van de relaties tussen de
variabelen d.m.v. een conceptueel model
• Verborgen variabelen en interacties tussen
variabelen
• Stappenplan om te komen tot een “best
passend model” met de voorspellers voor een
afhankelijke variabele (Bron: “Applied logistic
regression Hosmer & Lemeshow ” )
Voorbeelden grote datasets
• GIS (Geografische Informatiesystemen)
vegetatiekaarten,
hoogtekaarten
locatiegegevens (via zenders)
etc. etc.
• Internet
Klimaatgegevens
digitaal enquêteren (b.v. via fora)
• Gedigitaliseerde gegevens van organisaties
Voorbeelden “grote” datasets
• Stichting Hulphond Nederland
Welke factoren hebben in welke mate een
invloed op de uitval van aspirant hulphonden
tijdens het opleidingstraject?
Leeftijd afkeuring
Fase afkeuring
a) Plaats puptraining
b) Leeftijd plaatsing in gastgezin
c) Plaats aftraincentrum
d) Aantal maanden in gastgezin
e) Wisseling gastgezin
Trainingsomstandigheden
1
a) Ras
b) Geslacht
c) Fokker
d) Eigen fok of aangekocht
e) Aantal afgeleverde honden per fokker
f) Geslacht fokker
g) Vaderdier
h) Moederdier
i) Stamboom
Puptester
Puptest
Eigenschappen
2
Hond
Castratie leeftijd
3
Fysiek
Uitval
Begeleiding SHN
4
Gedrag
a) PupInstructeur
b) Geslacht pupinstructeur
c) Aftrainer
d) Geslacht aftrainer
Gastgezin
Ervaring gastgezin
7
Begeleider aspirant
hulphond in gastgezin
6
Situatie gastgezin
5
Legenda:
= reden van uitval
= exacte reden van uitval
a) Aantal hulphonden gehad
b) Aantal huishonden gehad
a) Geslacht
b) Leeftijd
c) Fulltime/partime thuis
a) Gezinssamenstelling
b) Kinderen <12
c) Kinderen >12
d) Honden in huis
e) Overige dieren in huis
= eigenschappen van uitval
= eigenschappen van de hond
= eigenschap waarvan
verwacht wordt dat deze van
invloed is
Voorbeeld “Stichting Hulphond”
Het bestand bestond uit 30 kenmerken
van 443 honden
=30*443=13290 gegevens
Voorbeeld “Stichting Hulphond”
Oorspronkelijk 29 voorspellers waarvan uiteindelijk 18
gebruikt voor onderzoek.
Van 11 voorspellers waren bepaalde klassen
ondervertegenwoordigd omdat voor de analyse die
gebruikt werd je minstens 30 honden per klasse nodig
had.
Bijvoorbeeld: 15 van de 443 honden hadden een
mannelijke trainer . Dit waren te weinig om het effect
van het geslacht van de trainer op uitval te bepalen.
Voorbeeld “Blanding’s turtles
Invloed van biotische en abiotische
factoren op het nest succes van het
Blanding’s schildpad
(Emydoidea blandingii)
Welke biotische en abiotische factoren hebben invloed op het nest succes van
het Blanding’s schildpad in Nova Scotia en hoe beïnvloeden ze het nest succes
Voorbeeld “Blanding’s turtles
Name
Year
Population
Location
Nest success
Biomass Hatchling Unit
Air temperature
Precipitation
Time of incubation
Time of emergence
Clutch size
Nest effort
CL
PL
Weight
*= except for missing cases
Factor
A-biotic
A-biotic
A-biotic
Biotic
Biotic
A-biotic
A-biotic
A-biotic
A-biotic
Biotic
Biotic
Biotic
Biotic
Biotic
Value
2000-2004
3=KNP// 4=ML
1=Inland// 2=Lakeshores
1=0 // 2=0,01-0,50 // 3=0,51-0,99 // 4=1
mean weight of hatchlings (grams) per nest
°C
mm
days
0= 0 days, 1= all other values*
number of eggs
0=0% 1=all other values*
Carapace length of adult female (cm)
Plastron length of adult female (cm)
Weight (g) of adult female
Type
Numeric
Numeric
Numeric
Numeric
Numeric
Numeric
Numeric
Numeric
Numeric
Numeric
Numeric
Numeric
Numeric
Numeric
Measure
ordinal
nominal
nominal
ordinal
scale
scale
scale
scale
ordinal
scale
ordinal
scale
scale
scale
Time of emergence was defined as the number of days elapsed between the date when the first hatchling emerged (date of first hatchling)
and the date when the last hatchling emerged (date of last hatchling).
Incubation time for each nest was defined as the number of days elapsed between oviposition (nesting date) and the emergence of the first hatchling
(date of first hatchling) (Standing et al., 1999).
Kejimkujik National Park (KNP) ; McGowan Lake (ML)
Het bestand bestond uit 14 kenmerken van
162 nesten =14*162= 2268 gegevens
No
2b
Relation
Location  Nesting
effort
8b
Air temperature 
biomass hatchling
unit
13
Body size F body
size H unit
Known
The slate substrate outcrops (inlands), in
which many of the turtles nest are
apparently difficult for the females to
nest in, resulting in increased effort
from the female, both in nest duration
and number of nest attempts.
The influence of the environment, like
air temperature, on the development in
embryonic turtles has been shown to
affect nesting survival, duration of
incubation, sexual differences, and size
and composition of hatchlings.
According to a study by Congdon
and van Loben Sels in 1990 in
Michigan (U.S.A). The linear
relationship of hatchling mass
(weight) with female parent size
(CL) was not significant. They found
this result not surprising because the
relationship of egg size to body size
was weak. They suggest that
variation in hatchling size caused by
differences in thermal and hydric
conditions of natural nests could
mask all but the strongest
correlations of hatchling size with
body size of females.
Hypothesis
Literature
Nesting effort differs
McNeil 2002
per nesting location
with a higher nesting
effort of females
nesting inlands than at
lakeshores.
There is a significant
Bull and Vogt, 1979;
positive relation
Packard et al., 1980,
between air
1981; Gutzke, 1984.
temperature and body
size of hatchlings.
There is a positive
Congdon and van
linear relation between Loben Sels, 1990;
body size of adult
Packard et al. 1982
females and body size
of hatchlings.
Conceptueel model
Via een conceptueel model kun je
grafisch weergeven hoe de variabelen
onderling samenhangen
Zoek literatuur om je verwachtingen te onderbouwen
Modelontwikkeling
Waarom kun je niet simpel via een enkelvoudige
analyse bepalen welke voorspellers
(onafhankelijke variabelen) van invloed zijn op
de afhankelijke variabele?
• Verborgen (confounding) variabelen
• Interactie tussen de onafhankelijke variabelen
Verborgen variabelen
• Via een enkelvoudige analyse heb je bepaald dat
mannen significant gemiddeld meer verdienen dan
vrouwen.
• Het blijkt dat de mannen in de steekproef gemiddeld
ouder zijn dan de vrouwen
• Ook geldt dat hoe ouder men is des te meer men
verdient.
• Dan kun je je afvragen of de gevonden relatie tussen
geslacht en inkomen niet veroorzaakt wordt door het
feit dat de vrouwen in de steekproef gemiddeld jonger
zijn.
Verborgen variabelen
Dus bij het bepalen van de relatie tussen geslacht en
inkomen zou leeftijd een verborgen variabele kunnen
zijn.
Een variabele kan alleen een verborgen variabele zijn
als:
1. De variabele van invloed is op de afhankelijke
variabele (dus leeftijd moet invloed hebben op inkomen)
2. De verdeling van de verborgen variabele is niet
gelijk voor elke waarde van de onafhankelijke
variabele (ofwel de verdeling van leeftijd verschilt voor de beide
geslachten)
Interactie tussen 2 onafhankelijke variabelen
Uit enkelvoudige analyses blijkt dat
1. Opleiding heeft een significant invloed op besteed bedrag aan boeken (P <0,001)
2. Geslacht heeft geen invloed op besteed bedrag aan boeken (P=0,194)
Interactie tussen 2 onafhankelijke variabelen
Wat we hier zien is dat het
effect van geslacht op
besteed bedrag aan
boeken afhangt van de
opleiding (bij hoge opgeleiden zien
we een groot verschil tussen mannen en
vrouwen terwijl dit bij de ander 2
opleidingen niet zo is)
Er is dan sprake van een
interactie tussen opleiding
en geslacht wat betreft het
effect op besteed bedrag
aan boeken
Modelbouw
Doelstelling: te komen tot een “best” passend model
met voorspellers voor de afhankelijke variabele binnen
de wetenschappelijke context van het probleem
Men probeert vaak het aantal voorspellers te minimaliseren om zo een
numeriek stabiel model te krijgen .
Des te meer variabelen je in een model neemt des te meer het model
afhangt van de gebruikte data.
De verhouding tussen het aantal variabelen en de steekproefgrootte
moet dus niet te klein zijn
Selectie van variabelen
Er zijn geautomatiseerde methoden om tot een
eindmodel te komen met de “beste” voorspellers :
backward-, forward- of stepwise selectie; best subset
selectie (aantal mogelijke subsets = 2 − 1, met k het aantal voorspellers).
Nadelen geautomatiseerde methoden:
Het eindmodel bevat niet de voor het onderzoek
belangrijke variabelen maar alleen maar irrelevante
controle variabelen.
De onderzoeker assisteert de computer om te komen tot
een eindmodel terwijl het natuurlijk het omgekeerde
moet gelden.
Stappenplan modelselectie “Hosmer & Lemeshow”
Stap 1:
• Voer een enkelvoudige analyse uit voor elke voorspeller.
• Selecteer de voorspellers die voor het onderzoek belangrijk zijn en alle andere
voorspellers (vaak controle variabelen) met een significantie P<0,25 (Bendel en Afifi
(1977))
Stap 2:
• Voer een meervoudige analyse uit met alle voorspellers die geselecteerd zijn uit stap 1
(=model1)
• Verwijder niet-significante controle variabelen (P>0,05) uit het model en voer opnieuw
een meervoudige analyse uit met de overgebleven voorspellers (=model2)
• Vergelijk het effect van elke variabele in model 2 met die van model 1.
Indien hier grote verschillen tussen bestaan moet je controleren of eerder verwijderde
variabelen teruggeplaatst moeten worden
Stap3:
• Indien je verwacht dat het effect van een voorspeller op de afhankelijke variabele
afhangt van een andere voorspeller voeg dan deze interactie aan het model toe en
bepaal de significantie. Doe dit voor elke interactieterm apart.
• Alleen interactietermen die biologisch belangrijk zijn en die een P<0,1 hebben
toevoegen aan het eindmodel.
Voorbeeld stappenplan
In hoeverre hangt het geboortegewicht van een baby af van
de levensstijl van de moeder?
levensstijl: wel/niet roken; wel/geen alcoholgebruik
controlevariabelen:
kenmerken baby: geslacht; eerstgeboren (ja/nee);
kenmerken moeder : lengte; gewicht; leeftijd; opleidingsniveau;
stad (Groningen/Rotterdam)
Voorbeeld stappenplan
Voorbeeld stappenplan
Variabele
waarden
meetschaal
type variable GLM
birth weight (gr)
ratio
Afhankelijke variabele
age mother (yr)
ratio
covariaat
length mother (cm)
ratio
covariaat
weight mother (kg)
ratio
covariaat
education level mother
1<Mavo 2=Mavo 3>Mavo
ordinaal
fixed factor
smoking mother
0=No 1=Yes
nominaal
fixed factor
use of alcohol mother
0=No 1=Yes
nominaal
fixed factor
sex child
0=Boy 1=Girl
nominaal
fixed factor
parity
0=First Born 1 Not First Born
nominaal
fixed factor
city
0=Groningen 1=Rotterdam
nominaal
fixed factor
Voorbeeld stappenplan (stap 1)
Variabele
birth weight (gr)
age mother
gebruikte enkelvoudige toets
enkelvoudige lineaire regressie -2,1±5,7 gr/yr (1)
0,714
weight mother (kg)
enkelvoudige lineaire regressie 10,7±2,0 gr/kg (1)
<0,001
length mother (cm)
enkelvoudige lineaire regressie 14,1±3,6 gr/cm (1)
<0,001
education level mother
variantie analyse
0,275
smoking mother
use of alcohol mother
sex child
parity
city
t-toets 2 onafh. steekproeven
t-toets 2 onafh. steekproeven
t-toets 2 onafh. steekproeven
t-toets 2 onafh. steekproeven
t-toets 2 onafh. steekproeven
1) richtingscoëfficiënt
2) gemiddelde verschil groep=0 en groep=1
3) gemiddeld verschil < MAVO en =MAVO
4) gemiddelde verschil <MAVO en >MAVO
5) gemiddelde verschil =MAVO en >MAVO
coëfficiënt (±se)
-96,2±60,5 gr (3)
-73,4±58,8 gr (4)
22,9±48,7 gr (5)
77,4±49,6 gr (2)
-61,1±50,0 gr (2)
93,3±43,4 gr (2)
-160,9±42,8 gr (2)
98,4±43,3 gr (2)
significantie
0,119
0,223
0,032
<0,001
0,023
Voorbeeld stappenplan (stap 2)
Voorbeeld stappenplan (stap 2)
Tests of Between-Subjects Effects
Dependent Variable: birth weight (gr)
Source
Corrected Model
Type III Sum
of Squares
df
Mean Square
10903558,1a
F
Sig.
7
1557651,156
9,013
,000
Intercept
1480790,655
1
1480790,655
8,568
,004
smoking
810313,039
1
810313,039
4,689
,031
sex
1165878,706
1
1165878,706
6,746
,010
parity
2099681,041
1
2099681,041
12,150
,001
usealc
287066,888
1
287066,888
1,661
,198
city
419044,057
1
419044,057
2,425
,120
weigthm
3337435,068
1
3337435,068
19,312
,000
lengthm
545224,353
1
545224,353
3,155
,076
Error
69127606,4
400
172819,016
Total
5125955500
408
Corrected Total
80031164,5
407
a. R Squared = ,136 (Adjusted R Squared = ,121)
Voorbeeld stappenplan (stap 2)
Variabele
coëfficiënt (±se)
enkelvoudig
model
sign.
age mother
-2,1±5,7 gr/yr
0,714
length mother (cm)
14,1±3,6 gr/cm
<0,001
6,7±3,7 gr/cm
0,076
weight mother (kg)
10,7±2,0 gr/kg
<0,001
9,5±2,2 gr/kg
<0,001
education level mother
smoking mother
(±se)
GLM1
sign.
-
0,275
-
77,4±49,6 gr
0,119
102,6±47,4 gr
0,031
-61,1±50,0 gr
0,223
-62,5±48,5 gr
0,198
93,3±43,4 gr
0,032
108,2±41,7 gr
0,010
-160,9±42,8 gr
<0,001
-144,2±41,4 gr
0,001
98,4±43,3 gr
0,023
66,3±42,6 gr
0,120
(groep nee – groep ja)
use of alcohol mother
(groep nee – groep ja)
sex child
(boy – girl)
Parity
(eerstgeborene- niet 1e geborene)
City
(groningen-rotterdam)
Voorbeeld stappenplan (stap 2)
Voorbeeld stappenplan (stap 2)
Variabele
coëfficiënt (±se)
enkelvoudig
model
sign.
age mother
-2,1±5,7 gr/yr
0,714
length mother (cm)
14,1±3,6 gr/cm
<0,001
6,7±3,7 gr/cm
0,076
-
-
weight mother (kg)
10,7±2,0 gr/kg
<0,001
9,5±2,2 gr/kg
<0,001
11,0±2,0 gr/kg
<0,001
education level mother
smoking mother
(±se)
GLM1
sign.
coëfficiënt (±se)
GLM2
-
0,275
sign.
-
-
-
77,4±49,6 gr
0,119
102,6±47,4 gr
0,031
102,4±47,5gr
0,032
-61,1±50,0 gr
0,223
-62,5±48,5 gr
0,198
-88,0 ±47,4
0,064
93,3±43,4 gr
0,032
108,2±41,7 gr
0,010
117,0±41,6 gr
0,005
-160,9±42,8 gr
<0,001
-144,2±41,4 gr
0,001
-140,5±41,5 gr
0,001
98,4±43,3 gr
0,023
66,3±42,6 gr
0,120
-
-
(groep nee – groep ja)
use of alcohol mother
(groep nee – groep ja)
sex child
(boy – girl)
Parity
(eerstgeborene- niet 1e geborene)
City
(groningen-rotterdam)
Voorbeeld stappenplan (stap 3)
Interactie
sign.
alleen hoofdeffecten (GLM2)
R2adj
0,112
smoking mother*use alcohol
0,790
0,110
smoking mother* parity
0,255
0,112
smoking mother* weight mother
0,838
0,110
smoking mother* sex child
0,789
0,110
use alcohol*sex
0,931
0,110
use alcohol*parity
0,378
0,111
use alcohol* weight mother
0,995
0,110
sex child *parity
0,554
0,110
sex child* weight mother
0,824
0,110
parity*weight mother
0,023
0,121
Voorbeeld stappenplan (stap 3)
Voorbeeld stappenplan (stap 3)
Veel voorkomende problemen
• multicollineariteit (sterke relaties tussen de voorspellers). Deze zorgt
voor hogere waarden van de standaard errors van de coëfficiënten van de voorspellers in het
model waardoor deze minder snel significant van nul verschillen.
• Factoren waarbij bepaalde klassen ondervertegenwoordigd zijn.
• Covariaten waarbij je niet over het hele bereik waarnemingen
hebt.
• Covariaten die een heel scheve verdeling bezitten.
• Niet lineaire relaties tussen de voorspeller (covariaat) en de
afhankelijke variabele.
• Afhankelijke waarnemingen of meerdere waarnemingen aan 1
subject
• Uitbijters (outliers)
• Niet voldoen aan de eisen van de multivariate techniek (ook vaak
het gevolg van bovenstaande problemen)

similar documents