Document

Report
Pertemuan IV
•
•
•
•
•
•
•
Review Hubungan antar tiga Variabel atau lebih
Breslow Day & CMH Test
Pengenalan tentang GLM
Komponen GLM
GLM untuk Data Biner
GLM untuk Data Frekuensi
Inferensia pada GLM
Review Hubungan antar tiga Variabel atau lebih
Dalam keseharian, fenomena yang terjadi dan menarik untuk diteliti melibatkan
sejumlah besar variabel
Contoh:
• Apakah terdapat hubungan antara ras pelaku kejahatan, ras koraban dan
hukuman yang diberikan?-> contoh di Buku Agresti
• Apakah ada hubungan antara pendidikan, jenis kelamin KRT dengan tingkat
kesejah teraan Rumah Tangga?
• Apakah ada hubungan antara wilayah tempat tinggal,sektor usaha dan
kelangsungan usaha informal?
• Apakah hubungan antara jenis kelamin, pendidikan dan afiliasi politik?
Review Hubungan antar tiga Variabel atau lebih(2)
Apakah terdapat hubungan antara ras pelaku kejahatan, ras koraban dan
hukuman yang diberikan? -> contoh di Buku Agresti
Analisis dilakukan melalui penyederhanaan tabel, menjadi tabel Parsial dan
tabel Marjinal
Partial Table & Conditional Association
•
•
•
Merupakan tabel yang lebih sederhana yang menyajikan informasi 2 variabel
kategorik yang dikontrol melalui variabel ketiga
Digunakan untuk menguji hubungan antara 2 variabel dengan kondisi variabel ketiga
bernilai tertentu
Ukuran asosiasi ini disebut dnegan asosiasi bersyarat atau conditional association,
disajikan dengan nilai conditional odds ratio ataupn juga melalui Uji Chi-Square
Contoh partial table dari Tabel 2.6
Nilai COR untuk Ras Korban= Putih adalah 0.43, dan Ras Korban= Hitam adalah 0,
keduanya menunjukkan pelaku ras hitam lebih cenderung untuk dihukum
Marginal Table & Marginal Association
•
•
•
Merupakan tabel yang lebih sederhana yang menyajikan informasi 2 variabel
kategorik tanpa memperhatikan kondisi vraibel ketiga
Digunakan untuk menguji hubungan antara 2 variabel
Ukuran asosiasi ini disebut dnegan asosiasi bersyarat atau marginal association,
disajikan dengan nilai marginal odds ratio ataupn juga melalui Uji Chi-Square
Contoh marginal table dari Tabel 2.6
Nilai MOR (tanpa mempedulikan ras dari korban ), adalah 1,45
menunjukkan pelaku dengan Ras putih lebih cenderung untuk dihukum
Marginal VS Conditional Association
Nilai Odds Ratio dari masing-masing asosiasi, dapat dihitung dengan menggunakan tabel
2X2
Indikasi asosiasi:
• Jika nilai MOR = 1, mununjukkan tidak ada asosiasi antar variabel marjinal pada tabel
atau Marginal independence
• Jika nilai MOR ≠ 1, mununjukkan ada asosiasi antar variabel marjinal pada tabel atau
Marginal dependence
• Jika nilai COR = 1, mununjukkan tidak ada asosiasi antar variabel marjinal pada tabel
atau Marginal independence
• Jika nilai COR ≠ 1, mununjukkan ada asosiasi antar variabel marjinal pada tabel atau
Marginal dependence
Namun kondisi Marginal tidak berimplikasi pada kondisi partial atau sebaliknya,
HASILNYA:
Marginal VS Conditional Association (2)
Kondisi Marginal tidak berimplikasi pada kondisi partial atau sebaliknya, HASILNYA:
SIMPSON’S PARADOX:
Perbedaan arah asosiasi antara dua variabel, jika variabel ketiga bernilai tertentu
(bersyarat kondidi variabel ketiga)
Bentuk Hubungan antara 3 Variabel
Guna mengkaji hubungan antara 3 variabel, maka kan terdapat 9 kemungkinan model
hubungan yaitu:
• Complete Independence (X,Y,Z)
• 2 Variabel berhubungan dnegan variabel ketiga (XY,Z); (X,YZ); (XZ,Y)
• Conditional Independence (XY,YZ); (XY,XZ); (XZ,YZ)
• Homogeneous Association (XY,XZ,YZ)
• Saturated (XYZ)
Menguji Homogenous Association pada Tabel 3 Arah
Homogenous Association dan Pengujiannya
Hubungan antara variabel X, Y dan Z ,merupakan asosiasi homogen jika:
Menyatakan:
• Tidak ada efek interaksi antara 2 variable, berdasakan level pada variabel ke3
• Tidak ada interaksi 3 variabel
• Cond. Indep. merupakan contoh khusus dari asosiasi homogen
• Jika salah satu dari syarat diatas tidak terpenuhi, maka cond. Odds ratio bergantung
pada kategori variabel ke3
Homogenous Association dan Pengujiannya (2)
Pengujiannya menggunaan Breslow Day Test, dengan hipotesis:
Ho : Terdapat asosiasi homogen (tidak ada interaksi 3 arah)
H1 : Tidak Terdapat asosiasi homogen (ada interaksi 3 arah)
Jika Ho tidak ditolak, berarti terdapat asosiasi homogen dan atau conditional asosiasi
Statistik uji:
Conditional Association dan Pengujiannya
Pengujiannya menggunaan Cochran-Mantel-Haenszel (CMH) Test, dengan
hipotesis:
Ho :
Jika Ho ditolak, berarti minimal terdapat satu nilai conditional odds ratio yang tidak
sama dengan 1, atau ada conditional association
Statistik Uji:
r

2
CMH


k 1
 11 k  E  n11 k  
n11 k
  11 k
2
~ 
2
df 1
Var ( n 11 k )
n1  k n  1 k
n k
Var  n11 k  
n1  k n  1 k n 2  k n  2 k
n k
2
n   k
 1
Contoh:
• Tabel berikut menunjukkan status kematian bayi (one month
survival status) yang diklasifikasikan menurut perawatan ibu
bayi selama hamil (amount of prenatal care). Hasil ini diperoleh
dari 2 buah klinik yang digabungkan.
Status kematian bayi
Tingkat
perawatan
ibu
Total
Total
ya
tidak
Kurang
20
373
393
cukup
6
316
322
26
689
715
• Klinik 1
Status kematian bayi
Tingkat
perawatan
ibu
ya
tidak
Total
Kurang
3
176
179
cukup
4
293
297
7
469
476
Total
• Klinik 2
Status kematian bayi
Tingkat
perawatan
ibu
Total
ya
tidak
Total
Kurang
17
197
214
cukup
2
23
25
19
220
239
Uji Hipotesis pada tabel Marjinal
• Ho: tidak ada hubungan antara tingkat perawatan ibu
selama hamil dan status kematian bayi dalam 1 bulan dari
kelahirannya
• H1: terdapat hubungan antara tingkat perawatan ibu
selama kehamilan dan status kematian bayi dalam 1 bulan
dari kelahirannya
• Hasil: Pearson chi-square = 5.255, tolak Ho. Terdapat
hubungan antara tingkat perawatan ibu hamil dengan
status kematian bayi.
Output :
• Karena hasil uji hipotesis antara tabel marjinal dengan
tabel parsial memberikan hasil yang berbeda, maka
variabel klinik merupakan faktor pengganggu
• Uji Breslow-Day
Ho: Terdapat asosiasi homogen
H1: Tidak terdapat asosiasi homogen
Hasil: statistik uji: Uji Breslow-Day, p-value = 0.834(>), Tidak
mampu menolak Ho.
Terdapat asosiasi homogen
Output :
Output :
Analisis CMH test
• Ho: tidak ada hubungan antara
tingkat perawatan ibu selama hamil
dan status kematian bayi dalam 1
bulan dari kelahirannya
• H1: terdapat hubungan antara
tingkat perawatan ibu selama
kehamilan dan status kematian bayi
dalam 1 bulan dari kelahirannya
Analisis Mantel-haenszel
• P-value dari odds ratio Mantel-haenszel (
=  ) = 0.846 (> = 0.05). Tidak mampu menolak
Ho, tidak terdapat hubungan antara tingkat perawatan ibu
hamil dengan kematian bayi.
•  =1.114, CI dari 0.376-3.298 (melewati 1).
Linear Model
Terdapat tiga asumsi pada model linier:
•Linier pada parameter
•Error nya additive
•Error memiliki 0 mean, varians yang sama, dan tidak berkorelasi
Pada pengujian hipotesis, asumsi bahwa error berdistribusi normal juga diperlukan
Ketiga asumsi di atas dapat digunakan untuk membuat model
Jika asumsi tidak terpenuhi , maka
• Gunakan model non-linier
• Pendekatan mixed model
• Terutama jika error memiliki varians yang sama, maka Generalized Linier Model
solusinya (dapat digunakan pada banyak distribusi)
Generalized Linear Models
• Generalisasi fleksibel dari OLS yang menghubungkan distribusi acak predicted
variable (fungsi distribusi) ke komponen sistematis (fungsi linier predictor)
melalui fungsi penghubung yang disebut fungsi link.
• GLMs adalah cara memperluas model linier untuk menangani observasi dari
berbagai distribusi (yang tidak berdistribusi normal)
• Jika distribusi observasi/variabel respon berasal dari keluarga exponential dan
nilai mean nya berdistribusi linier pada parameter maka GLMs bisa digunakan
• Tiga komponen GLMs, yaitu:
1. Komponen Random
2. Komponen Sistematik
3. Fungsi Penghubung
Komponen Acak/Random
Merupakan komponen yang berisi variabel respon Y dengan obsvasi saling bebas (Yi, i=1,2,3,…,N)
dengan distribusi dari dependent variable (Y) yang berasal dari keluarga exponential: Normal,
Binomial, Multinomial, Chi-square, Exponential, Poisson
Fungsi kepadatan peluang (pdf) dari Keluarga distribusi eksponensial dapat dituliskan sebagai:
  ;  =        
Berbagai komponen acak:
• Berdistribusi normal dan memiliki standard deviasi yang konstan- Model regresi (yang sudah
dipelajari).
• Binary outcomes (Success or Failure)- komponen random memiliki distribusi Binomial dan
modelnya disebut Logistic Regression.
• Count data (jumlah kejadian pada area tertentu dan/atau periode waktu – Komponen random
memiliki distribusi Poisson dan modelnya disebut Poisson Regression
Ketika Count data memiliki V(Y) > E(Y), model yang sesuai bisa berupa Negative Binomial
Regression
• Continuous data dengan distribusi yang menceng dan varians yang bertambah dapat
dimodelkan dengan distribusi Gamma
Komponen Sistematik
• Menspesifikasikan informasi tentang variabel independent di
dalam model
•
Merupakan komponen yang menghubungkan vektor η (η1,…,
ηN) ke variabel bebas melalui model linier, yaitu:
η = Xβ
 =
  
Dengan  menyatakan nilai variabel bebas j untuk amatan ke-i
Fungsi Penghubung
Merupakan fungsi yang menghubungkan komponen acak dan komponen sistematik
Misal  =   ;  = 1,12, … . , , maka model menghubungkan  dengan 
Jadi fungsi penghubung g menghubungkan   ke variabel penjelas melalui
rumusan:
( ) =
  
Fungsi Penghubung (2)
• Identity link (digunakan dalam normal and gamma regression models):
g ( )  
• Log link (ketika m tidak boleh negatif , seperti ketika data berupa
Poisson counts):
g (  )  log(  )
• Logit link (ketika m dibatasi antara 0 and 1 seperti pada data biner):
 
g (  )  log 
1 



GLMs
• Model logit binomial untuk data biner (bin(1,1)):
• Model logit log linear untuk data hitung (Poisson):
GLMs (2)
Distribusi Binomial: logistic Model
• Jika hasil percobaan berdistribusi binomial (outcome nya 0/1, gagal/sukses), maka
logistic model bisa dipakai.
  = 1 =     = 0 = 1 − ,    = 
•Probability mass function:
 ;  =   (1 − )1− = (1 − )[/(1 − )]
=(1 −

)exp(ylog
)
1− 
Untuk y = 0 dan 1
Distribusi Binomial: logistic Model (2)
• Probability
mass function keluarga eksponensial:
  ;  =     exp[ ( )]
•Jika  adalah , ()=1-  , b(y)=1 dan Q( )=log[ /1-  ]
Natural parameter log[ /1-  ] adalah log odds pada response 1 logit .
Merupakan link kanonik
•GLMs menggunakan logit link disebut Model Logit
•Jika logit() sudah diestimasi maka bisa dicari nilai  dan nilai  selalu
antara 0 dan 1
•Jika peluang sukses lebih besar dari peluang gagal maka fungsi ini akan
positif, demikian pula kebalikannya
Distribusi Binomial: logistic Model (3)
• Mengubah
letak sukses dan gagal hanya akan mengubah tanda dari fungsi
tsb
•Fungsi tersebut adalah log of odds
•Jika logit () adalah linier maka  bisa dicari:
•Logistic model bisa digunakan untuk data grup maupun individu
•Rasio dari probabilita sukses terhadap probabilita gagal disebut odds
Distribusi Poisson: log linier Model
• Variabel respons adalah count data, contoh: jumlah komponen rusak dalam setiap hari
produksi mikrochip
•Count data juga sering digunakan sebagai entrian pada tabel kontingensi
•Distribusi yang sederhana untuk count data adalah Poisson
•Count data akan berupa non negative integer value
•Jika Y adalah count data,  =  
•Poisson probability mass function untuk Y:
 −  
 ;  =
= exp −
!
 = 0,1,2, …
1
exp  ,
!
Distribusi Poisson: log linier Model(2)
• Fungsi tersebut merupakan bentuk natural :
(_;_ )=(_ )(_ )exp[_ (_)]
Dengan =, ()=exp(−), ()=1/!  ()=log 
•Natural parameter adalah log , sehingga kanonik link pada fungsi ini adalah log link,
=log
•Model menggunakan link ini adalah
 =
  ,  = 1, … 

model ini disebut Model Loglinier Poissson
• Jika distribusi observasi adalah Poisson, maka log-linier model bisa digunakan.
(fungsi rata-ratanya adalah logaritma)
Ketika outcome-nya berupa frekuensi , ketika dilakukan fitting model, estimasi rata-rata
dengan fungsi eksponensial adalah:
Generalized Linear Models:
sesuai untuk hubungan non linier menggunakan
link function dan mempertimbangkan non
normal error
Logistic function
Binomial distribution
1
40
30
0.5
20
10
0
-1
0
1
0
2
Reciprocal function
Poisson distribution
2
30
1.5
20
1
10
0.5
0.5
1
1.5
90 91 92 93 94 95 96 97 98 99100
2
0
0 1 2 3 4 5 6 7 8 9 10
Latihan:
Bagian pengadaan barang di suatu universitas ingin memperbarui
laptop dosen. Dilakukan sebuah study di fakultas A untuk meneliti
apakah ada hubungan antara jenis kelamin dosen dengan pilihan
laptop.Hasilnya adalah sebagai berikut:
Laptop
F
P
JK
Total
Total
L
7
2
9
P
5
6
11
12
8
20
Berikan kesimpulan berdasarkan output berikut:
Output :
Latihan:
Pada suatu case control study untuk mengetahui hubungan antara jenis kelamin
(JK) dengan tekanan darah (TD). Dicurigai obesitas adalah faktor pengganggu
dalam kasus ini.
Hasil tabulasi silang adalah seperti pada output. Berdasarkan output tersebut,
• Untuk tabel total:
a) Ujilah apakah ada hubungan antara Jk dengan TD
b) Berapa nilai OR setimasi dan intepretasikan
• Untuk tabel strata:
a) Buatlah tabel kontingensi 2x2
b) Lakukan analisis apakah uji Mantel Haenszel layak digunakan
c) Berikan kesimpulan anda mengenai hubungan antara JK dengan TD

similar documents