Document

Report
의학자료분석론
• 교재: 강의록
• Rosner B, Fundamentals of Biostatistics, 7th ed.
Brooks/Cole Cengage Learning, Canada, 2011.
• 강의
• 평가:
– 출석 20%
– 숙제 30%
– 기말고사 50%
1
의학연구에서의 통계학의 의의
• 환자 진료 시 필요한 정보들 (예: 진단방법 평가,
정상치 판정, 환자 모니터 등)을 객관적으로 수집,
분석하게 한다.
• 의학연구 시 연구설계에서부터 자료 분석까지
통계학적 지식이 요구된다.
• 의학논문 사독 시 비판적 해석 능력을 갖게 한다.
2
강의 목표
• 의학연구자료를 가장 적절하게 분석할 통계적 방법
이 무엇인지 안다.
• 흔히 사용되는 통계방법의 결과들을 해석할 줄 안다.
• 의학논문을 읽을 때 통계적 오류의 가능성을 알아본
다.
• 기본적인 통계분석을 수행할 줄 안다 (by manual or
by using the statistical packages).
• 또한 어떨 때 통계전문가에게 의뢰해야 하는지 판단
할 줄도 안다.
• 통계 프로그램의 작동법의 기초를 익힌다.
3
통계의 종류
• 기술통계 (Descriptive Statistics)
• 통계적 추론 (Statistical Inference)
4
기술통계 (Descriptive Statistics)
• 자료의 요약 및 정리(Ways of organizing and
summarizing a collection of numbers)
• 기술통계를 통해 어떤 표본에서 측정된 수치들
이 다양성을 가지면서도(variable) 그 가운데 일
정성(regularity)을 갖고 있음을 파악하게 된다.
• 기술통계에 쓰이는 방법 – 그래프, 표, 수적 요약
지표(평균, 표준편차 등)
5
통계적 추론 (Statistical Inference)
• 한 표본에서의 관찰을 통해 그 표본이 대표하는
모집단에 관한 결론을 이끌어내는 방법이다.
• 즉, 모집단 전체를 관찰할 시간과 재원의 마련이
불가능하기 때문에 사용되는 기술이다.
• 통계적 추론이 어디에 근거해서 이루어질 수 있
는지 이해하기 위해 우선 기본적인 확률론 및 확
률분포에 관해 알아야 한다.
6
모집단과 표본
• 모집단 (population)
– 정보를 얻고자 하는 대상집단 전체.
– 모수 (parameter) 를 얻는다.
•
• 표본 (sample)
– 모집단을 대표할 수 있는 일부 집단
– 무작위추출 (random sampling) 이 필
요
– 통계량 (statistic) 을 얻는다.
7
모집단(population) 과 표본(sample)
표본량,
검정통계량
모수, 참값
σ2
s2
8
모집단과 표본의 기호
모집단
표본
평균

x
표준편차

s
분율

p
상관계수

r
회귀계수

b
숫자

n
9
자료의 척도
명칭척도 (nominal data) 는 가장 간단한 형태의
자료이며 값들은 순서가 없는 범주 중 어디에 속
하는지를 나타낸다.
예) 성별 – 남, 여
혈액형 – O, A, B, AB
국적 – 한국, 중국, 일본…
질병분류 – C50.9(유방암), C16.0(위암)
명칭척도가 2개의 값 만을 가질 때 양분성 자료
(dichotomous or binary data) 라고 부른다.
수치로 입력 가능 – 사칙연산은 불가
10
순위척도 (ordinal data) 는 범주형 변수이나 상대
적 크기에 따른 순위를 매길 수 있다.
예) 신체손상정도 – minor, moderate, severe
순위척도도 숫자로 표현되나 그 크기는 수학적 의
미가 없다.
명칭척도와 순위척도를 합쳐 범주형자료
(categorical data) 라 부른다.
11
이산 변수 (discrete data or interval data) 에서
는 순서와 크기가 모두 중요하다.
변수의 값은 범주만을 나타내지 않고 실제로 측정
될 수 있는 크기의 값을 나타낸다.
그러나 이 척도는 정수 값이나 빈도 값 (count) 같
은 특정한 값만을 갖게 된다.
예) 출산 수
서울지역 8월 1달간 교통사고 건수
연간 기형아 출산 수
이산 척도에서는 덧셈, 뺄셈, 곱셈이 가능하다.
12
연속 변수 (continuous data) 는 값의 순서와 크기
가 모두 중요하면서 가질 수 있는 값의 종류가
무한한 변수를 말한다.
임의의 두 값 사이에는 언제나 다른 값이 존재할
수 있다. – 측정도구의 정확도가 한계
예) 체중, 키
생존기간
물의 오염물질 농도
13
• 연속 변수로 측정해도 이보다 적은 양의 정보만
을 필요로 할 경우가 있다.
• 이런 경우는 연속 변수로 측정하고도 순위 척도
나 양분성 변수로 변환시킬 수가 있다.
• 이렇게 하면 분석은 간단해 지나 갖고 있는 정보
를 모두 활용하지 못하는 제한점이 있다.
14
• 연구 자료 수집 시 어느 정도의 정확도를 갖는
변수로 측정하느냐는 연구 가설에 전적으로 의
지한다.
•
• 가능한 한 정확도가 높은 방법으로 정보량이 많
은 척도로 측정하는 것이 좋다. 필요 시에는 언
제든지 더 간단한 형태의 변수로 변환이 가능하
기 때문이다.
15
2. 기술 통계
16
수적 요약 지표
• 자료 값들의 분포를 한마디로 나타내 주는 수치들을
말한다.
• 중심경향을 나타내는 측도 (Measures of location)
들은 표본자료가 어디에 가장 몰려있는지를 표시한
다.
– 평균 (mean)
– 중앙값 (median)
– 최빈값 (mode)
• 자료가 퍼져 있는 정도를 나타내는 측도들도 있다.
– 범위 (range)
– 사분위수간 범위 (interquartile range)
– 분산 (variance) 또는 표준편차 (standard deviation)
17
평균 (Arithmetic Mean)
• 표본자료의 중심을 나타내는 척도 중 하나이다.
• 각 측정치를 x1, x2, x3, …. x10 으로 표현하자.
• 평균 (mean) 은 다음과 같이 구한다.
x 
1
n

n

i 1
xi
( x1  x 2  x 3  ...  x n )
n
• 평균값은 극한값에 의해 크게 영향을 받을 수 있다.
18
중앙값 (median)
• 중앙값은 자료를 최소 수에서부터 최대 수까지 나열
했을 때 50번째 백분위수 (50th percentile) 이
다.(central point)
• 10명의 응급실 환자들에서 심박동수를 측정하였다.
40, 120, 120, 125, 136, 150, 150, 150, 150, 167
• 우선 자료를 작은 크기에서부터 큰 크기로 순서대로
정렬한다.
• 표본 수(n) 이 홀수이면, 중앙값은 [(n+1)/2] 번째 큰
수이다. 표본 수가 짝수이면 중앙값은 (n/2) 번째 수
와 [(n/2)+1]번째 수의 평균이다.
19
• 심박수 자료에서 표본수는 10으로 짝수이다. 따라서
중앙값은 5번째 수와 6번째 수의 평균이 된다.
(136  150 )
2
 143 회 / 분
• 중앙값은 평균 보다는 극한값에 의해 덜 영향을 받
는다. 이런 것을 robust 하다고 표현한다.
• 심박수 40을 제외하고 중앙값을 계산해 보자.
• 표본수가 9로 줄었으므로 중앙값은 (9+1)/2=5 번째
수이다. 즉 150회/분 이다.
20
왜도, 비대칭도 (skewness)
Mode
Median
Mean
평균이 작은 값들에 의해 영향을 받
는다.
예)상대습도
평균이 큰 값들에 의해 영향을
받는다.
예) 20대 여성에서 OC 사용기간
21
평균과 중앙값과의 관계
• 평균과 중앙값의 크기를 비교하여 분포의 대칭
성 여부를 가늠하기도 한다.
• 대칭적 분포: 평균=중앙값
• Positively skewed: 평균>중앙값
• Negatively skewed: 평균<중앙값
• Skewed 분포에서는 평균값보다 중앙값이 자료
를 더 잘 대표해 준다.
22
최빈값 (mode)
• 최빈값 (mode) 는 가장 많이 관찰된 값이다.
• 심박수 자료에서 최빈값은 4번이나 관찰된 150
회/분 이다.
• 연속변수로 측정된 자료는 최빈값을 가지는 경
우가 거의 없다. 또는 1개 이상의 최빈값을 가지
는 경우가 많다.
• 최빈값은 범주형 자료에 적절한 측도이다.
23
척도 Kurtosis
• 중심의 측도인
대변해 주지는
• 다음의 상이한
리고 최빈값을
한 값이 자료의 모든 특성을 다
못한다.
세 분포는 동일한 평균과 중앙값, 그
가진다.
• 따라서 자료의 변이도 혹은 퍼져있는 정도를 같이
얘기해 줘야 자료를 제대로 표현할 수 있게 된다.
24
자료의 변이도
• 자료의 퍼져있는 정도를 표시한다.
– 범위
– 사분위수간 범위
– 분산 및 표준편차
• 범위 (range)는 최대값에서 최소값을 뺀 것이다.
• 범위는 극한값에 의해 크게 변화한다.
25
사분위수간 범위
• 사분위수간 범위 (interquartile range:IQR) 는 75th
percentile 과 25th percentile의 차이이다.
• 25th percentile 을 계산하려면,
np/100=(10)(25)/100 = 2.5 (=k) 가 정수가 아니기
때문에 k(=2)+1 =3번째 큰 수이다. (=120)
• 75th percentile 은 큰 수에서부터 3번째 작은 수이
므로 150이다.
• 따라서 사분위수간 범위는 150-120=30회/분 이다.
• 사분위수간 범위(IQR)은 중간 50% 의 자료를 포함한
다.
26
분산 (variance), 표본분산 (sample
variance)
• 표본 분산은 평균을 중심으로 자료가 퍼져 있는 정
도를 계량화 한 것이다.
s 
2
1
n 1
n

i 1
( xi  x )
2
• 또 다른 공식은,
n
s 
2
[  xi ]  nx
2
2
i 1
n 1
• 심박수 자료에서 분산은,
10
s 
2
[  x i ]  10 (130 . 8 )
2
2
i 1
10  1
 1258 . 2 (회 / 분 )
2
27
표준편차 (standard deviation)
• 심박수 자료의 표준편차는,
s

s
2
1258 . 2 (회 / 분 )
2
 35 . 5회/ 분
• 표준편차는 평균처럼 측정치들과 동일한 단위를 갖
는 이점이 있다.
• 중앙값은 범위나 사분위수간 범위와 함께 잘 쓰인다.
• 평균은 표준편차와 같이 잘 쓰인다.
• 이산변수나 연속변수의 경우 수적 요약 지표보다 그
래프나 표가 자료의 요약에 더 효과적이다.
28
변이계수
• 변이계수 (coefficient of variation;CV) 는 평균과
표준편차 간의 관계를 표현해 준다.
s
CV     100 %
x
• 이는 평균에 대한 상대적인 변이를 나타낸다.
• 임상병리검사실 등에서 정도관리를 위해 2군데
이상에서 잰 동일한 검사의 측정값들을 비교할
때 사용된다.(정밀도)
• 측정 단위는 상쇄되어 없어진다.
29
평균값의 성질
• 측정치 x1, x2, x3, …., xn 이 있다고 하자.
(1) x의 각 값에 상수 c1를 더한 측정치 y1=x1+c1, y2=x2+c1,
y3=x3+c1, …. yn=xn+c1 이 있을 때, 이들의 평균은?
y i  x i  c1
y 
1
n

1
n

1
n

1
n
n

i 1
yi
n

i 1
( x i  c1 )

n

i 1
x i  nc 1

 
n

i 1
1
x i    ( nc 1 )
n
 x  c1
30
(2) x의 각 값에 상수 c2 를 곱한 측정치 yi
•
yi=c2*xi
• yi 값들의 평균은,
y 
1
n

1
n
n

i 1
yi
n

i 1
c2 xi
 1 n 
 c2
x
 n i 1 i 
 c2 x
31
• 이제 yi=c2xi + c1 인 경우에는 평균이
y 
1
n

1
n
n

i 1
yi
n

i 1
( c 2 x i  c1 )
 c 2 x  c1
32
분산의 성질
• xi 에 상수 c1을 더한 yi 의 경우,
y i  x i  c1
• 분산은 변하지 않는다.
sy  sx
2
2
• xi 에 상수 c2를 곱한 yi 의 경우,
y i  c 2 xi
• 분산은 s 2  c 2 s 2 이다.
y
2 x
33
줄기 잎 전시
• 줄기 잎 전시 (stem and leaf display) 는 히스토그램 대
신 쉽게 그릴 수 있다.
• 각 구간 내에서 개개 측정값의 위치를 파악할 수 있다.
• 방법
1.
각 관측치를 줄기(stem) 부분과 잎(leaf; 맨 우측자리 수) 부분
으로 구별한다.
2.
가장 작은 줄기 수를 맨 위에 적는다.
3.
두 번째 줄기 수 (first stem +1).....
4.
가장 큰 줄기 수를 쓸 때까지 지속
5.
줄기 수 오른쪽으로 수직선을 긋는다.
6.
각 관측치들을 해당 줄기 오른쪽에 잎에 해당되는 숫자로 적는
다.
34
예) 124, 130, 130, 148, 149, 155, 163, 182
12 4
13 0 0
14 8 9
15 5
16 3
17
18 2
줄기 잎 전시
• 잎의 축적이 데이터의 전체적인 분포를 보여준다. 실측
치도 보여주면서 범주화된 분포도 보여준다.
• 중앙값과 사분위수를 계산할 수 있다
35
상자수염도 (Box and wisker Plot)
• 이산변수나 연속 변수의 분포를 1개의 수직 축
에 간편하게 나타낼 수 있는 방법이다. 자료를
전 부 다 나타내 주지는 못하나 비대칭성
(skewness) 을 알아내는데 편리하다.
• 우선 자료의 백분위 수 (percentile) 를 알아야 한
다.
• P 번째 백분위수는 p% 관측치 보다 크거나 같은
값 혹은 (1-p)% 관측치 보다 작거나 같은 값을
말한다.
36
• 총 n 개의 관찰치가 있다고 하자. 값들을 작은 것
에서 큰 것으로 순차적으로 나열하면 p 번째 백
분위수는,
1) np/100 이 정수가 아닌 경우 (k+1) 번째 큰 관
측치: k는 np/100 보다 작은 수 중 가장 큰 정수
2) np/100 이 정수인 경우 (np/100 ) 번째 수와
(np/100 +1) 번째 수의 평균
37
• 사분위수(percentile) : 25 백분위수, 75 백분위수
• Box의 가운데 줄: 50 백분위수 (=중앙값 median)
• 사분위수, 중앙값: 자료의 대칭성 판단
38
외딴값
• 외딴값 (outlying value) X 는 다음과 같이 정의할
수 있다.
1) X > 75th percentile + 1.5 * (75th –25th)
Or
2) X < 25th percentile – 1.5 * (75th – 25th)
• (75th – 25th) 는 바로 box 의 높이 이다.
• 외딴 값이 아니면서 가장 큰 혹은 가장 작은 값을 인
접값 (adjacent value) 라고 한다.
• Box 높이의 3배 이상 떨어진 값을 극외딴값
(extreme outlying values) 이라 부른다.
39
• Box plot 은 두 개 이상의 집단에서의 측정값의
분포를 쉽게 비교할 수 있는 장점이 있다.
40
3. 확률론
Probability
41
확률 (probability)
• 자료를 “기술”한 후에는 결론을 내리고 싶어한다.
• 1000명 중 4명이 질병에 걸린 경우와 1000명 중 5
명이 질병에 걸린 경우가 있다 하자. 이 두 경우는
같다고 보아야 하는가 아니면 다르다고 보아야 하는
가?
– 판단의 근거: 각 경우가 나타날 확률
• 확률은 관찰한 표본으로부터 얻어진 정보를 가지고
모집단의 특성에 관해 결론을 내리게 하는 근거이다.
• 가설검정이나 p-value를 해석하기 위해 확률에 관해
알고 있어야 한다.
42
사건 (event)
• 사건(event) 은 발생할 가능성이 있는 한 개의 결
과(outcome) 혹은 결과들의 집합체를 말한다.
– 50세 된 남성이 일생 동안 심장질환에 걸리는 사건
– 한 여성이 다음 해에 임신하는 사건
– 원자력 발전소에서 5년 내에 방사능 유출이 있는 사
건
• 사건은 일어나거나 혹은 일어나지 않은 상태 둘
중 하나이다.
• 사건은 보통 대문자 알파벳으로 나타낸다. (A, B,
C 등)
43
확률의 정의
• 사건 A 가 일어날 확률이란, 같은 조건 하에서 무한히 많은 시
행을 거쳤을 때 관찰되는 A 의 상대빈도로 생각할 수 있다. “frequentist definition”
• n 을 시행 횟수라 하고 m 을 이중 A 가 발생한 횟수라 하자. n
이 무한대에 접근 할수록 m/n 은 P(A) 에 근접한다.
• 시행을 무한히 반복하기는 불가능하므로 확률은 (매우 큰) 유
한의 수를 가진 자료에서 얻어진 경험적 확률로부터 추정된
다.-“empirical probabilities”
• 이론적 확률로 modeling 을 통해 특정 사건의 확률을 추정하
기도 한다.
• “Goodness of fit” 이란 경험적 확률이 이론적 확률과 얼마나
잘 들어맞느냐의 정도를 추정하는 것이다.
44
확률의 예
• 태어나는 신생아가 남자아이일 확률을 알고자 한다.
• 미국의 경우 1992년 자료에 의하면 4,065,014명이
태어났고, 이중 2,081,287명이 남자였다.
• 미국에서 태어나는 신생아가 남자아이일 확률은,
P ( boy ) 
2 , 081 , 287
4 , 065 , 014
 0 . 512
• Probability of an event A : P(A)
• 0  P(A)  1
45
4. 이산확률분포
Discrete Probability
Distribution
46
확률변수 (random variables) 와
확률분포 (probability distribution)
• 어떠한 물량(物量)나 특성이 복수 개의 값을 가
질 수 있으면서 그중 어떤 값을 가지는 지는 우
연에 의해 결정될 경우 이를 확률변수라 한다.
(사실상 측정할 수 있는 모든 변수)
• 확률변수는 이산변수이거나 연속변수이다.
• 이산확률변수는 유한 개의 값을 가질 수 있다.
• 연속확률변수는 특정 구간 내에 어떠한 값도 가
능하다.
47
이산확률변수 (Discrete Random
Variables )
• n : 시행 횟수
• 매 회마다 성공(event, 1) / 실패(non event, 0)
• xi : 성공 횟수 (X: 성공 횟수를 나타내는 이산확
률변수)
• Pr(X=r) : 각 sample에서 N회 시행했을 때 성공
횟수가 r회일 확률
48
Example 4.4 (p.82)
• 100명의 의사가 각각 4명의 새로운 고혈압 환자들에게 신약
을 투여하였다. 제약회사가 기대하는 확률은,
치료약에 반응한
환자의 수 r
확률분포
Pr(X=r)
빈도 분포
(경험적 확률)
0
1
2
3
4
0.008
0.076
0.265
0.411
0.240
0.000=0/100
0.090=9/100
0.240=24/100
0.480=48/100
0.190=19/100
• 위 표에서 확률분포는 무한히 많은 표본에서 나온 결과로 본
다.
• 또는 기존의 알려진 분포에서 계산해오기도 한다.(이항분포)
49
확률질량함수
• 치료약에 반응한 환자의 수는 0, 1, 2, 3, 4 의 5
개 값 (outcome)을 갖는다.
• 각 outcome은 고유의 발생 확률을 가진다.
• 각 outcome 에 확률을 할당하는 규칙이 확률질
량함수 (probability mass function) 이다. (위의
경우는 표)
• 각 outcome 들은 상호 배반적이어야 한다.
0  ( X  x)  1
• 전체를 이루는 사건들 (exhaustive events)
 ( X  r)  1
50
• 치료약에 반응한 환자 수가 3명일 확률은
P(X=3) = 0.411
• 치료약에 반응한 환자 수가 1명 이하일 확률은
P(X=0) + P(X=1) = 0.008 + 0.076
= 0.084
51
확률분포그래프
• 많은 경우 확률분포를 그래프로 나타낸다.
고혈압 치료제 예에서 확률질량함수와
빈도의 비교
0 .5
확률
0 .4
0 .3
PD F
0 .2
fre q
0 .1
0
0
1
2
3
4
치료제에 반응한 환자 수
52
• 각 outcome 위의 막대의 넓이가 P(X=x)를 나타낸다.
• 전체 넓이는 1이다.
• 확률질량함수는 각 이산확률변수의 각 값에 대한 확
률을 알려준다.
• 확률질량함수는 보통 잘 알려진 확률분포에서 유추
한다.
• 확률질량함수와 빈도 분포가 어느 정도 비슷한지를
판단하는 것이 통계적 추론의 내용이다.(Goodnessof-fit test)
• 변수의 가능한 값을 모두 다 알고 있는 경우에는 빈
도 분포가 확률분포를 대변한다.
53
모평균(기대치)
• 만일 확률변수가 많은 수의 값을 가질 경우, 확
률질량함수는 별로 바람직한 자료 요약 방법이
못 된다.
• 이런 경우에는 중심 측도 및 분산을 산출하는 것
이 좋다.
• 확률변수의 평균값을 “기대치 (expected value)”
혹은 “모평균 (population mean)” 이라 부른다.
• 이는 E(X) 혹은 μ 라 표시한다.
54
• 이산확률변수 X 의 기대값은,
k
 xi   ( X  xi )  E ( X )
i 1
• 앞의 예에서
E ( X )  0  0 . 008  1  0 . 076  2  0 . 265  3  0 . 411  4  0 . 240
 2 . 799
55
모분산, 표준편차
• 이산변수 X 의 모분산은 Var(X) 혹은 σ2 로 표시
한다.
• 이는 모평균 μ 의 주변으로 각 outcome 값들이
퍼져있는 정도를 나타낸다.
• Var(X) 는 각 이산변수 값 xi 와 평균 μ 사이의 거
리를 자승한 후 이를 해당변수 값의 확률로 곱한
후 모두 합산한다.
k
 ( x i   )  ( X  x i )  Var ( X )  E ( X   )
2
2
i 1
  xi  ( X  xi )  
2
• X 의 표준편차는

2
2

이다.
56
이항분포 (Binomial Distribution)
• 양분성 확률변수 Y 를 생각하자. Y 는 “성공” 하거나
“실패” 하는 2가지 값만을 갖는다.
• 이러한 변수를 베르누이 확률변수 (Bernoulli
random variable) 라고 한다.
• Y 를 주사바늘에 찔렸을 때 간염에 걸리는 여부라고
하자. 간염에 걸리면 Y=1, 안 걸리면 Y=0 이다.
• 주사 바늘에 찔린 많은 사람들을 관찰한 결과 약
30% 가 간염에 걸렸다고 하자.
P(Y=1) = p = 0.3
P(Y=0) = 1 – p = 0.7
57
• 어느 날 두 명의 병원 직원이 주사 바늘에 찔렸다고 하자.
몇 명이 간염에 걸리겠는가?
• X 를 두 명의 직원 중 간염에 걸리는 사람 수를 나타내는
확률변수라 하자.
• X = 0, 1, 2 의 3가지 값을 갖는다.
• 각 값이 나올 확률을 계산해 보자
Xi
0
1
2
Y1
0
1
0
1
Y2
0
0
1
1
P(X=r)
• 우리는 P(Y1=1) = P(Y2=1) = 0.3 임을 알고 있다.
58
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
P(X=0)
=
=
=
=
P(Y1=0 and Y2=0) : Y1 과 Y2 는 독립적
(1-p)(1-p)
(0.70)2
0.49
P(X=1)
=
=
=
=
=
P( [Y1=1 and Y2=0] or [Y1=0 and Y2=1]
P(Y1=1 and Y2=0) + P(Y1=0 and Y2=1)
p(1-p) + (1-p)p
2(0.30)(0.70)
0.42
P(X=2)
=P(Y1=1 and Y2=1)
=p2
= (0.30)2
= 0.09
59
이항분포의 파라미터
• 확률변수 X가 한 집단에서 간염에 걸릴 환자의 수를 나
타낸다고 했을 때, X가 가지는 확률분포를 이항분포
(binomial distribution) 이라 한다.
• 베르누이 확률변수 Y에 대해 n 번 시행했을 때 n개의 상
호 독립적인 outcomes 가 나온다.
•
Y1
Y2
Y3
…..
Yn
0
1
0
…..
1
• 각 시행들은 “성공”할 확률 p 를 가진다. 총 성공 횟수 X
는 이항분포를 따른다.
• X의 각 값들은 상호배타적이다.
• n 과 p 를 이항분포의 파라미터(parameter) 라 부른다.
60
이항확률계산
① Sample of n independent trials : (n+1)
discrete random variables
② Probability of k event out of n trials
③ Number of ways to select random variable k
④ Probability of each outcome : each discrete
random variable
⑤ Probability of event at a trial ; a priori 로 정해
짐=p
61
•
•
•
•
•
③
P(OXXOO) =(p)(1-p)(1-p)(p)(p)= p3(1-p)2
P(OXOXO) =(p)(1-p)(p)(1-p)(p)= p3(1-p)2
P(OOOXX) =(p)(p)(p)(1-p)(1-p)= p3(1-p)2
5회 시행에서 3회 성공을 관찰할 확률은 그 성공
이 어떤 순서로 나타났던 간에 동일한 확률을 갖
는다.
62
• ②
• N번의 시행 중 k 개 시행을 선택할 방법의 수는,
n
Ck 
n
k

n ( n  1)...( n  k  1)
k!
k!

n!
k ! ( n  k )!
• ①
 ( X  k )  n C k  p  (1  p )
k
nk
, k  0,1,2,3,.. ., n
63
N=5, P(X=2)=?
• 5명의 어린이를 뽑았을 때 2명이 남자 아이일 확
률은?
• P(boy) = 0.518 = p
• P(2 boys in specified 2 trials out of 5 trials)
= (0.518)(0.518)(0.482)(0.482)(0.482)
= (0.518)2(0.482)3
• # of ways selecting 2 trials out of 5 trials
5
• 따라서
C2 
5!
2!(5  2 )!
 ( X  2 )  5 C 2  ( 0 . 518 )  ( 0 .482)
2
3
= 0.3.
64
정확한 이항 확률
• n 과 p 가 작을 경우 Rosner Book Table 1 을 참
조할 수 있다. Table 1은 n 과 p 의 값에 따라 각
k 값이 가지는 확률을 정리해 놓은 표이다.
65
66
• 이 표는 확률을 2개 이상 구해야 할 경우에 유용
하다.
• 앞의 주사 바늘과 간염 예에서 5명의 직원이 주
사 바늘에 찔렸을 때 최대한 2명이 간염에 확률
을 구해보자.
• P=0.3, n=5
• P(X2) = P(X=0) + P(X=1) + P(X=2)
= 0.1681 + 0.3602 + 0.3087
= 0.8370
67
• 만일 10명의 직원이 찔렸다면 이들 중 최대한 7
명이 간염에 걸릴 확률은 얼마일까.
P(X7) = P(X=0) + P(X=1) … + P(X=7)
= 1 – [ P(X=8) + P(X=9) + P(X=10)]
= 1 – [0.0014 + 0.0001 + 0.0000]
= 0.9985
68
확률변수 X 의 기대치 및 분산
• 기대치
n
k
nk
E ( X )   xi   ( X  xi )   k     p  q
 np
i 1
k 0
k 
k
n
– 주사기에 찔린 직원을 10명 관찰하는 표본 관찰을 계속 한
다면 한 표본에서 평균적으로 간염이 발생하는 횟수는,
– np = 10 x 0.3 = 3 회이다.
• 분산
k
Var ( X )   ( x i   )   ( X  x i )
2
i 1
n k
nk
  ( k  np )    p  q
 npq
k 0
k 
n
2
– 간염 발생 횟수의 분산은,
– npq = (10)(0.3)(0.7) = 2.1 이다.
• 표준편차는 2 . 1  1 . 45 이다.
• p=0.5인 경우 분산이 최대가 되고, p=0 or 1 일 때
최소이다.
69
예) 전국 평균으로 5%의 가구에서 가구 내 어린이
가 기관지염을 앓고 있다.
무작위로 추출된 20 가구에서 1 가구가 기관지
염을 앓는 어린이를 갖고 있었다.
이 사건이 일어날 확률은?
• 우선, 이 사건은 n=20, p=0.05 의 파라미터를 갖
는 이항분포를 가지는 것을 알아야 한다.
• 20 가구를 관찰하는 실험을 계속 한다고 할 때
기관지염 어린이를 가진 가구 수의 기대치는,
np = 20(0.05) = 1 가구 이다.
70
• 20 가구 중 1 가구에서 기관지염 어린이가 있을 확률은,
 ( X  1)  20 C 1 ( 0 . 05 ) (1  0 . 05 )
1

20 !
1! ( 20  1)!
( 0 . 05 )( 0 . 95 )
19
19
 0 . 3774
• 부모가 모두 기관지염을 앓고 있는 가정 20 가구를 추출
하였더니 이중 3가구에서 자녀들도 기관지염을 앓고 있
는 것으로 나타났다.
• 일반적인 기관지염 어린이 가구의 유병율을 기준으로 20
가구 중 3가구에서 기관지염 어린이가 있을 확률을 구해
보자.
3
17
 ( X  3 )  20 C 3 ( 0 . 05 ) (1  0 . 05 )

20 !
3! ( 20  3 )!
 0 . 0596
3
( 0 . 05 ) ( 0 . 95 )
17
71
이례적 사건 판단(unusual event?)
• 20 가구 중 3 가구에서 기관지염 어린이를 관찰하는 사건이
이례적인 일인가?  P(X3) 를 계산하여 판단해 볼 수 있다.
20
 ( X  3)  
k 3
2
 1 
k 0
C k ( 0 . 05 ) (1  0 . 05 )
k
20
C k ( 0 . 05 ) (1  0 . 05 )
20
k
20  k
20  k
 1  ( 0 . 3585  0 . 3774  0 . 1887 )
 0 . 0754
• 20 가구 중 3가구 혹은 그보다 더 많은 가구에서 기관지염 어
린이를 관찰할 확률은 7.54% 정도이다.
• 일반적으로 사건 발생 확률이 5% 보다 낮으면 이례적
(unusual) 사건이라고 판단한다.
• 따라서 20 가구 중 3가구의 관찰은 이례적 사건은 아니라고
판단한다.
72
이항분포의 정규근사
• 시행횟수 n ≥ 20 이고 p≈0.5 인 경우 이항분포
를 정규근사 할 수 있다 (normal approximation
to binomial distribution)
X ~ B(n, p) --> X ~ N(np, npq)
• p 가 0 이나 1의 근처 값을 가질 때는 성공 횟수
가 양 극으로 몰리기 때문에 정규근사가 불가능
해 진다.
73
74
포아종 분포 Poisson Distribution
• 일정한 시간 내에서 혹은 일정 표면적 내에서 사
건이 발생하는 횟수가 갖는 분포이다.
• 보통 드문 사건 (rare event) 의 분포를 알고자 할
때 쓰인다.
• 이항분포와 달리 시행 횟수 및 성공 횟수가 무한
히 클 수 있다.
75
예) X 를 인구 500,000명이 사는 한 지역에서 1년 동안 교
통사고를 당하는 환자 수를 나타내는 확률변수라고 하자.
• 미국에서 한 개인이 교통사고를 당할 확률은
p = 0.00024 이다.
• X 는 시행횟수 n 이 매우 클 때의 이항 확률변수이다.
n
n!
 
 k  k ! ( n  k )!
• n 이 매우 크면 이것을 계산하는 것은 매우 힘들 것이다.
• n 이 매우 크고 p 가 매우 작은 경우에 이항분포는 포아
종 분포에 잘 근사된다.
76
포아송 확률
• Rare event over time or over surface area
( X  k ) 
e


k
k!
=t
: expected number of events over the time
period t

: expected number of events per unit time
or rate at which event occurs
• k 는 X가 가질 수 있는 값이다.
77
• X 값은 0 에서 ∞ 까지 어떤 정수 값도 가질 수
있다.
• t 는 관찰기간
•  는 상수로 사건이 발생하는 속도이다.
• 포아종 분포의 확률밀도함수에서는 파라미터가
 1개 이다.
• 포아종 분포에서는 사건 발생 확률이 매우 작아
서 1개의subinterval of time에 발생하는 사건 수
는 1개 이상이 되지 않는다고 본다.
78
포아송분포 vs. 이항분포
• 교통사고의 예에서 시간을 1분 단위로 자른다고 가정해
보자.
• 1분 동안 교통사고가 1개 이상은 생기지 않는다고 본다.
• 1년간 관찰한다고 했을 때, 1분 단위 수를 시행 횟수로,
그리고 각 1분당 교통사고가 발생할 확률을 p로 놓고 p
는 1년간 별 변화 없이 일정하다고 본다.
• 각 1분 단위마다의 사건은 상호 독립적이 된다.
• 이러한 경우 사건의 성공 횟수는 포아종 분포를 따른다.
• 그러나 앞의 예와 같이 인구 수가 비교적 적고 유한한 경
우는 진성 이항분포로 n 개의 베르누이 시행이 있음을
의미하며, 각 시행은 사람 개개인을 나타낸다.
79
80
포아송 분포의 가정
1. The probability that a single event occurs within a
given small subinterval is proportional to the
length of the subinterval.
–
–
–
–
P(1 death)t
P(0 death over t)=1-t
P(more than 1 death over t)=0
즉, 5분간 1건의 사망을 관찰할 확률은 1분간 관찰할 확률
의 5배이다.
2. Stationarity : 단위 시간 t 동안의 사망수는 전체 기
간 t동안 일정하다.
3. Independence : 한 단위 시간 동안에 발생한 사망이
다음 단위 시간의 사망 확률에 영향을 미치지 않는
다.
81
예) 1년간 장티부스에 의한 사망자 수가 평균4.6명
이고 포아종분포를 따른다 하자.
6개월간 발생할 사망자 수의 확률 분포는 어떠
한가?
t=1 year, =4.6
 = t
4.6=1, =4.6,
6mo=t=4.60.5=2.3
P ( X  0)  e
 2.3
 2.3 /0!  .100
P ( X  1)  e
 2.3
 2.3 /1!  .231
P ( X  2)  e
 2.3
 2.3 /2!  .265
P ( X  3)  e
 2.3
 2.3 /3!  .203
P ( X  4)  e
 2.3
 2.3 /4!  .117
P ( X  5)  e
 2.3
 2.3 /5!  .054
P ( X  6)  .030
0
1
2
2
2
2
82
• Rosner book 의 부록 table 2 (p.822) 는 포아종
분포에 의거한 확률을 보여준다.
•  가 0.5에서 20.0까지 0.5 단위로 확률을 계산해
놓은 표이다.
83
포아송 분포에서 확률변수 X 의
기대치 및 분산
• 기대치
E ( X )  Var ( X )      t
• 대개 평균과 분산이 비슷한 이산확률분포가 있
으면 포아종 분포를 할 가능성이 높다.
84
포아송 분포의 정규근사
• ≥10 인 경우 포아종 분포의 정규근사가 가능하
다. (Normal approximation to poisson
distribution)
• n 이 크고 p 가 작은 이항분포는 (n≥100, p≤0.01)
은 정규근사 대신 포아종 근사가 가능하다.
E(X)
= np
Var(X)
= npq=(np)(1) = np
• 따라서 E(X) = Var(X) --> Poisson approximation
=np
85
예) 인구 500,000인 한 지역에서 1년간 교통사고를 당하는
사람의 수 X 의 기대치는,
E(X) =  = np
= (500,000)(0.00024)
= 120
분산도 120과 거의 동일하다.
• 표준편차는 120  11 . 0
• 정확히 50 명의 사람이 한해에 교통사고를 당할 정확한
확률은 얼마일까?
 ( X  50 ) 
e
120
(120 )
50
 2 . 3  10
13
50 !
86
이례적인 사건
• 한 해 20명의 교통사고 사망자는 매우 적은 숫자
라고 할 수 있나?
20
 ( X  20 )  
e
120
(120 )
k!
 120
0
e (120 )
k
k 0
20

k 0
e
120
(120 )
k!
k

0!
 1 . 4  10
 ..... 
e
120
(120 )
20
20 !
 28
• 이 확률은 0.05 보다 훨씬 작다.
• 따라서 어떤 해에 20명만 교통사고를 당하는 것
은 이례적인(unusual) 일이라고 하겠다.
87
이항분포의 포아송 근사
• 언제 이항 분포를 포아송 분포에 근사시키는 것
이 좋은가?
• 대개 시행 횟수 n ≥ 100 이거나 확률 p ≤ 0.01인
경우이다.
• (참고) 포아송 분포는 처음에 이항분포의 시행
횟수가 매우 클 때 계산을 간단히 하기 위해 개
발되었다. 그 후 매우 드물게 일어나는 사건에
대하여 일정 기간 동안 발생하는 횟수의 분포를
보는 데 독자적으로 사용되기 시작하였다.
88
5. 연속확률분포
-정규분포Normal Distribution
“The most widely used
distribution in statistical work.”
89
연속확률함수
• 연속확률변수 X는 특정 범위 안에서 어떤 값도
가질 수 있는 변수이다.
• 연속확률변수 X가 특정한 값 (예:
DBP=117.3mmHg)을 가질 확률=0 이다.
• 따라서 이산확률분포의 확률질량함수 개념을 그
대로 쓸 수 없다.
• 대신 X 가 어떤 구간의 값을 가질 확률을 구한다.
(예: 90 ≤ X <100, 100 ≤ X<110, 110 ≤ X 일 확
률은 각각 15%, 5%, 1% 이다.)
90
확률질량함수
• 연속확률변수 X의 확률분포는 확률질량함수
(Probability Density Function: PDF)라는 매끈한 곡
선으로 나타나는데, 이는 X값이 a 와 b사이 값을 가
질 확률이 밀도함수 곡선의 아래 면적과 일치하도록
만든 함수이다.(Fig 5.1)
• X값의 전 범위에 걸친 밀도함수 곡선 아래의 면적은
1이다.
• 즉, X가 가질 수 있는 모든 수가 나올 확률의 합은 1
이다.
• 모든 연속확률변수들이 대칭적 종모양의 확률분포
를 가지는 것은 아니다. (예: 중성지방)
91
연속확률분포의 기대치 및 분산
• 기대치 E(X)==평균
n
1
i 1
n
E ( X )   xi  ( X  xi ) 
n
 xi
i 1
• 분산
Var ( X )  
2
 E(X  )  E(X )  
2
2
2
• 표준편차
s 
Var ( X )
92
정규분포 Normal Distribution
• Gauss 분포
• 종형(bell-shaped curve), 완벽한 좌우대칭, 양 꼬리
부분에는 거의 자료가 존재하지 않는다.-no outliers
• 수학적으로 흠이 없다.
• 확률을 쉽게 구할 수 있다.
 통계학에서 가장 중요하게 취급되는 확률분포
• 실측 분포가 아닌 이론적으로 유도된 분포
• 초창기에는 모든 관측치가 이 분포를 따라야 제대로
관측된 것이라고 생각하였다.- “정규”
• 이것은 틀린 생각으로 이 분포 이외의 분포들이 확
률모형으로서 더 적합한 경우가 많다.
93
정규분포의 예
Harper et al. Nephrology Dialysis
Transplantation. 2007;22:vii119-vii137
94
정규분포를 하지 않는 예
Serum triglyceride measurements in cord blood from 282 babies. (Bland.
An Introduction to Medical Statistics, Third Edition, 2000)
• 비정규분포를 하는 변수도 단위 변형을 통해 정
규분포를 근사적으로 따르게 만들 수 있다.
95
정규분포의 중요성
• 연속확률변수끼리의 합은 대체로 정규분포를 따
른다.
• 이항확률변수 X는 시행횟수가 많으면 정규분포
를 따랐다. 이항변수 X가 n 개의 베르누이 확률
변수의 합이기 때문이다.
• 정규분포의 이러한 遍在 (omnipresence)로 인해
앞으로 다룰 가설검정 및 모수추정에서 대부분
의 변수가 정규분포를 따르는 것으로 간주하고
통계분석을 하게 된다.
96
정규분포의 PDF
• 정규분포는 다음과 같은 확률밀도함수(probability
density function: pdf)로 정의할 수 있다.
1
1
2
f (x) 
exp{ 
(
x


)
}   x  
2
,
 2
2

  f ( x )dx  1
• 정규분포의 파라미터는,
X ~ N  ,
2
X ~ N 50 ,10

2

0.04
0.03
0.02
σ
σ
0.01
0
0
10
20
30
40
50
60
70
80
90
100
-σ  +σ
97
 와  변화에 따른 정규분포의 모양
12 with same σ
σ1 σ2 with same 
98
정규분포에서 σ에 따른 확률
99
Notable Points in Normal
Distribution
• 정규 분포 곡선 아래의 전체 면적을 1.0으로 했
을 때 평균치를 포함한 각 점까지의 면적의 합은
다음과 같다.
• P( -  < x <  +  ) = 0.6826 (68.26%)
• P(-1.96 < x < +1.96) = 0.9500 (95.0%)
• P(-2.00 < x < +2.00) = 0.9545 (95.45%)
• P(-2.58 < x < +2.58) = 0.9900 (99.0%)
• P(-3.00 < x < +3.00) = 0.9973 (99.73%)
• P(-0.68 < x < +0.68) = 0.5034 (50.34%)
100
변수 변환
• 연속확률변수 X ~ N(, 2) 일때,
• If Y=a + bX,
Y ~ N(a+b, b22)
• If X1~(1, 12), X2~(2, 22), X1과 X2가 독립적일
때
X1X2 ~ N(12, 12+22)
101
표준정규분포 (standard normal
distribution)
• 확률변수 X가 N(, 2)일 때 다음과 같은 변환에 의해 평
균이 0, 표준편차가 1인 정규분포로 치환할 수 있다 .
• 원래의 관측치를 X라 하면 변환된 관측치는 Z로 표시한
다.
X 
Z 

• Z가 따르는 정규분포를 표준정규분포(standard normal
distribution)라 한다.
X ~ N  0,1 
• 표준정규분포의 확률밀도함수는,
f (z) 
1
2
exp( 
1
2
2
z ),
  z 
102
표준정규분포 곡선
probability
표준정규분포 곡선
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-5
-4
-3
-2
-1
0
1
2
3
4
5
Z
103
누적정규분포 (cumulative normal
distribution)
• 정규분포 곡선 아래의 면적을 X값이 - 인 때부터 누적
시킴으로써 이루어지는 또 하나의 확률분포가 있을 수
있는데, 바꾸어 설명하면 특정한 관측결과 x보다 작은 값
이 나올 수 있는 확률 P(X x) 들의 분포를 말한다.
 ( x)  ( X  x)
   f ( x ) dx
x
104
누적확률
0.45
1.1
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.4
Probability Density
0.35
0.3
0.25
0.2
50.00%
0.15
0.1
0.05
0
-6
-4
-2
0
2
4
6
Cumulative Probability
• P(X x) 는 N(, 2) 인 Pdf 에서 X=a 값의 왼쪽에 해당되
는 밀도함수곡선 아래의 면적이다.
• 여기서 P(X<=a)는 P(X<a) 와 같다.
105
표준정규분포 표
• 각 x 값에 대한 누적확률표를 이용한다면 쉽게
확률을 알아낼 수 있을 것이다.
• 정규분포를 하는 모든  와 2값에 대해 모두 표
를 만들 수는 없으므로 표준정규분포에 대한 확
률표 하나만을 이용한다.
• 표준정규분포표(Table 3)의 column A 가 (x) 를
나타낸다.
106
표준정규분포표에서의 확률계산
• 표준정규분포의 대칭성을 이용하면 다음과 같이 편리하
게 여러 가지 확률을 계산 할 수 있다.
• (-z) = P(Z  -z) = P(Z  z) = 1 – P(Z  z) = 1 – (z)
107
표준정규분포 표 읽기
•
•
•
•
P(X≤-1.96) if X~N(0,1)
=1-P(X≤1.96)
=P(X≥1.96)
=0.025
Column A
1 - Column A
Column B
108
표준정규분포 표 읽기 연습
• 표준 정규분포에서 P(-1 X 1) 은 얼마인가?
표 3에서 D 열 P(-1 X 1)=0.6827
• 이 확률은 평균 = 0, 표준편차 = 1 인 표준정규분포에서 X
값이 1 standard deviation 이내의 값을 가질 확률이다.
• X 값이 2 standard deviation 보다 큰 값을 가질 확률은?
표 3의 B 열 P( 2) = 0.0228
대칭성을 이용하면 P( -2) = 0.0228
• 표준 정규분포에서 X 가 어떤 값 x 이하 혹은 - x 이상이
나올 확률이 0.95인 x 는 얼마일까? P(-x  X  x) = 0.95
표 3 의 D 열에서 x = 1.96
• 표 3 의 B 열에서 X 가 1.96 SD 이상의 값을 가질 확률은
0.025 이다.
109
100 x uth percentile
• 표준 정규분포에서 100 x uth percentile 은 zu로
표시하고
P(X< zu )= u
• 표준 정규분포에서 80th percentile 은 어떤 값인
가?
P(X < z0.8 )= 0.80
• 표 3 의 A 열에서 P(X<0.84) = 0.7995 이고
P(X<0.85) =0.8023 이다. 더 가까운 값을 취한다
면 80th percentile은 0.84 이다.
110
표준정규분포로의 변환
• 만약 X ~ N(, 2) 이고,
(X  )
이면 Z ~ N(0, 1) 이다.

• P(a < X < b) 는 다음과 같다.
•
Z 
P (a  X  b )  P (
 (
b

a

)  (
 Z 
a

b

)
)
111
예제
경도의 고혈압이 90  DBP < 100mmHg 인 경우
라고 하자. 35-44세 남성의 DBP 평균이 80, 분산
이 144라 할 때, 임의로 선택한 남성이 경도의
고혈압을 가지고 있을 확률은 얼마인가?
Za 
Zb 
90  80
 0 . 833
12
100  80
 1 . 667
12
P(0.833 Z 1.667) = P(Z 1.667) –P(Z 0.833)
= 0.9522 – 0.7977= 0.155
112
113
이항분포의 정규근사
• X~ B(n, p) 일때 n 이 충분히 크고 p가 0이나 0 근처에
있지 않을 때, X는 다음과 같이 정규근사 시킬 수 있
다.(Fig 5.17)
X ~ N(np, npq) when npq≥5
• 이항확률변수 X 가 a와 b사이의 값을 가질 확률 P(a≤X
≤ b)은 근사적으로 정규분포에서 a와 b 사이의 pdf 곡선
아래의 면적과 같을 것이다.
• 실제로는 (a-1/2)와 (b+1/2) 사이의 pdf 곡선 아래의 면
적과 더 비슷함.(이산확률연속확률 근사 시 공통적용.)
• 이항분포에서 P(X=a) 일 확률은 정규분포의 P(a-1/2 ≤ X
<a+1/2)에 근사한다.
• P(X=0)P(X ≤1/2), P(X=n)P(X ≥n-1/2)
114
예제
• WBC 100개 중 중성구가 50-75개일 확률을 구해보자(중
성구의 정상범위임). 단, WBC 중 중성구일 확율은 0.6이
다.
75
k
100  k
C
(
0
.
6
)
(
0
.
4
)

• 정확한 확률은 k  50 100 k
• 정규근사를 이용할 때,
49 . 5  60
75 . 5  60 
• P(50-0.5≤ X ≤75+0.5) =P 
 X 

24
24


=
=
=
=
 ( 3 . 164 )   (  2 . 143 )
 ( 3 . 164 )  1   ( 2 . 143 ) 
0.9992-0.0162
0.983
115
포아송 분포의 정규근사
• X~ P() 일때  가 크면 정확한 확률을 계산하는데 시간
이 많이 걸린다.
•  가 어느 정도 이상 크면, X는 다음과 같이 정규근사 시
킬 수 있다.(Fig 5.22)
X ~ N(, ) when  ≥10
• 포아송분포에서 P(a≤X ≤b)일 확률은 정규분포의 P(a1/2 ≤ X ≤ b+1/2)에 근사시킬 수 있다.
• 포아송분포에서 P(X=a) 일 확률은 정규분포의 P(a-1/2 ≤
X <a+1/2)에 근사한다.
• P(X=0)은 정규분포의 P(X ≤1/2) 에 근사한다.
116
예제
• Petri dish 내의 단위면적 A 당 관찰되는 박테리아의 수
X 는 =A의 포아송 분포를 따른다. =0.1 bacteria/cm2
이라 하고 A=100cm2라 하자.
• 박테리아가 20개 관찰되었다면 얼마나 드문 현상인가?
μ
k
19 e
μ
• 정확한 확률은
Ρ(X  20 )  1  
k!
k 0
• 정규근사로 확률을 계산해 보면, X ~ N(A, A)
19 .5  10 

Ρ(X  19 .5 )  Ρ  X 

10


 1  P  X  3 . 004

 1  0 . 9987  0 . 0013
Rare
Event!
117
6. 모수추정
Estimation
118
서론
• 지금까지 이항분포, 포아송분포, 정규분포를 배
웠다. 이때 모집단에서의 파라미터를 모두 알고
있는 것으로 간주하고 확률을 추정하였다.
• 의학연구에서 이루어지는 관측이나 자료수집은
거의 대부분이 모집단이 아닌 일부 표본에서 이
루어지기 때문에 이를 통해 표본을 발생시킨 모
집단의 성질을 추론해야 한다.
119
통계적 추론 (Statistical Inference)
• 주어진 표본으로부터 잠정적인 모집단의 분포를
추정하고자 하는 것이 통계의 골자이다.
(statistical inference)
– 모수추정(Estimation) :
모집단의 모수 값을 추정
하는 일 (estimating the values of specific population
parameters)
– 가설검정 (Hypothesis Testing) : 모집단의 모수가 어
떤 특정 값과 같은 지를 검정하는 일
• 우선은 모수추정에 초점을 맞추자.
120
모집단 Population
• 연구대상 또는 관측대상의 궁극적인 상태를 모
집단이라고 한다.
• 모집단의 특성을 결정지어 주는 각종 관측치를
모수(parameter)라고 하는데 예를 들어 ‘1990년
대한민국에서 출생한 신생아의 평균 체중과 분
산’이라 할 때 모집단은 신생아 모두로써 유한모
집단이 되고 이들의 평균 체중과 그 분산은 모수
가 된다.
121
표본 Sample
• 한편 현실적으로 1990년에 대한민국에서 출생한
신생아 모두를 확인하여 그 체중을 관측할 수 없
기 때문에 그 중 극히 일부분 예를 들면 특정기
간 동안에 특정지역에서의 출생자나 특정병원에
서의 출생자 등 만을 대상으로 체중을 관측하게
되는데 이때 실제 관측대상이 된 신생아를 표본
(sample)이라 하고 그들로부터 관측된 평균 체중
과 분산은 표본통계량(statistic)이라 한다.
122
모집단과 표본
• 대부분의 연구에서 모수 값을 직접 알아내는 것은
불가능하다.
• 모집단의 확률분포를 모르고 있다 하더라도 표본 평
균 x 와 표준편차 s는 모집단의 평균  과 표준편차
 (즉, 모수)를 추정하는데 활용된다.
• 표본평균이 정확히 모집단 평균과 동일할 가능성은
거의 없다. 표본에 어떤 사람들이 무작위로 뽑히는
가에 따라 표본 평균값이 달라진다.
• 이때 표본은 모집단으로부터 무작위추출(random
sampling)된 것이어야 unbiased estimation이 가능
하다.
123
난수(random numbers)
• 발생할 확률을 동일하게 갖고 있는 0 에서 9 까
지의 정수
• 한 수의 발생은 다른 수의 발생에 영향을 주지
않는다 (독립적이다).
• 컴퓨터로 난수를 연속적으로 발생시켜 난수표
생성 (Table 4)
• 무작위표본을 뽑거나 임상시험에서 무작위 배정
(random allocation)할 때 난수표 사용
124
무작위표본
• 1000명의 모집단에서 20명을 무작위로 뽑는 방
법: 난수표에서 3자리수씩 20개 뽑은 후 모집단
의 일련번호와 일치되는 사람들을 뽑는다.
• 1000명중 20명에 뽑힐 확률이 동일하게 유지함
으로써 1000명을 가장 잘 대변하는 표본을 뽑을
수 있다.
125
무작위배정 임상시험
• 신약 A 의 효과를 입증하기 위해 환자들을 무작
위로 2군으로 나눈 후 한 군은 A를 다른 한 군은
위약(placebo)를 투여하여 그 효과를 비교하는
연구이다.
• 무작위배정으로 동질의 두 군으로 나눌 수 있다.
• 환자군 10명을 무작위로 2군으로 나누는 법:
– 난수표에서 숫자 5개를 뽑는다. 뽑힌 숫자의 순서에
연구에 들어온 환자를 A 군으로, 나머지 순서의 환자
를 위약군으로 한다.
– 매 환자 발생시마다 난수를 뽑아 짝수면 A, 홀수면 위
약으로 배정한다.  두 군의 숫자가 달라질 위험성
126
표본평균치들의 분포
• 같은 모집단으로부터 표본 수 (N) 가 같은 독립
적인 표본을 여러 번 추출하여 각 표본의 평균
( x1 , x 2 , x 3 ,... x k ) 을 구하였다 하자.
• x i 는 확률변수이다. 표본에 어떤 사람들이 뽑히
는가에 따라 다양한 표본이 가능하며, 다양한 x i
값이 가능하다.
• 각 x i 들이 나올 확률들의 분포를 생각할 수 있다.
• 이 표본평균치들의 분포를 알면 모수추정을 잘
할 수 있다.
127
mean = 1.78
0
2
4
6
8
mean = 1.55
10
0
mean = 1.6
0
2
4
6
8
2
4
6
8
4
6
8
10
0
mean = 1.56
10
0
mean = 1.53
0
2
mean = 1.45
2
4
6
8
0
2
4
6
8
4
6
8
10
0
mean = 1.67
10
0
mean = 1.62
10
2
mean = 1.6
2
4
6
8
0
2
4
6
8
4
6
8
10
0
mean = 1.44
10
0
mean = 1.66
10
2
mean = 1.73
2
4
6
8
0
2
4
6
8
4
6
8
10
mean = 1.7
10
0
mean = 1.38
10
2
2
4
6
8
10
mean = 1.45
10
0
2
4
6
8
10
We only see one!
mean = 1.7
0
2
4
6
8
mean = 1.64
10
0
2
4
6
8
mean = 1.61
10
0
2
4
6
8
mean = 1.59
10
0
2
4
6
8
mean = 1.72
10
0
2
4
6
8
10
128
중심극한정리
(Central Limit Theorem)
• “모평균이 이고 분산이 2인 무한모집단으로부
터 N개의 표본을 추출하여 얻어지는 표본평균치
들의 분포는 N이 어느 정도 크고, 추출, 시행이
무한히 이루어졌다고 할 때 극한적으로 정규분
포를 따르며 표본평균치들의 평균은 가 되고
( E ( x )   ) 표본평균치들의 분산은  과 같다.”
2
N
129
• 중심극한 정리 (central limit theorem)에 의해 모집단의
확률분포를 모르더라도 (혹은 정규분포를 하지 않더라
도) 표본평균들이 정규분포를 한다는 사실을 적용하여
모평균을 표본평균치로부터 추정할 수 있다.
means from samples of 100 patients
Note the shape is
similar to Normal
distribution
1.2
1.4
1.6
1.8
average mean attachment level (mm)
2.0
130
표준오차
• 즉, N 이 어느 정도 크면,
x ~ (,

2
)
N
• 이를 표준정규분포로 환원하면,
Z 
x
단, x 는 표본평균치
• x 의 표준편차를 표준오차 (standard error of
the means, SE( x ) )라 한다.
• If N↑, then s.e.↓
• If σ↑, then s.e.↑

N
131
표준오차의 개념- 예
• 예) 250명의 비행기 조종사의 혈압 측정치를 활
용하였다. 이를 모집단이라 하자. 모집단의 평균
는 78.2 mmHg이고, 모집단 표준편차 는 9.4
mmHg이다. 모집단의 각 측정치를 250개의 조
그만 딱지에 적어서 주머니 안에 집어넣었다.
132
• 30명의 학생들이 주머니를 잘 흔든 후, 각자 10
개의 딱지를 골라낸 후, 그 값을 기록한 후, 그 평
균 x 를 구하고 딱지는 다시 주머니에 넣었다. 이
런 식으로 구해진 30개의 각각 다른 표본 평균들
은 동일한 모집단 평균을 추정하는데 활용된다.
이 표본 평균들의 평균은 78.23 mmHg로 구해졌
고 그 값은 모집단 평균과 거의 같은 값이다. 표
본 평균의 표준편차는 3.01 mmHg로 이론적으
로 구한 표준오차 값인  n = 9 .4 10 = 2.97
mmHg 과 거의 같은 값이다.
133
• 이러한 연습을 반복하였는데 이번에는 표본 수
를 20개로 하였다. 표본수가 10에서 20으로 증가
함에 따라 표본 평균의 변이가 주는 것을 볼 수
있다. 표본 평균의 평균은 78.14 mmHg로 모집
단 평균과 거의 같고, 표준편차는 2.07 mmHg로
이론적인 값인 9 . 4 20 = 2.10mmHg 과 일치한
다.
134
신생아 예 (Table 6.2, p172)
• 예) 1000명의 신생아 체중들을 모집단으로 볼
때 표본 수 10인 표본의 평균이 98.0 과 126.0 oz
사이 값을 가질 ( 98 .0  x  126 .0 ) 확률은 얼마인가?
(단 모집단의 평균은 112.0oz, 표준편차를
20.6oz 이었다고 한다.)
P ( 98 . 0  x  126 . 0 )
x
126 . 0  112 . 0 
 98 . 0  112 . 0
 P



 / n
20 . 6 / 10 
 20 . 6 / 10
 P (  2 . 149  x  2 . 149 )
• 표준정규분포표에서 P(-2.15  z  2.15)=0.9684
135
t-분포
(t distribution, Student t-distribution)
• 모분산 σ2 을 알고 있는 경우는 드물다.
• 이런 경우 표본에서 얻어진 s2으로 σ2 추정한다.
s .e . 
s
n
• 이때, x   는 더 이상 정규분포를 따르지 않는
다. s N
• 오히려 Student’s t distribution을 따른다.
136
• t분포의 확률밀도 함수는 다음과 같다.
t 
k
X 
,
s
N
k  N 1
• 수식에서 보면 분모에서 모표준편차 대신 표본에
서 얻어진 표준편차 s를 사용하면 표준정규 z 분포
가 아닌 t 분포가 되고 그 모양은 표본수 N (혹은 자
유도 k=N-1) 에 따라 달라진다.
• 자유도 d인 t 분포에서의 100*uth percentile은 td,u로
표기한다.
P(td<td,u) = u
137
• t분포의 확률모형은 표준정규분포와 같이 0에 대
해 좌우 대칭이나 표준정규분포 보다는 꼬리부
분이 더 두꺼운 형태를 지닌다. 자유도 (N-1)가
작을수록 그 모양은 납작해지고 자유도가 커지
면 점차 표준정규분포 모형에 가까워진다.
138
• t distributions with higher degrees of freedom
are more similar to the Normal distribution.
N(0,1) pdf
t(4) pdf
97.5 %ile of N(0,1)
97.5 %ile of t(4)
0.0
1.96
2.78
139

similar documents