losowanie proste niezależne

Report
Metoda reprezentacyjna i statystyka małych obszarów z SAS
Instytut Statystyki i Demografii SGH
dr Dorota Bartosińska
Zajęcia 3
Schematy losowania próby
– zastosowanie procedury SURVEYSELECT.
Warstwowanie.
Konstrukcja wag.
1
Struktura wykładu
1. Schematy losowania próby
1.1. Losowanie proste
1.1.1. Niezależne
1.1.2. Zależne
1.2. Losowanie zespołowe
1.3. Losowanie systematyczne
1.4. Losowanie wielostopniowe
2.
Warstwowanie
2.1. Proporcjonalna alokacja próby warstwowej
2.2. Optymalna alokacja próby warstwowej
3.
Konstrukcja wag
3.1. Teoria
3.2. Przykład
4.
Losowanie w SAS
4.1. Losowanie w SAS EG
4.2. Procedura SURVEYSELECT
2
1. Schemat losowania próby
(ang. sampling selection scheme)
-
proces wyboru jednostek z populacji ze z góry
ustalonym zbiorem prawdopodobieństw wyboru dla
poszczególnych jednostek.
Losowanie:
niezależne a zależne
nieograniczone a ograniczone (warstwowe)
indywidualne a zespołowe
jednostopniowe a wielostopniowe
systematyczne
3
1.1. Losowanie proste
to losowanie:
- nieograniczone
(próbę
wybieramy
w
sposób
nieograniczony z całej populacji, przyjmując za
jednostki losowania elementy tej populacji);
- indywidualne (jednostki losowania są jednocześnie
jednostkami badania);
- jednostopniowe.
Losowanie proste wywodzi się od rozważanego w teorii
prawdopodobieństwa losowania kul z urny.
Losowanie proste może być:
- niezależne (ze zwracaniem)
- zależne (bez zwracania).
4
1.1.1. Losowanie proste niezależne (ze zwracaniem)
• polega na każdorazowym zwracaniu wylosowanej
jednostki z powrotem do populacji, skutkiem tego każda
wylosowana jednostka uczestniczy w dalszym ciągu
losowania i może być wybrana powtórnie, niezależnie od
wcześniejszych rezultatów losowania.
• Liczba prób możliwych do wylosowania
= liczba kombinacji z powtórzeniami n-elementowych
z N elementów
C
n
N
 N  n  1

 
n


N – liczebność populacji
n – liczebność próby
U – populacja (ang. universe)
s – próba (ang. sample)
5
1.1.2. Losowanie proste zależne (bez zwracania)
• stosowane częściej w praktyce niż losowanie
niezależne, wylosowane jednostki nie są zwracane do
populacji, skutkiem tego raz wylosowane jednostki nie
uczestniczą w dalszym losowaniu, a wybór pozostałych
jednostek zależy od rezultatów wcześniejszego
losowania.
• Liczba prób możliwych do wylosowania
= liczba kombinacji bez powtórzeń n-elementowych
z N elementów
C
n
N
N
 
n



6
1.2. Losowanie zespołowe
• w odróżnieniu od losowania indywidualnego, losuje
się nie jednostki badania, lecz ich zespoły, a więc
grupy jednostek, np. rodziny, klasy szkolne, zakłady
pracy, dzielnice itp.
Następnie bada się wszystkie jednostki należące do
wylosowanych grup (osoby, uczniów, pracowników,
mieszkańców itp.).
Stosowane, gdy:
• dysponujemy gotowym operatem losowania, w
którym wyszczególniono pewne zespoły jednostek
losowania;
• jednostki są rozproszone w terenie.
7
1.3. Losowanie systematyczne
- polega na wyborze z uporządkowanego zbioru jednostek
populacji odpowiedniej liczby jednostek w równych
odstępach (interwałach).
Najpierw ustala się liczebność badanej populacji N,
a następnie liczebność próby n
N
i na tej podstawie oblicza się interwał losowania k  n .
1
Losujemy z prawdopodobieństwem k liczbę całkowitą L,
zwaną losowym początkiem taką, że 1  L  k .
Do próby włączamy jednostki o numerach:
L, L+k, L+2k, … .
Ostatnia liczba z tego ciągu nie może być większa niż N.
8
1.4. Losowanie wielostopniowe
- losuje się zespoły jednostek coraz to niższego stopnia,
powstające z podziału zespołów wyższego stopnia.
Najczęściej dwustopniowe - najpierw losuje się według
wybranego schematu pewną liczbę jednostek pierwszego
stopnia (jest to losowanie pierwszego stopnia), a
następnie w wylosowanych jednostkach pierwszego
stopnia dokonuje się losowania jednostek drugiego
stopnia, zgodnie z określonym schematem (jest to
losowanie drugiego stopnia).
Stosowane, gdy jest duży koszt stworzenia operatu,
obejmującego wszystkie jednostki i/lub jednostki
oddalone terytorialnie
9
2. Warstwowanie
przed przystąpieniem do losowania są tworzone warstwy,
w taki sposób, by:
• każdy element populacji był zaliczony do jednej i tylko
jednej warstwy,
• nie było elementów pozostających poza warstwami,
• jednostki w danej warstwie były jak najbardziej
podobne,
• warstwy jak najbardziej różniły się między sobą.
Następnie losowania próby dokonuje się z każdej warstwy
niezależne.
Wylosowane ze wszystkich warstw jednostki składają na
ostateczną próbę losową.
Losowanie warstwowe jest ograniczone, gdyż po
wylosowaniu z danej warstwy ustalonej liczby jednostek
do próby, nie można do próby dolosować innych
jednostek z tej warstwy.
10
Cel warstwowania populacji
• Zapewnienie
reprezentatywności
próbie.
Próba
reprezentacyjna – gdy wynik uzyskany z próby tylko
losowo różni się od parametru populacji.
• W przypadku losowania prostego zależnego każda z
prób ma takie same szanse wylosowania. Może się
zdarzyć, że do próby trafią na przykład tylko jednostki
małe albo tylko jednostki duże, pewne jednostki mogą
nie być reprezentowane w próbie mimo że ich udział w
populacji jest znaczny. Próby takie byłyby nie
reprezentatywne.
• Warstwowanie umożliwia wyeliminowanie tych prób,
możliwych do wylosowania w przypadku losowania
nieograniczonego, które są mało reprezentatywne.
11
Warstwowanie jest stosowane, gdy:
• Jest potrzeba uogólnień najpierw na podpopulacje
(województwa, kobiety i mężczyzn), a następnie na całą
populację.
• Nie do wszystkich jednostek można zastosować taki sam
schemat losowania.
• Istnieją tzw. warstwy naturalne (klasy, grupy społeczne),
charakteryzujące się wewnętrzną jednorodnością, ale silnie
zróżnicowane między sobą.
• Populacja jest niejednorodna ze względu na badaną cechę.
• W niektórych warstwach z uwagi na małą liczbę jednostek
przeprowadza się badanie pełne, np. w badaniach
przedsiębiorstw i badaniach rolniczych.
• Są różne koszty pojedynczej obserwacji w warstwach, np.
miasto-wieś.
12
2.1. Proporcjonalna alokacja próby warstwowej
• proporcjonalnie do liczebności danej warstwy
• liczebności próby w warstwach są proporcjonalne do
populacyjnych liczebności warstw: n
N
h
Liczby losowań z warstw: n h
•
•
•
•
 n

Nh n
h
N
N
h - numer warstwy h=1,2,…,H
H – liczba warstw
nh – liczebność próby w h-tej warstwie
Nh - liczebność populacji w h-tej warstwie
Można stosować, gdy: warstwujemy według cechy
jakościowej lub jeśli według ilościowej, to gdy wariancje
13
w warstwach są podobne.
2.2. Optymalna alokacja próby warstwowej
• uwzględnia oprócz liczebności warstw, także zmienność
badanej cechy/cech w poszczególnych warstwach.
• Przyjmuje się, że większa zmienność cechy w danej
warstwie wymaga większej liczebności próby w tej
warstwie.
• Optymalizacja:
1) Maksymalizacja dokładności przy danym całkowitym
koszcie badania;
2) Minimalizacja całkowitego kosztu badania przy danej
dokładności.
14
Gdy są różne koszty pojedynczej obserwacji w warstwach:
K – koszt całkowity badania K  K 0 
K
h
nh
h
K0 – koszt stały
Kh – koszty zmienne jednostkowe pojedynczej obserwacji
statystycznej i jej opracowania, różne w różnych
warstwach.
Liczby losowań z warstw: n h 
K  K0

K hWhSh

WhSh
Kh
h
Wh 
Nh
N
- udział liczebności h-tej warstwy w populacji
15
Optymalny schemat Neymana
• przy danej wielkości próby n, tak ustalamy liczbę
losowań z poszczególnych warstw, aby wariancja
estymatora
bezpośredniego
warstwowego
była
najmniejsza.
• Liczby losowań z warstw
nh  n 
N hSh
N
h
Sh
h
Sh - odchylenie standardowe cechy wastwującej dla h-tej
warstwy
16
Wiele cech warstwujących – jedno z rozwiązań
• najpierw oblicza się liczbę losowań z warstw dla każdej
cechy warstwującej oddzielnie
N S
n hr  n 
h
N
hr
h
S hr
h
• następnie oblicza się liczbę losowań w h-tej warstwie
R
jako średnią arytmetyczną
nh 
1
n

R
hr
r 1
r – numer cechy warstwującej, r=1,2,…,R
R – liczba cech warstwujących
Shr - odchylenie standardowe r-tej cechy wastwującej dla htej warstwy
17
Warstwowanie po wylosowaniu próby
W praktyce zdarzają się sytuacje, gdy operat losowania
nie zawiera informacji, które mogłyby być wykorzystane
do warstwowania populacji, a z innych badań są znane
liczebności Nh.
Wtedy próbę losuje się zgodnie ze schematem
losowania prostego bez zwracania, a po jej wylosowaniu
można ją podzielić na warstwy, którym odpowiadają
liczebności Nh.
Warstwowanie próby po wylosowaniu jest mniej
efektywne niż zastosowanie schematu losowania
warstwowego proporcjonalnego.
18
3. Konstrukcja wag
3.1. Teoria
W praktyce badań statystycznych, przy ograniczonych
środkach na badania statystyczne, stosuje się złożone
schematy losowania próby i złożone estymatory
parametrów populacji.
Często losowanie próby jest wielostopniowe. Ponadto
przeprowadza się warstwowanie populacji przed
wylosowaniem
próby,
a
czasem
warstwowanie
wykonywane jest na kilku stopniach losowania próby.
Celem takich zabiegów jest uzyskanie wiarygodnych
wyników badań, minimalizacja błędów losowych i
nielosowych oraz uzyskanie prób reprezentatywnych,
które dostarczałyby wiarygodnych wyników nie tylko dla
badanej populacji, lecz także dla wyróżnionych
19
podpopulacji.
• W przypadku prób złożonych w szacowaniu parametrów populacji są
stosowane estymatory warstwowe lub/i złożone „wielopiętrowe”
estymatory zaliczające się do estymatorów typu ilorazowego.
• Ta złożoność schematów losowania próby i estymatorów jest w
praktyce omijana poprzez użycie w procesie estymacji tzw. wag.
• Wagi podstawowe są obliczane przed wylosowaniem próby jako
odwrotności prawdopodobieństwa wylosowania danej jednostki do
próby.
• Następnie już po przeprowadzeniu badania statystycznego. wagi
podstawowe są korygowane ze względu na braki odpowiedzi, błędy
pokrycia i niestabilność estymatora.
• Stąd w większości praktycznych sytuacji, wagi końcowe dla
poszczególnych jednostek różnią się nawet wtedy, kiedy wszystkie
zbadane
jednostki
były
losowane
z
takimi
samymi
20
prawdopodobieństwami.
• Wagi są interpretowalne jako liczba jednostek
populacji reprezentowanych przez daną jednostkę.
Np. jeśli jakaś jednostka ma wagę 50, to oznacza to, że
jednostka ta reprezentuje siebie samą i 49 innych
jednostek populacji, które nie znalazły się w próbie.
• Suma wag końcowych w próbie zbadanej szacuje
liczebność populacji.
Estymator liczebności populacji ma postać:
n
w 
w
i 1
i
21
Wagi pierwotne
-
są odwrotnościami prawdopodobieństw
poszczególnych jednostek.
wyboru
do
próby
• w przyp. los. prostego, wagi te są takie same dla wszystkich
jednostek próby: w  N
i
n
• w przyp. los. Warstwowego, wagi te są takie same dla jednostek
wewnątrz danej warstwy:
Nh
w hi 
nh
• w przyp. los. wielostopniowego prawdopodobieństwa wylosowania
jednostek do próby oraz wagi pierwotne otrzymuje się przez
przemnożenie odpowiednio prawdopodobieństw i wag ze
wszystkich stopni losowania próby,
np. dla losowania dwustopniowego, prawdopodobieństwo wybrania
j-tej jednostki losowania II stopnia w i-tej jednostce losowania I
stopnia wynosi:
Pij  Pi  P j / i
W przyp. los. trzystopniowego, prawdopodobieństwo wybrania k-tej
jednostki losowania III stopnia w j-tej jednostce losowania II stopnia w itej jednostce losowania I stopnia wynosi:
Pijk  Pi  P j / i  Pk / ji
Jeśli losowanie na każdym z trzech stopni jest ze zwracaniem i z
jednakowymi prawdopodobieństwami, to:
m ij
m mi
Pijk 

M

M
i
M
ij
m – liczba wylosowanych jednostek losowania I stopnia,
M - liczba wszystkich jednostek losowania I stopnia,
mi – liczba jednostek losowania II stopnia wylosowanych w i-tej jednostce
losowania I stopnia,
Mi - liczba wszystkich jednostek losowania II stopnia w i-tej jednostce
losowania I stopnia,
mij – liczba jednostek losowania III stopnia wylosowanych w j-tej
jednostce losowania II stopnia w i-tej jednostce losowania I stopnia,
Mij - liczba wszystkich jednostek losowania III stopnia w j-tej jednostce
losowania II stopnia w i-tej jednostce losowania I stopnia.
Stąd waga podstawowa dla jednostki wylosowanej w losowaniu
trzystopniowym wynosi:
M ij
M M
w ijk 

m
i
mi

m ij
23
3.2. Konstrukcja wag na przykładzie BAEL
BAEL – Badanie Aktywności Ekonomicznej Ludności, prowadzone
przez GUS co kwartał.
Badana populacja – ludność w wieku 15 lat i więcej.
Operat – TERYT (rejestr podziału terytorialnego kraju)
Losowanie dwustopniowe.
Jednostkami losowania I stopnia
w miastach i obwody spisowe na wsi.
są
Jednostkami
losowania
II
stopnia
w wylosowanych jednostkach I stopnia.
Jednostki badania:
-mieszkania
-gospodarstwa domowe
-osoby w wieku 15 lat i więcej.
rejony
statystyczne
są
mieszkania
24
Przed losowaniem, jednostki losowania I stopnia (jps) są
warstwowane według województwa, następnie warstwy
wewnątrzwojewódzkie - według klasy miejscowości
(wieś, miasta o liczbie mieszk. poniżej 20 tys, 20-100tys,
100-500tys, 500 tys.-1mln, Warszawa).
Jps
są
losowane
do
próby
z
różnymi
prawdopodobieństwami wyboru. Prawdopodobieństwa te
wewnątrz warstw są proporcjonalnie do liczby mieszkań w
jps.
Z każdej jps wylosowanej do próby losowane są losowane
mieszkania (po 8 z jps na wsi i z małych miast, po 6-7 z
miast średnich i po 5z jps wielkomiejskich).
W wylosowanych mieszkaniach badane są osoby w wieku
25
15 lat i więcej.
Etap 1
1
Wagi pierwotne
,
będące
odwrotnościami
j
prawdopodobieństw wyboru do próby poszczególnych
mieszkań:
 j - prawdopodobieństwo wylosowania j-tego
mieszkania należącego do części próby odpowiadającej ktej klasie miejscowości (sk)
Nˆ k 
1

- suma wag jest oceną liczebności populacji
w k-tej klasie miejscowości
j s k
j
26
Etap 2
1
Wagi wtórne
 j Rk
to wagi pierwotne podzielone przez współczynniki realizacji
Rk:
Nˆ
Rk 
k
Nˆ k  Bˆ k
Bk- ocena liczby mieszkań kwalifikujących się do badania,
lecz nie dających się zbadać.
Wagi wtórne są finalnymi dla
gospodarstw domowych i rodzin.
wyników
dotyczących
27
Etap 3
Wagi finalne dla danych ludnościowych – dostosowanie do
bieżących szacunków demograficznych.
Wagi wtórne mnoży się przez tzw. modyfikatory Mkl:
W jkl 
1
 j Rk
M
kl
Suma wag jest oceną liczebności populacji:
ˆ
W

N
 jkl
28
Obliczanie modyfikatorów dla 48 grup ludności
płeć*miasto/wieś*12 grup wieku: 15-17, 18-19, 20-24, 25-29,
30-34, 35-39, 40-44, 45-49, 50-54, 55-59, 60-64, 65lat i więcej
a) Liczba osób w l-tej grupie (l=1,2,…, 48) na podst. BAEL
gˆ kl 

j s k
1
Rk
j
x jl 
1
Rk

x jl
j s k


Nˆ l
Rk
j

gˆ l
Rk
xjl - liczba osób przynależnych do l-tej grupy zbadanych w
BAEL w j-tym mieszkaniu
Nˆ l - ocena liczby osób należących do l-tej kategorii
b) Liczebności populacyjne Gl na podstawie szacunków
demograficznych
c) Modyfikatory
M kl 
Gl
gˆ kl

Gl Rk
gˆ l
 M l Rk
29
„Inne” wagi
• Suma=1
• Suma=100%
• Suma=n
30
4. Losowanie w SAS
4.1. Losowanie w SAS EG
•
proste niezależne
•
proste zależne
•
warstwowe proporcjonalne
(wewnątrz warstw niezależne lub zależne)
31
Aby wylosować próbę przy wykorzystaniu SAS Enterprise Guide
należy:
- otworzyć zbiór danych,
- z górnego paska wybrać Dane, a następnie Próba losowa
32
• W zakładce Role zadania należy podać zmienne wynikowe
(te, które chcemy, aby były w zbiorze wynikowym);
• Jeżeli podamy zmienne warstwowe, to próba zostanie
wylosowana według schematu losowania warstwowego (ze
wskazaną cechą warstwującą);
• Jeżeli nie podamy zmiennych warstwowych, to próba
zostanie wylosowana według schematu losowania prostego;
33
W zakładce Options wybieramy: Metoda losowania – do wyboru
jest:
• Losowanie proste bez zwracania
• Losowanie bez ograniczeń ze zwracaniem
34
Następnie Liczebność próby, możemy ją podać jako:
• liczbę wierszy (nie większą niż liczebność zbioru wejściowego)
• lub procent wierszy
35
Jeżeli wybraliśmy losowanie proste zależne, to otrzymamy zbiór
wynikowy zawierający zmienne wynikowe oraz podsumowanie:
Objaśnienia:
Selection Method Simple Random Sampling Metoda losowania
Input Data Set
Random Number Seed
SORTTEMPTABLESORTED Charakterystyka zbioru
wejściowego
550807000 Ziarno losowe
Sampling Rate
0.1 Frakcja próbki
Sample Size
805 Liczebność próbki
Selection Probability
0.100025 Prawdopodobieństwo
wylosowania jednostki

π=

Sampling Weight
Output Data Set
9.997516 Waga  = 1 = 


RANDRANDOMSAMPLEDATA Nazwa zbioru wynikowego
36
Jeżeli wybraliśmy losowanie proste niezależne, to otrzymamy
zbiór wynikowy zawierający zmienne wynikowe i dodatkową
zmienną Numberhits (liczbę powtórzeń) oraz podsumowanie:
Objaśnienia:
Selection Method Unrestricted Random Sampling Metoda losowania
Input Data Set
Random Number
Seed
SORTTEMPTABLESORTED Charakterystyka zbioru
wejściowego
282934001 Ziarno losowe
Sampling Rate
0.1 Frakcja próbki
Sample Size
805 Liczebność próbki
Expected Number
of Hits
Sampling Weight
Output Data Set
0.10002485 Oczekiwana liczba
powtórzeń
9.997516 Waga  = 

RANDRANDOMSAMPLEDATA_0000 Nazwa zbioru wynikowego
37
Wynik losowania prostego
• Prawdopodobieństwo wylosowania
n
 
N
• Waga
M 
• Suma wag = N
1


N
n
Jeżeli wybraliśmy losowanie proste zależne z warstwowaniem,
to otrzymamy zbiór wynikowy zawierający zmienne wynikowe i
warstwujące oraz podsumowanie:
Objaśnienia:
Selection Method
Simple Random Sampling
Metoda losowania
Strata Variable
plec
Cecha warstwująca
Input Data Set
Random Number
Seed
Stratum
Sampling Rate
Number of
Strata
Total Sample
Size
Output Data Set
SORTTEMPTABLESORTED
896970001
0.1
2
806
RANDRANDOMSAMPLEDATA_0002
Charakterystykę zbioru
wejściowego
Ziarno losowe
Frakcja losowania
Liczba warstw
Całkowita liczebność
próbki
Nazwa zbioru wynikowego
39
Wynik losowania warstwowego
Otrzymamy zbiór wynikowy zawierający zmienne wynikowe i
warstwowe
oraz dwie dodatkowe zmienne:
• SelectionProb (prawdopodobieństwo wylosowania jednostki
z danej warstwy
π h=
• SamplingWeight (wagę dla danej warstwy Waga )
40
4.2. Procedura SURVEYSELECT
PROC SURVEYSELECT opcje ;
STRATA zmienne warstwujące;
CONTROL zmienne sortujące w los.
systematycznym lub sekwencyjnym;
SIZE zmienne wielkości dla losowania
proporcjonalnego do wielkości ;
ID zmienne do przekopiowania ze zbioru
wejściowego;
Najważniejsze opcje PROC SURVEYSELECT :
Metoda losowania Method= lub M=
Wielkość próby sampsize=
lub N= lub frakcja próby samprate= lub rate=
Metody losowania w SAS:
SRS – Losowanie proste (ang. Simple Random Sampling)
URS – Losowanie nieograniczone (ang. Unrestricted Random Sampling)
SYS – Losowanie systematyczne (ang. Systematic Random Sampling)
SEQ – Losowanie sekwencyjne (ang. Sequential Random Sampling)
PPS – Losowanie proporcjonalne do wielkości bez zwracania (ang.
Probability Proportional to Size without Replacement)
6. PPS_WR - Losowanie z prawdopodobieństwami proporcjonalnymi do
wielkości ze zwracaniem (ang. Probability Proportional to Size with
Replacement)
7. PPS_SYS - Losowanie z prawdopodobieństwami proporcjonalnymi do
wielkości systematyczne (ang. Probability Proportional to Size Systematic
Sampling)
8. PPS_SEQ lub CHROMY - Losowanie z prawdopodobieństwami
proporcjonalnymi do wielkości sekwencyjne (ang. Probability Proportional to
Size Sequential Sampling)
9. PPS_BREWER lub BREWER – Losowanie z prawdopodobieństwami
proporcjonalnymi do wielkości metoda Brewera (ang. Probability Proportional
to Size Brewer’s Method)
10. PPS_MURTHY lub MURTHY – Losowanie z prawdopodobieństwami
proporcjonalnymi do wielkości metoda Murthy’ego (ang. Probability
Proportional to Size Murthy’s Method Sampling)
11. PPS_SAMPFORD lub SAMPFORD - Losowanie z prawdopodobieństwami
proporcjonalnymi do wielkości metoda Sampforda (ang. Probability
Proportional to Size Sampford’s Method Sampling)
1.
2.
3.
4.
5.
Dziękuję za uwagę
43

similar documents