Statistika2012_4

Report
STATISTIKA
Ing. Jan Popelka, Ph.D.
odborný asistent
Katedra informatiky a geoinformatiky
Univerzita Jana Evangelisty Purkyně v Ústí nad Labem
email: [email protected]
WWW: http://most.ujep.cz/~popelka
2
 s12 s22 
  
2
2
n m
s1 s2

x1  x2  t1 / 2 (v) 

, kde v 
2
2
n m
1  s12 
1  s22 
  
 
n 1  n  m 1  m 
STATISTICKÁ INDUKCE
STATISTICKÁ INDUKCE
Populace a výběr
 Bodové odhady
 Intervalové odhady jednovýběrové
 Intervalové odhady dvouvýběrové

STATISTICKÁ INDUKCE
Základní soubor – všechny jednotky
Charakteristiky se značí písmeny řecké abecedy: μ, σ, σ2, π, (N)
Výběrový soubor – vybrané jednotky (náhodný výběr)
Charakteristiky se značí písmeny latinské abecedy: x ,s, s2, p, (n)
STATISTICKÁ INDUKCE
Proč nelze změřit základní soubor??
1. Pokud je základní soubor pouze hypotetický, ani jej nemůžeme jako
celek sledovat.
2. Pokud je při měření sledovaný prvek zničen (např. trhací zkouška,
zničení vzorku při analýze), zničili bychom veškerou produkci, která
tvoří základní soubor.
3. Pokud je zkouška prvku příliš časově či finančně nákladná nebo je
rozsah základního souboru příliš velký (všichni obyvatelé ČR) a
nemůžeme si dovolit měřit všechny prvky, alespoň ne často.
STATISTICKÁ INDUKCE
Vlastnosti výběru
1. Všechny prvky základního souboru by měly mít stejnou
pravděpodobnost, že budou zařazeny do výběru.
2. Výběr má být homogenní, tj. všechny prvky mají pocházet ze stejného
základního souboru.
3. Jednotlivé prvky výběru mají být nezávislé. Nesmí vznikat chyba
vzájemným ovlivňováním vzorků nebo chyba závislá na pořadí
měření (na čase) aj.
Příklad: při odběru vzorků nesmí měnit stav vzorkovacího zařízení
(např. znečisťování odebíraného vzorku zbytky vzorku předchozího).
Nesmí se měnit podmínky během odběru (vliv může mít např.
postupná změna teploty, změna vlhkosti, když během vzorkování
prší).
STATISTICKÁ INDUKCE
Metody výběru
Náhodný výběr je výběr, při kterém má každý prvek stejnou
pravděpodobnost být vybrán. Nejlépe odpovídá potřebám statistické
indukce.
Náhodnost výběru lze dosáhnout losováním, výběrem podle tabulek
náhodných čísel či generátoru náhodných čísel.
U základních souborů, kde prvky jsou uspořádány náhodně, lze
postupovat pří výběru systematicky.
Příklad: Každý desátý člověk vycházející z obchodu.
STATISTICKÁ INDUKCE
Metody výběru
Anketa
Oslovíme určitou část populace. Obvykle pomocí dotazníků.
Pozor, jen část oslovených odpovídá a jen část dotazníků se vrátí
zcela vyplněných.
Odpovědi nemusejí být pravdivé (internetové ankety).
STATISTICKÁ INDUKCE
Metody výběru
Metoda základního masivu
Pokud se základní soubor skládá z několika velkých jednotek a
z většího počtu malých (např. velké a malé podniky, města a obce),
zaměříme průzkum jen na velké jednotky a malé vynecháme.
Snížíme pracnost průzkumu, ale nedozvíme se nic o celé specifické
skupině prvků souboru.
STATISTICKÁ INDUKCE
Metody výběru
Záměrný (úsudkový) výběr
Odborníci vytvoří schéma výběru, které by mělo uměle zajistit to, že
zastoupení jednotek ve výběru odpovídá zastoupení v základním
souboru. Používá ČSÚ.
Výsledek může být příliš subjektivně zatížen.
BODOVÝ ODHAD
Odhad charakteristiky základního souboru pomocí charakteristiky
výběrového souboru.
Střední hodnota rozdělení E(X) (nejčastěji aritmetický průměr μ) je
odhadována výběrovým průměrem x .
Rozptyl rozdělení D(X) (nejčastěji σ2 ) je odhadován výběrovým
rozptylem s2. Směrodatná odchylka základního souboru σ je
odhadována výběrovou směrodatnou odchylkou s.
Populační poměr π (podíl hodnot se sledovanou vlastností)
odhadujeme výběrovým poměrem p.
Medián základního souboru je odhadován mediánem výběru, stejně
tak ostatní kvantily.
Modus základního souboru odhadujeme modem pro výběr, tj.
nejčetnější hodnotou ve výběru.
BODOVÝ ODHAD
Příklad: Náhodným výběrem byla zjištěna hmotnost 17 novorozenců.
Průměr byl 2870 g a výběrová směrodatná odchylka 1072 g.
Odhadněte průměrnou hmotnost, rozptyl a směrodatnou odchylku pro
celou populaci.
Řešení: Známe výběrové charakteristiky
x = 2870 g
s = 1072 g
Bodově odhadneme populační charakteristiky
μ = 2870 g
σ = 1072 g
σ2= 10722 = 1 150 108
BODOVÝ ODHAD
Příklad: Věk pacientů malé nemocnice. Vyberte tři až pět hodnot a na
základě Vašeho výběru odhadněte populační průměr.
43
22
59
35
46
34
29
26
53
22
51
21
49
33
28
49
51
45
19
21
39
46
27
59
33
46
42
27
53
35
23
33
49
39
29
19
18
51
45
50
39
28
39
51
44
31
26
34
28
36
39
23
38
49
26
37
55
33
46
60
18
48
54
23
47
20
50
32
43
36
27
21
26
35
31
23
22
38
43
47
39
55
54
33
24
52
43
54
26
37
19
36
24
58
40
21
22
49
41
44
24
31
52
50
30
21
20
53
38
29
44
47
25
29
22
42
56
51
28
30
34
54
44
34
44
56
23
28
28
28
25
39
34
23
44
24
52
37
31
40
50
49
26
54
20
32
28
25
50
46
22
56
36
35
37
29
33
19
19
52
27
43
29
41
35
22
23
BODOVÝ ODHAD
Příklad: Věk pacientů malé nemocnice. Vyberte tři až pět hodnot a na
základě Vašeho výběru odhadněte populační průměr.
Řešení: Pro libovolný výběr lze vypočítat průměr. Průměry se liší.
Pokud bychom vypočetli průměry pro velký počet výběrů, zjistili bychom,
že některé hodnoty se opakují častěji, jiné třeba jen jednou.
BODOVÝ ODHAD
Příklad: Věk pacientů malé nemocnice. Vyberte tři až pět hodnot a na
základě Vašeho výběru odhadněte populační průměr.
Histogram pro průměrný věk
30
150
25
120
20
90
15
60
10
30
5
Průměrný věk
63
100
60
57
54
51
80
48
45
42
60
39
36
33
30
40
27
24
21
20
18
15
12
0
6
3
0
9
0
0
Absolutní četnost
Histogram
aritmetických
průměrů (nikoliv
tedy původních
věků) by mohl
vypadat takto:
Pozn.: Celkem bylo
pořízeno 500
různých výběrů a
tedy spočteno 500
průměrů.
BODOVÝ ODHAD
Příklad: Věk pacientů malé nemocnice. Vyberte tři až pět hodnot a na
základě Vašeho výběru odhadněte populační průměr.
Závěr: nejen samotný ukazatel (v našem případě věk), ale i vypočtená
charakteristika má určité rozdělení.
INTERVALOVÝ ODHAD
Protože bodový odhad se mění od výběru k výběru, je vhodnější
používat spíše intervalový odhad.
Charakteristiky se neodhaduje jedním číslem, ale intervalem, ve kterém
se s určitou pravděpodobností charakteristika základního souboru
nachází.
oboustranný interval
P (Td < μ < Th) = 1-α , kde Td je dolní mez a Th je horní mez
jednostranný interval omezený zdola (levostranný)
P (Td < μ) = 1-α ,
jednostranný interval omezený shora (pravostranný).
P (μ < Th) = 1-α .
INTERVAL SPOLEHLIVOSTI PRO
STŘEDNÍ HODNOTU μ
Má-li základní soubor normální rozdělení, má statistika t
Studentovo rozdělení s n-1 stupni volnosti.
x 
t
 t (n  1)
s
n
x… výběrový průměr
s … výběrová směrodatná odchylka
n … rozsah výběru
t (n-1) ... Studentovo rozdělení
s n-1 stupni volnosti
Hustota pravděpodobnosti f(x) Studentova
rozdělení
INTERVAL SPOLEHLIVOSTI PRO
STŘEDNÍ HODNOTU μ

s
P  x  t1 / 2 (n 1) 
<
n

s 
 < x  t1 / 2 (n 1)    1 
n
Střední hodnota μ se bude s
pravděpodobností (1-α)·100 %
nacházet v uvedeném intervalu a s
pravděpodobností 100·α % mimo
interval.
α je tzv. hladina spolehlivosti.
Je to pravděpodobnost, že se
střední hodnota, bude
nacházet mimo vypočtený
interval.
t0,025 (n1)
t0,975 (n1)
INTERVAL SPOLEHLIVOSTI PRO
STŘEDNÍ HODNOTU μ
Příklad: Náhodným výběrem byla zjištěna hmotnost 17 novorozenců.
Průměr byl 2870 g a výběrová směrodatná odchylka 1072 g.
Za předpokladu normálního rozdělení základního souboru stanovte 95%
interval spolehlivosti pro střední hodnotu hmotnosti.
Řešení: známe výběrové charakteristiky
x= 2870 g, s = 1072 g, n = 17, α = 0,05, t0,975(16)=2,12.
s
s 

P  x  t0,975 (n  1) 
<  < x  t0,975 (n  1) 
  1  0,05
n
n

1072
1072 

P  2870  t0,975 (17  1) 
<  < 2870  t0,975 (17  1) 
  0,95.
17
17 

S pravděpodobností 95 % se střední hodnota hmotnosti novorozenců
nachází v intervalu (2324; 3427).
INTERVAL SPOLEHLIVOSTI PRO
STŘEDNÍ HODNOTU μ
Příklad: Náhodným výběrem byla zjištěna hmotnost 17 novorozenců.
Průměr byl 2870 g a výběrová směrodatná odchylka 1072 g.
Za předpokladu normálního rozdělení základního souboru stanovte 99%
interval spolehlivosti pro střední hodnotu hmotnosti.
Řešení: α = 0,01
1072
1072 

P  2870  t0,995 (17 1) 
<  < 2870  t0,995 (17 1) 
  0,99
17
17 

S pravděpodobností 99 % se střední hodnota hmotnosti novorozenců
nachází v intervalu (2116; 3635).
S pravděpodobností 95 % se střední hodnota hmotnosti novorozenců
nachází v intervalu (2324; 3427).
INTERVAL SPOLEHLIVOSTI PRO
STŘEDNÍ HODNOTU μ
Čím vyšší je hladina spolehlivosti α, tím užší je interval spolehlivosti.
Čím větší jistota, že hodnota padne do odhadnutého intervalu, tím je
interval širší. 100% interval spolehlivosti je bohužel (-∞; ∞).
α = 0,1
α = 0,01
90% interval spolehlivosti
99% interval spolehlivosti
INTERVAL SPOLEHLIVOSTI PRO
STŘEDNÍ HODNOTU μ

s 
P   < x  t1 (n 1)    1  
n

Střední hodnota μ bude s
pravděpodobností (1-α)·100 %
menší než horní mez intervalu a s
pravděpodobností 100·α % větší
než tato hodnota.
Jednostranný interval
omezený shora
(pravostranný).
t0,95 (n1)
INTERVAL SPOLEHLIVOSTI PRO
STŘEDNÍ HODNOTU μ


s
P  x  t1 (n 1) 
<    1 
n


Střední hodnota μ bude s
pravděpodobností (1-α)·100 %
větší než dolní mez intervalu a s
pravděpodobností 100·α % menší
než tato hodnota.
Jednostranný interval
omezený zdola
(levostranný).
t0,05 (n1)
INTERVAL SPOLEHLIVOSTI PRO
STŘEDNÍ HODNOTU μ
Příklad: Náhodným výběrem byla zjištěna hmotnost 17 novorozenců.
Průměr byl 2870 g a výběrová směrodatná odchylka 1072 g. Za
předpokladu normálního rozdělení základního souboru stanovte pod
jakou hodnotu neklesne s pravděpodobností 90 % střední hodnota
hmotnosti novorozenců.
Řešení: počítáme levostranný interval spolehlivosti (α = 0,1), t0,9(16)=1,33.


s
P  x  t0,90 (n 1) 
<    1  0,1  0,9
n


1072


P  2870  t0,90 (17  1) 
<    0,90
17


S pravděpodobností 90 % neklesne střední hodnota hmotnosti
novorozenců pod hodnotu 2528 g.
INTERVAL SPOLEHLIVOSTI PRO
STŘEDNÍ HODNOTU μ
V programu MS Excel je nutno mít zdrojová data uspořádaná do
sloupce. Nestačí tedy znát průměr a výběrovou sm. odchylku.
Data - Analýza – Analýza dat – Popisná statistika
Volba „Celkový přehled“
vypočte popisné
charakteristiky souboru.
Volba „Hladina spolehlivosti
pro stř. hodnotu“ vypočte
chybu odhadu. Zadává se
hladina spolehlivosti v
procentech.
26
INTERVAL SPOLEHLIVOSTI PRO
STŘEDNÍ HODNOTU μ
Data - Analýza – Analýza dat – Popisná statistika
Meze intervalu spolehlivosti je nutno
dopočítat:
Dolní mez = stř. hodnota – hl.spol. (95%)
Horní mez = stř. hodnota + hl.spol. (95%) 27
INTERVAL SPOLEHLIVOSTI PRO
STŘEDNÍ HODNOTU μ
Při výpočtu jednostranného intervalu, je nutno v MS Excel hladinu
spolehlivosti upravit na 100∙(1-2*α).
95% jednostranný interval
=> zadáme 90%
99% jednostranný interval
=> zadáme 98%
90% jednostranný interval
=> zadáme 80%
28
INTERVAL SPOLEHLIVOSTI PRO
ROZPTYL σ2
Má-li základní soubor normální rozdělení, má statistika z
chí-kvadrát rozdělení s n-1 stupni volnosti.
z
(n  1) s 2
2
  2 (n  1)
s … výběrová směrodatná odchylka
n … rozsah výběru
Hustota pravděpodobnosti f(x) chí-kvadrát
rozdělení
INTERVAL SPOLEHLIVOSTI PRO
ROZPTYL σ2
 (n  1)  s 2
(n  1)  s 2 
2
P 2
< < 2
  1
 / 2 (n  1) 
 1 / 2 (n  1)
Populační rozptyl σ2 se bude s
pravděpodobností (1-α)·100 %
nacházet v uvedeném intervalu a s
pravděpodobností 100·α % mimo
interval.
Pozor! Chi-kvadrát není
souměrné rozdělení,
proto se obě meze
intervalu počítají
χ20,025(n-1)
s jiným kvantilem.
χ20,975(n-1)
INTERVAL SPOLEHLIVOSTI PRO
ROZPTYL σ2
 2 (n  1)  s 2 
P  < 2
  1
 (n  1) 

Populační rozptyl σ2 bude s
pravděpodobností (1-α)·100 %
menší než horní mez intervalu a s
pravděpodobností 100·α % větší
než tato hodnota.
Jednostranný interval
omezený shora
(pravostranný).
χ20,95(n-1)
INTERVAL SPOLEHLIVOSTI PRO
ROZPTYL σ2
 (n  1)  s 2
2
P 2
<    1
 1 (n  1)

Populační rozptyl σ2 bude s
pravděpodobností (1-α)·100 %
větší než dolní mez intervalu a s
pravděpodobností 100·α % menší
než tato hodnota.
Jednostranný interval
omezený zdola
(levostranný).
χ20,05(n-1)
INTERVAL SPOLEHLIVOSTI PRO POMĚR π
Oboustranný interval spolehlivosti

p(1  p)
p(1  p) 
P  p  u1 / 2 
<  < p  u1 / 2 
  1 


n
n


Jednostranný interval omezený shora


p(1  p)
P  p  u1 
<    1 


n


Jednostranný interval omezený zdola

p(1  p) 
P   < p  u1 
  1 

n 

INTERVAL SPOLEHLIVOSTI PRO POMĚR π
Příklad: www.idnes.cz 24.8.2011
Více než polovina Čechů chce, aby Klaus zůstal v politice
Kariéra prezidenta Václava Klause zřejmě nemusí skončit s odchodem z
prezidentského křesla. Podle průzkumu Lidových novin si totiž 55 procent
Čechů přeje jeho setrvání na tuzemské politické scéně - ať už v rámci již
existujících stran, nebo v čele zcela nového politického uskupení. Naopak jeho
odchod si přeje 44 procent lidí.
Kolik lidí by muselo být dotázáno, aby odhad byl v intervalu 55% ± 4%, tedy
aby se dalo hovořit o nadpoloviční většině?
INTERVAL SPOLEHLIVOSTI PRO POMĚR π
Příklad: Více než polovina Čechů chce, aby Klaus zůstal v politice
Kolik lidí by muselo být dotázáno, aby odhad byl v intervalu 55 % ± 4 % ?
Řešení: V tomto případě známe následující parametry:
p = 0,55
Δ = 0,04 (delta je chyba odhadu)
n=?
α = 0,05 (pokud není výslovně udáno, volí se 0,05)

p(1  p)
p(1  p) 
P  p  u1 / 2 
<  < p  u1 / 2 
  1 


n
n


p(1  p)
P  p   <  < p     1 0,05 , takže   u1 / 2 
n
INTERVAL SPOLEHLIVOSTI PRO POMĚR π
Příklad: Více než polovina Čechů chce, aby Klaus zůstal v politice
Kolik lidí by muselo být dotázáno, aby odhad byl v intervalu 55 % ± 4 % ?
P  p   <  < p     1 0,05 , takže   u1 / 2 
2

p(1  p) 
n   u1 / 2 




2

0,55(1  0,55) 
n  1,96 
  595
0, 04


p(1  p)
n
K tomu, aby odhad byl v intervalu 55 %±4%, je nutno dotázat se nejméně 595
osob!
INTERVAL SPOLEHLIVOSTI PRO POMĚR π
Příklad: Více než polovina Čechů chce, aby Klaus zůstal v politice
Kolik lidí by muselo být dotázáno, aby odhad byl v intervalu 55 % ± 4 % ?
10 osob
(0,24 < π < 0,86)
100 osob
(0,45 < π < 0,65)
500 osob
(0,51 < π < 0,59)
1000 osob
(0,52 < π < 0,58)
Pozor na výsledky anket v médiích a na internetu. Často chybí informace o
počtu respondentů a anketa tak může poskytovat velmi zkreslující závěry!
INTERVAL SPOLEHLIVOSTI PRO POMĚR π
Příklad: Více než polovina Čechů chce, aby Klaus zůstal v politice
Kolik lidí by muselo být dotázáno, aby odhad byl v intervalu 55 % ± 4 % ?
P  p   <  < p     1  0,01 , takže   u1 / 2 
2

p (1  p) 
n   u1 / 2 




2


0, 55(1  0, 55)
n   2, 57 
  1026
0, 04


p(1  p)
n
K tomu, aby odhad byl v intervalu 55 %± 4% s hladinou spolehlivosti 0,01, je nutno
dotázat se nejméně 1026 osob!
INTERVALOVÝ ODHAD
Intervalový odhad je velice užitečný nástroj po porovnání populačních
charakteristik dvou výběrů pocházejících z nezávislých základních
souborů s normálním rozdělením.
INTERVAL SPOLEHLIVOSTI PRO
PODÍL ROZPTYLŮ σ21/σ22
Interval spolehlivosti pro podíl dvou populačních rozptylů σ21 a σ22.
 s12
 12
s12
1
1
P  2
< 2 < 2
s2 F / 2 (n  1; m  1)
 s2 F1- /2 (n  1; m  1)  2

  1   ,

kde s12 je výběrový rozptyl prvního výběru,
s22 je výběrový rozptyl druhého výběru,
n je rozsah prvního výběru, m je rozsah druhého výběru,
F1-α (n-1;m-1) je kvantil F rozdělení.
Pokud interval zahrnuje i hodnotu jedna, pak jsou oba populační rozptyly
shodné!
INTERVAL SPOLEHLIVOSTI PRO
ROZDÍL STŘEDNÍCH HODNOTU μ1
– μ2
Interval spolehlivosti pro rozdíl dvou populačních průměrů μ1 a μ2 za
podmínky rovnosti populační rozptylů σ21 = σ22 .
n  m (n  1)s12  (m  1)s22
x1  x2  t1 /2 (n  m  2) 

nm
nm2
kde s12 je výběrový rozptyl prvního výběru,
s22 je výběrový rozptyl druhého výběru,
x1 a x2 jsou výběrové průměry,
n je rozsah prvního výběru, m je rozsah druhého výběru.
Pokud interval zahrnuje i hodnotu nula, pak jsou oba populační průměry
shodné!
INTERVAL SPOLEHLIVOSTI PRO
ROZDÍL STŘEDNÍCH HODNOTU μ1
– μ2
Interval spolehlivosti pro rozdíl dvou populačních průměrů μ1 a μ2 za
podmínky rovnosti populační rozptylů σ21 = σ22 .
Pokud platí n = m je vzorec jednodušší:
s12  s22
x1  x2  t1 /2 (n  m  2) 
n
Pokud interval zahrnuje i hodnotu nula, pak jsou oba populační průměry
shodné!
INTERVAL SPOLEHLIVOSTI PRO
ROZDÍL STŘEDNÍCH HODNOTU μ1
– μ2
Interval spolehlivosti pro rozdíl dvou populačních průměrů μ1 a μ2 za
podmínky libovolných populačních rozptylů σ21≠ σ22 .
2
s
s 
  
2
2
n m
s1 s2

x1  x2  t1 / 2 (v) 

, kde v 
2 2
2 2
n m
1  s1 
1  s2 
  
 
n 1  n  m 1  m 
2
1
2
2
Pokud interval zahrnuje i hodnotu nula, pak jsou oba populační průměry
shodné!
INTERVAL SPOLEHLIVOSTI PRO
ROZDÍL STŘEDNÍCH HODNOTU μ1
– μ2
Interval spolehlivosti pro rozdíl dvou populačních průměrů μ1 a μ2 za
podmínky libovolných populačních rozptylů σ21≠ σ22 .
Pokud platí n = m je vzorec jednodušší:
s s 

s s
x1  x2  t1 / 2 (v) 
, kde v  4 4 (n -1)
n
s1  s2
2
1
2
2
2
1
2 2
2
Pokud interval zahrnuje i hodnotu nula, pak jsou oba populační průměry
shodné!
INTERVAL SPOLEHLIVOSTI PRO
ROZDÍL STŘEDNÍCH HODNOTU μ1
– μ2
Příklad: V Mostě byla zjištěna hmotnost 17 novorozenců s průměrnou
hmotností 2870 g a výběrovou směrodatnou odchylkou 840 g. V
Chomutově bylo sledováno 20 novorozenců, s průměrnou hmotností 3
105 g a směrodatnou odchylkou
875 g. Jsou za předpokladu normálního rozdělení obou základních
souborů průměrné hmotnosti v obou městech stejné? Zjistěte s
použitím hladiny spolehlivosti 0,05.
Řešení: známe výběrové charakteristiky
x1 = 2870 g, x2= 3105 g, s1 = 840 g, s2 = 875 g, n = 17, m = 20
To, že se oba výběrové průměry liší neznamená, že se liší i průměry
populační μ1 = μ2. Pokud se intervaly spolehlivosti pro populační
průměry překrývají, pak jsou obě střední hodnoty stejné a platí
μ1 = μ2.
INTERVAL SPOLEHLIVOSTI PRO
ROZDÍL STŘEDNÍCH HODNOTU μ1
– μ2
Řešení: známe výběrové charakteristiky
x1 = 2870 g, x=2 3105 g, s1 = 840 g, s2 = 875 g, n = 17, m = 20
Pro sestrojení intervalu spolehlivosti pro rozdíl průměrů je potřeba
vědět, zda se populační rozptyly rovnají nebo ne.
Nejdříve bude sestrojen 95% interval spolehlivosti pro podíl rozptylů.
 s2

 12
s12
1
1
1
P 2
<
< 2
  1  0,05
 s2 F0,975 (n  1; m  1)  22
s2 F0,025 (n  1; m  1) 

 8402

 12
1
8402
1
P 2
<
<
  0,95  95%
2
 875 F0,975 (17  1; 20  1)  22
875 F0,025 (17  1; 20  1) 

Protože je interval v rozmezí (0,3558; 2,4841), lze usoudit, že jsou
populační rozptyly shodné. Interval obsahuje i hodnotu jedna.
INTERVAL SPOLEHLIVOSTI PRO
ROZDÍL STŘEDNÍCH HODNOTU μ1
– μ2
Řešení: známe výběrové charakteristiky
x1 = 2870 g, x2= 3105 g, s1 = 840 g, s2 = 875 g, n = 17, m = 20
Populační rozptyly jsou shodné, proto
n  m (n  1)s12  (m  1)s22
x1  x2  t1 /2 (n  m  2) 

nm
nm2
17  20 (17 1)  8402  (20 1)  8752
2870  3105  t0,975 (17  20  2) 

17  20
17  20  2
S pravděpodobnostní 95 % se bude rozdíl středních hodnot hmotností
pohybovat v intervalu (-900; 250). Interval obsahuje i hodnotu nula.
Rozdíl mezi středními hodnotami tedy není významný. Průměrná porodní
hmotnost v Mostě a Chomutově je stejná.
ROBUSTNÍ ODHAD
Robustní odhady se používají pokud:
•
Výběrový soubor nemá normální
rozdělení.
•
Soubor má malý rozsah.
•
V souboru jsou odlehlá měření.
ROBUSTNÍ ODHAD
Bodový odhad střední hodnoty základního souboru lze provádět
robustním způsobem pomocí:
•
mediánu,
•
useknutého průměru,
•
modu.
Ke každé charakteristice lze dopočítat rozptyl nebo směrodatnou
odchylku.
ROBUSTNÍ ODHAD
Intervalový odhad střední hodnoty pro malé soubory (n = 2)
 x1  x2
x1  x2
x1  x2 
x1  x2
P
 T

 T
  1  ,
2
2
2 
 2
 
T

cotg
kde je pro normální rozdělení 

 2
Pro 95% interval platí T0,05 = 12,71.

.

ROBUSTNÍ ODHAD
Intervalový odhad střední hodnoty pro malé soubory (n = 3).
Osvědčuje se použít jako bodový odhad průměr ze dvou bližších hodnot,
než medián ze všech tří.
s
s 

P  x  T
   x  T
  1  ,
3
3

kde je pro normální rozdělení
T 
Pro 95% interval platí T‘0,05 = 4,3.
3 

.
4

1
ROBUSTNÍ ODHAD
Bodový odhad střední hodnoty pro malé soubory (4 ≤ n ≤ 20).
Jako bodový odhad střední hodnoty se používá pivotová polosuma
PL = 0,5·(xD + xH).
Hodnoty dolního pivotu xD a horního pivotu xH jsou vybrané kvantily
jejichž indexy H a D jsou určeny
  n 1  
  n 1  
I   int 
 1 / 2 
 / 2  nebo I   int 
 
  2  
  2
dle toho, které I bude celé číslo .
Dolní pivot je I-procentní kvantil xD = xI ,
horní pivot je (n+1-I) procentní kvantil xH = xn+1-H .
ROBUSTNÍ ODHAD
Intervalový odhad střední hodnoty pro malé soubory (4 ≤ n ≤ 20).
Výpočet je založen na pivotové polosumě PL
P  PL  RL  t L ,1 /2 (n)    PL  RL  t L ,1 /2 (n)   1   .
Kvantily TL rozdělení tL,1-α/2 jsou uvedeny v samostatné tabulce a
RL je odhad rozptylu, tzv. pivotové rozpětí RL = xH - xD.
ROBUSTNÍ ODHAD
STATISTICKÁ INDUKCE
DŮLEŽITÉ POJMY – 4. PŘEDNÁŠKA
Populace a výběr
 Náhodný výběr
 Bodový odhad
 Intervalový odhad
 Hladina spolehlivosti
 Oboustranný interval spolehlivosti
 Jednostranný interval spolehlivosti
 Chyba odhadu
 Robustní odhad

55

similar documents