Statistika2012_1

Report
STATISTIKA
Ing. Jan Popelka, Ph.D.
odborný asistent
Katedra informatiky a geoinformatiky
Univerzita Jana Evangelisty Purkyně v Ústí nad Labem
email: [email protected]
WWW: http://most.ujep.cz/~popelka
n
L β   
i 1

 
 0 j D

i

 xβ
1  exp   te


POPISNÁ STATISTIKA
T
i
e
j Ri
T
xjβ


  exp(  t ) dt 


STATISTIKA – 1. PŘEDNÁŠKA
Základní informace o kurzu
 Pojmy
 Zpracování dat

3
ZÁKLADNÍ INFORMACE
Základní literatura a přednášky

POPELKA, J., SYNEK, V. Úvod do statistické analýzy dat. Univerzita J. E.
Purkyně v Ústí nad Labem, Fakulta životního prostředí, 2009. 200 stran.
ISBN 978-80-7414-117-1.

E-learningový kurz: Statistika
Lokální disk na síti FŽP UJEP - cvičení

4
ZÁKLADNÍ INFORMACE
Doporučená literatura

HENDL, J. Přehled statistických metod zpracování dat. Portál, Praha
2006. ISBN 80-7367-123-9.

CYHELSKÝ, L., HINDLS, R., KAHOUNOVÁ, J.
Elementární statistická analýza. 2. vyd. Management Press, Praha 1999.
ISBN 80-7261-003-1.
HINDLS, R., HRONOVÁ, S., NOVÁK, I.
Metody statistické analýzy pro ekonomy. 2. aktualizované a rozšíř. vyd.
Management Press, Praha 2000. ISBN 80-7261-013-9.

5
ZÁKLADNÍ POJMY
„Statistika je přesný součet nepřesných čísel.“ (Zdeněk Opava)
„Statistika je nauka, jak získat informace z numerických dat.“ (Jan
Hendl)
„Statistika nuda je, má však cenné údaje … “ (Zdeněk Svěrák)
„Statistika je jako bikiny. Odhalí téměř vše, ale to nejdůležitější nám
zůstane skryto.“ (autor neznámý)
6
ZÁKLADNÍ POJMY
STATISTIKA






údaje neboli data o hromadných jevech – ročenky a souhrny,
praktická činnost - získávání dat o hromadných jevech, jejich
zpracování , vyhodnocování a zveřejňování výsledků,
vědecký obor - zkoumání zákonitostí hromadných jevů, souhrn
vědeckých metod sběru dat, zpracování a analýzy,
statistické výkazy a dotazníky sloužící ke sběru dat o hromadných
jevech,
slangově i oddělení, organizace a instituce zabývající se sběrem a
zpracováním dat,
číselné charakteristiky - sloužící k popisu vlastností hromadných jevů.
7
ZÁKLADNÍ POJMY
HROMADNÝ JEV
Statistika se zabývá jevy, které se
vyznačují velkými počty výskytů
(hromadností).
 Hromadný jev (na rozdíl od
jednotlivého jevu) se může v prostoru
a čase mnohokrát opakovat .
 Při pozorování hromadného jevu se u
každého pozorovaného prvku mohou
projevovat jeho individuální vlastnosti
a vlastnosti typické pro skupinu prvků
 S větším počtem pozorování se stírají
vlivy jedinečnosti a více se uplatňují
vlivy společné – zákonité .
8
ZÁKLADNÍ POJMY
STATISTICKÉ JEDNOTKY A ZNAKY
Statistická jednotka (předmět sledování)
člověk, zvíře, rostlina, předmět, událost,
územní celek
Statistický znak
(vlastnost jednotky, kterou jsme
schopni číselně nebo slovně
popsat)
9
ZÁKLADNÍ POJMY
STATISTICKÉ SOUBORY
Základní soubor (populace)
všechny jednotky, které existují v
rámci nějakého logického celku

Všichni obyvatelé ČR (cca 10 mil.)
Všechny sovy v Krušných horách
(stovky?)
 Každá část ovzduší ve městě Most
(neurčitelně velký soubor)
 Všechny kraje ČR (14)
 Všechny telefonní hovory v síti
(miliardy za rok)
 Reálný svět (?)

Výběrový soubor – vybrané jednotky
Výběr je nejčastěji náhodný výběr nebo
systematický.
Náhodně oslovení lidé na ulici
(maximálně 3000)
Odchycené sovy v hnízdních budkách
(do 30 jedinců)
Odebrané vzorky ve stanici ČHmÚ
(denní odběry)
Kraje na severu ČR (4)
Telefonní hovory monitorované v
termínu 24.-30.9.2012 (tisíce)
Laboratorní pokusy (3 pokusy)
ZÁKLADNÍ POJMY
STATISTICKÉ PROMĚNNÉ
11
ZÁKLADNÍ POJMY
STATISTICKÉ PROMĚNNÉ
Jméno
Pohlaví
Věk
Výška
Počet
sourozenců
Vzdělání
Pořadí v
závodu
….
Jana
žena
56
159,32
2
vysokoškolské
5.
Olda
muž
38
178
0
základní
2.
Káťa
žena
17
161
3
základní
3.
Lenča
žena
25
165,5
4
středoškolské s maturitou
1.
Milánek
muž
5
110
0
žádné
4.
ZÁKLADNÍ ZPRACOVÁNÍ DAT
ŘAZENÍ, TŘÍDĚNÍ
Příklad:
Počet kotlů na pevná paliva
v domácnosti:
1202151000100101010
124321100000000
Tabulka prostého třídění
Počet kotlů
Četnost
0
17
1
10
2
4
3
1
4
1
5
1
Řazení
• kvantitativní proměnné
podle velikosti
• kvalitativní ordinální
podle významu
• kvalitativní nominální
abecedně
Třídění
zpřehlednění velkého
množství dat do tabulek
např. uspořádání do tzv.
tabulky četností.
Grafická prezentace
grafy, diagramy.
13
ZÁKLADNÍ ZPRACOVÁNÍ DAT
TŘÍDĚNÍ
Příklad:
Soubor koncentrace Pb v ovzduší
města Litoměřice má 104 hodnot
(104 měření).
Tabulky intervalového třídění
Koncentrace
Prosté třídění
• kvantitativní diskrétní proměnná
Intervalové třídění
• kvantitativní spojitá proměnná
• kvantitativní diskrétní proměnná s
vysokým počtem obměn
Četnost
(1,9 – 5,3>
25
(5,3 – 8,7>
26
Koncentrace
Četnost
(8,7 – 12,1>
31
(0 – 5>
25
(12,1 – 15,5>
9
(5 – 10>
24
(15,5 – 18,9>
6
(10 – 15>
38
(18,9 – 22,3>
3
(15 – 20>
12
(22,3 – 25,7>
2
(20 – 25>
3
(25,7 – 29,1>
2
(25 – 30>
2
14
ZÁKLADNÍ ZPRACOVÁNÍ DAT
TŘÍDĚNÍ
Histogram – prosté třídění
Histogram – intervalové třídění
15
ZÁKLADNÍ ZPRACOVÁNÍ DAT
TABULKA ČETNOSTÍ
16
ZÁKLADNÍ ZPRACOVÁNÍ DAT
TABULKA ČETNOSTÍ
Volba vhodného počtu tříd (řádků) v tabulce četností.
Prosté třídění:
• Podle počtu obměn diskrétní proměnné
• Počet tříd se rovná počtu obměn.
Počet kotlů
Četnost
0
17
1
10
2
4
3
1
4
1
5
1
17
ZÁKLADNÍ ZPRACOVÁNÍ DAT
TABULKA ČETNOSTÍ
Volba vhodného počtu tříd (řádků) v tabulce
četností
Intervalové třídění:
•Sturgesovo pravidlo
počet intervalů ≈ 1 + 3,3·log10 (počet hodnot)
• Jednoduché (odmocninové) pravidlo
počet intervalů ≈ √počet hodnot
• Subjektivně
(např. intervaly po 5µg/m3. Vhodné spíše pro prezentaci dat než
stat. analýzy.
Třídy musí zahrnovat všechny hodnoty a nejčastěji
se volí stejně široké. Krajní intervaly mohou být širší
pokud zahrnují výrazně vysoké nebo nízké hodnoty.
Tabulka četností se
šesti třídami
a subjektivně
stanovenými
hranicemi intervalů
Koncentrace
Četnost
(0 – 5>
25
(5 – 10>
24
(10 – 15>
38
(15 – 20>
12
(20 – 25>
3
(25 – 30>
18
2
ZÁKLADNÍ ZPRACOVÁNÍ DAT
TABULKA ČETNOSTÍ
Třída
Koncentrace
1
(0 – 5>
2
(5 – 10>
3
(10 – 15>
4
(15 – 20>
5
(20 – 25>
6
(25 – 30>
Subjektivní volba počtu tříd
Soubor koncentrace Pb v ovzduší má 104
hodnot . Nejmenší hodnota sledovaného
souboru je 2 µg/m3 a největší 29 µg/m3.
Tabulka musí zahrnovat všechny hodnoty!
Zvolíme rozpětí třídy 5 µg/m3. Toto uspořádání
je přehledné a jednoduché. Počet tříd je pak
6 = (30 – 0)/5.
Třídy se nesmějí překrývat, proto se aplikují
zleva otevřené a zprava uzavřené intervaly .
Tabulka je vhodná pro prezentaci hodnot, ne
však pro statistické analýzy.
19
ZÁKLADNÍ ZPRACOVÁNÍ DAT
TABULKA ČETNOSTÍ
Tabulka četností s
osmi třídami
a hranicemi intervalů
stanovenými
Sturgesovým
pravidlem
Třída
Koncentrace
1
(1,9 – 5,3>
2
(5,3 – 8,7>
3
(8,7 – 12,1>
4
(12,1 – 15,5>
5
(15,5 – 18,9)
6
(18,9 – 22,3>
7
(22,3 – 25,7>
8
(25,7 – 29,1>
Volba počtu tříd dle statistických pravidel
Při použití jednoduchého (odmocninového) pravidla
na soubor se 104 hodnotami by byl počet tříd
√104 ≈ 10.
Sturgesovo pravidlo stanovuje následující počet tříd:
1 + 3,3log10 104 ≈ 8.
Rozpětí tříd se pak spočítá podle vzorce:
(maximální hodnota – minimální hodnota)
počet tříd
=(29 – 2)/8 = 3,375 ≈ 3,4 µg/m3
20
Některé statistické analýzy vyžadují aplikaci Sturgesova pravidla.
ZÁKLADNÍ ZPRACOVÁNÍ DAT
TABULKA ČETNOSTÍ
Třída
Koncentrace
Střed intervalu
x*
Absolutní
četnost ni
1
(1,9 – 5,3>
3,6
25
2
(5,3 – 8,7>
7,0
26
3
(8,7 – 12,1>
10,4
31
4
(12,1 – 15,5>
13,8
9
5
(15,5 – 18,9)
17,2
6
6
(18,9 – 22,3>
20,6
3
7
(22,3 – 25,7>
24,0
2
8
(25,7 – 29,1>
27,4
2
Celkem
Střed třídy (x*)
prostřední hodnota mezi
horní a dolní mezí třídy
Absolutní četnost (ni)
počet hodnot v souboru
spadající do příslušné
třídy
104
21
ZÁKLADNÍ ZPRACOVÁNÍ DAT
TABULKA ČETNOSTÍ
Třída
Koncentrace
Absolutní
četnost ni
Relativní
četnost pi
1
(1,9 – 5,3>
25
0,24
2
(5,3 – 8,7>
26
0,25
3
(8,7 – 12,1>
31
0,29
4
(12,1 – 15,5>
9
0,09
5
(15,5 – 18,9)
6
0,06
6
(18,9 – 22,3>
3
0,03
7
(22,3 – 25,7>
2
0,02
8
(25,7 – 29,1>
2
0,02
104
1,00
Celkem
Relativní četnost (pi)
relativní počet hodnot
(uvádí se i v procentech)
v souboru spadající do
příslušné třídy
22
ZÁKLADNÍ ZPRACOVÁNÍ DAT
TABULKA ČETNOSTÍ
Třída
Koncentrace
Absolutní
četnost ni
Kumulativní
absolutní
četnost kni
1
(1,9 – 5,3>
25
25
2
(5,3 – 8,7>
26
51
3
(8,7 – 12,1>
31
82
4
(12,1 – 15,5>
9
91
5
(15,5 – 18,9)
6
97
6
(18,9 – 22,3>
3
100
7
(22,3 – 25,7>
2
102
8
(25,7 – 29,1>
2
104
104
-
Celkem
Kumulativní absolutní
četnost (kni)
počet hodnot v
souboru, které jsou
menší nebo rovny
horní hranici
příslušného intervalu
23
ZÁKLADNÍ ZPRACOVÁNÍ DAT
TABULKA ČETNOSTÍ
Třída
Koncentrace
Absolutní
četnost ni
Kumulativní
relativní
četnost kpi
1
(1,9 – 5,3>
25
0,24
2
(5,3 – 8,7>
26
0,49
3
(8,7 – 12,1>
31
0,78
4
(12,1 – 15,5>
9
0,87
5
(15,5 – 18,9)
6
0,93
6
(18,9 – 22,3>
3
0,96
7
(22,3 – 25,7>
2
0,98
8
(25,7 – 29,1>
2
1,00
Celkem
Kumulativní relativní
četnost (kpi)
relativní počet hodnot
(uvádí se i v
procentech) v souboru,
které jsou menší nebo
rovny horní hranici
příslušného intervalu
104
24
ZÁKLADNÍ ZPRACOVÁNÍ DAT
TABULKA ČETNOSTÍ
Třída
Koncentrace
Střed
intervalu
xi*
Absolutní
četnost ni
Relativní
četnost pi
Kumulativní
absolutní četnost
kni
Kumulativní
relativní četnost
kpi
1
(1,9 – 5,3>
3,6
25
0,24
25
0,24
2
(5,3 – 8,7>
7,0
26
0,25
51
0,49
3
(8,7 – 12,1>
10,4
31
0,29
82
0,78
4
(12,1 – 15,5>
13,8
9
0,09
91
0,87
5
(15,5 – 18,9>
17,2
6
0,06
97
0,93
6
(18,9 – 22,3>
20,6
3
0,03
100
0,96
7
(22,3 – 25,7>
24,0
2
0,02
102
0,98
8
(25,7 – 29,1>
27,4
2
0,02
104
1,00
104
1,00
-
-
Celkem
25
ZÁKLADNÍ ZPRACOVÁNÍ DAT
TABULKA ČETNOSTÍ
Histogram četností – absolutní četnost ni
26
ZÁKLADNÍ ZPRACOVÁNÍ DAT
TABULKA ČETNOSTÍ
Histogram četností – kumulativní absolutní četnost
27
ZÁKLADNÍ ZPRACOVÁNÍ DAT
TABULKA ČETNOSTÍ
Polygon četností (spojnicový graf)
28
ZÁKLADNÍ ZPRACOVÁNÍ DAT
TABULKA ČETNOSTÍ
Sloupcový graf
pokud jde o prosté třídění
znaku, nebo intervalové
třídění s nestejně
širokými intervaly. Mezi
sloupce se vkládají
mezery.
Histogram četností
pouze pokud jsou všechny
intervaly stejně široké
29
ZÁKLADNÍ ZPRACOVÁNÍ DAT
TABULKA ČETNOSTÍ
Sloupcový graf
pokud jde o prosté třídění
znaku, nebo intervalové s
nestejně širokými
intervaly.
Mezi sloupce se vkládají
mezery.
(grafická úprava z tisku)
30
ZÁKLADNÍ ZPRACOVÁNÍ DAT
TABULKA ČETNOSTÍ - MS EXCEL
V programu MS Excel je nutno mít zdrojová data uspořádaná do
sloupce a ručně zadané dolní a horní meze všech tříd.
Data - Analýza – Analýza dat - Histogram
Do políčka „Hranice tříd“
zadáváme pouze horní
meze.
Volba „Kumulativní
procentuální podíl“ vypočte
kumulativní relativní
četnost.
31
ZÁKLADNÍ ZPRACOVÁNÍ DAT
DŮLEŽITÉ POJMY – 1. PŘEDNÁŠKA
• Hromadný jev
• Statistická jednotka a znak
• Statistická proměnná
• Základní soubor
• Výběrový soubor
• Prosté a intervalové třídění dat
• Tabulka četností
• Sturgesovo pravidlo
• Absolutní, relativní, kumulativní absolutní a
kumulativní relativní četnost
• Histogram a polygon
32

similar documents