講義資料

Report
確率と統計
メディア学部2010年後期
No.3
平成22年10月7日(木)
前回の内容
• データ解析の演習
1. 度数分布表の作成
2. ヒストグラムの作成
2
Copyright© 2010 Tokyo University of Technology
今日の内容
• データ解析
1. 度数分布表の作成(復習)
2. ヒストグラムの作成(復習)
3. グラフの分析
• (データの)代表値
• (データの)散らばり
3
Copyright© 2010 Tokyo University of Technology
調査課題:新生児の体重
• 調査方法
• 調査場所
• 調査対象者
• 調査実施者
• 調査実施日時
• 必要経費 など
4
Copyright© 2010 Tokyo University of Technology
5
Copyright© 2010 Tokyo University of Technology
新生児60人の体重(1998)
表. 新生児の体重 (1998年)
3740
2550
2920
2530
3280
2840
2520
3350
3610
3430
3020
3320
2790
3050
3620
3260
3320
3800
2640
3360
3320
4100
2720
4050
3850
3380
3040
2710
4150
3200
4120
2780
3220
2780
2490
2950
2580
2020
3010
2010
2800
2760
4480
2990
3700
2960
2320
3060
3200
3380
3100
2840
2990
3100
3530
3270
2600
3640
3300
4570
単位はグラム
6
Copyright© 2010 Tokyo University of Technology
度数分布表の作成
1.
2.
3.
4.
5.
最大値=____, 最小値=___
範囲R=最大値-最小値
区間数k=____
区間幅h=____
最小値と最大値とを勘案して、区間の両端
を決める。
7
Copyright© 2010 Tokyo University of Technology
新生児の体重(1998年)
体重(g)
人数
~2000
0
2000~2400
3
2400~2800
14
2800~3200
16
3200~3600
14
3600~4000
7
4000~4400
4
4400~4800
2
8
Copyright© 2010 Tokyo University of Technology
ヒストグラム
16
14
12
10
8
6
4
2
0
47
00
44
00
41
00
38
00
35
00
32
00
29
00
系列1
26
00
23
00
人数
新生児の体重(1998年)
体重(g)
9
Copyright© 2010 Tokyo University of Technology
グラフに関する考察(思考実験)
• データの個数nをどんどん増やすと
– 棒グラフがどんどん高くなる
– 度数がゼロの区間がなくなっていく
• 区間の幅hをどんどん小さくすると
– 棒グラフがどんどん低くなる
– 度数がゼロの区間が増えていき、ほとんどの区
間で度数がゼロ、あっても1になる。
10
Copyright© 2010 Tokyo University of Technology
グラフに関する考察(思考実験)
• nを増やすとともにhを減らしていくと...
• ヒストグラムがある形状に落ち着く!
• これは統計的性質の1つ。
– (大数の法則)
11
Copyright© 2010 Tokyo University of Technology
集団としての特徴値(代表値)
• いろんなグラフを比べてみよう!
• (正規分布、所得分布、双峰分布など)
12
Copyright© 2010 Tokyo University of Technology
正規分布
13
Copyright© 2010 Tokyo University of Technology
所得分布
16
14
12
10
8
Series1
6
4
2
0
14
Copyright© 2010 Tokyo University of Technology
いろいろなグラフ
15
Copyright© 2010 Tokyo University of Technology
集団構造の記述
• 調査や測定により得られるデータの集まりに
対して、その集団の構造(特徴)を端的に表現
する指標(代表値)を求めることを、集団構造
の記述という。
• 平均(平均値)はその代表例。
16
Copyright© 2010 Tokyo University of Technology
平均値
• 例(身長のデータ):
– データ群A = {167, 150, 161, 158, 164}
– データ群B = {169, 174, 160, 165, 172}
(単位:cm)
150
155
160
165
170
175 cm
17
Copyright© 2010 Tokyo University of Technology
平均値の数学的定義
平均m = (x1 + x2 + x3 + … + xn)÷n
18
Copyright© 2010 Tokyo University of Technology
いろいろな代表値
• 算術平均 (いわゆる平均のこと)
• モード (mode)
• 中央値 (Median)
19
Copyright© 2010 Tokyo University of Technology
ここまでのまとめ
20
Copyright© 2010 Tokyo University of Technology
記述統計学
1. まず、データ(data)ありき
2. データの分析
–
–
–
–
–
全体を眺める
整列(ソート)する
度数分布表の作成 => どんな値が何個あるのか?
ヒストグラムの作成 => よりvisualな表現へ
分布曲線(ヒストグラムの概形)を求める
=> 数式表現可能
以上により、データ全体の様子(分布の形状)が
視覚的・感覚的にわかる。
21
Copyright© 2010 Tokyo University of Technology
記述統計学
1. まず、データ(data)ありき
2. データの分析
–
–
–
–
–
全体を眺める
整列(ソート)する
度数分布表の作成 => どんな値が何個あるのか?
ヒストグラムの作成 => よりvisualな表現へ
分布曲線(ヒストグラムの概形)を求める
=> 数式表現可能
以上により、データ全体の様子(分布の形状)が
視覚的・感覚的にわかる。
22
Copyright© 2010 Tokyo University of Technology
ポイント
• 個々のデータ1つ1つに目を奪われることなく
– (データを)全体的にとらえる
– (データの)集団としての特徴をとらえる
ことがポイント。
 データの集団としての特徴を数値的にとらえら
れないか?
 代表値という考えが生まれる。
23
Copyright© 2010 Tokyo University of Technology
代表値
例:
データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8}
データの個数 n=
24
Copyright© 2010 Tokyo University of Technology
代表値
例:
データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8}
データの個数 n=12
それでは、簡単に分析してみよう!
25
Copyright© 2010 Tokyo University of Technology
例:
データ:
{1, 1, 2, 3, 3, 3,
4, 4, 6, 6, 7, 8}
個数 n=12
合計 T=48
表.度数分布表
度数
データの分布の様子
3.5
3
2.5
2
1.5
1
0.5
0
系列1
1
2
3
4
5
6
7
データ値
図.ヒストグラム
8
データ 個 数 小 計
値
(度数)
1
2
2
2
1
2
3
3
9
4
2
8
5
0
0
6
2
12
7
1
7
8
1
8
n=12 T=48
合計
26
Copyright© 2010 Tokyo University of Technology
ヒストグラム
度数
データの分布の様子
3.5
3
2.5
2
1.5
1
0.5
0
系列1
1
2
3
4
5
6
7
8
データ値
図.ヒストグラム
27
Copyright© 2010 Tokyo University of Technology
特徴を分析してみよう
• データの重心(平均)
m = (データの合計)÷(データの個数)
=T/n
= _____
28
Copyright© 2010 Tokyo University of Technology
29
Copyright© 2010 Tokyo University of Technology
• モード(最頻値)
– 出現頻度が一番多いの
はどれ?
– Mode= _____
度数
データの分布の様子
3.5
3
2.5
2
1.5
1
0.5
0
系列1
1
2
3
4
5
6
7
8
データ値
30
Copyright© 2010 Tokyo University of Technology
• 最大値maxと最小値min
max = _____
min = _____
31
Copyright© 2010 Tokyo University of Technology
• 中央値(median)
データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8}
大きさの順番に並べたとき、真ん中にある
データの値が中央値
今の場合、med = _____ 3 ? 4 ?
左から6個目
右から6個目
32
Copyright© 2010 Tokyo University of Technology
• 中央値(median)
データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8}
大きさの順番に並べたとき、真ん中にある
データの値が中央値
今の場合、med = (3 + 4)÷2
= 3.5
33
Copyright© 2010 Tokyo University of Technology
分析結果
例:
データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8}
データの個数
n = 12
(算術)平均
m= 4
モード(最頻値)
mode = 3
中央値(メディアン) med = 3.5
最大値
max = 8
最小値
min = 1
<= 代表値
<= 代表値
<= 代表値
34
Copyright© 2010 Tokyo University of Technology
• 例2:
データ:
{-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18}
データの個数
n=
(算術)平均
m=
<= 代表値
モード(最頻値)
mode =
<= 代表値
中央値(メディアン) med =
<= 代表値
最大値
max =
最小値
min =
35
Copyright© 2010 Tokyo University of Technology
• 例2:
データ:
{-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18}
データの個数
n = 12
(算術)平均
m=4
<= 代表値
モード(最頻値)
mode = 3
<= 代表値
中央値(メディアン) med = 3.5
<= 代表値
最大値
max = 18
<= 分布の位置
最小値
min = -9
<= 分布の位置
36
Copyright© 2010 Tokyo University of Technology
例1と例2のデータの比較
• 例1:
{1, 1, 2, 3, 3, 3,
4, 4, 6, 6, 7, 8}
データ数
n = 12
平均
m=4
モード
mode = 3
中央値
med = 3.5
最大値
max = 8
最小値
min = 1
• 例2 :
{-9, -7, -4, -1, 3, 3,
4, 6, 8, 12, 15, 18}
データ数 n = 12
平均
m=4
モード
mode = 3
中央値
med = 3.5
最大値
max = 18
最小値
min = -9
分布が異なっているにもかかわらず、代表値は同じ! => 何がいけないのか?
37
Copyright© 2010 Tokyo University of Technology
平均が同じでも分布の形状が違う例
O
38
Copyright© 2010 Tokyo University of Technology
平均が同じでも分布の形状が違う例
• データの重心(平均)が同じでも、
データの散らばり方が違っている!
=> 散らばりを定式化してみよう!
39
Copyright© 2010 Tokyo University of Technology
散らばりの定式化
• アイデア1:
– データの存在範囲
範囲(range) R = 最大値 – 最小値
40
Copyright© 2010 Tokyo University of Technology
アイデア1
• 範囲(range) R = 最大値 ー 最小値
• 長所:
– 単純(計算が楽)
• 短所:
– 2個のデータしか利用していない。
つまり、最大値と最小値の間に存在するデータを利用し
ていない。n-2個のデータが無駄。
=> すべて(n個)のデータを利用するには…?
41
Copyright© 2010 Tokyo University of Technology
アイデア2
• 平均からのズレの総和Sの平均
– 平均mから各データがどれだけズレているかが偏差。
偏差 di = xi – m (i=1,2,3, … , n)
– 偏差の和 S = (x1 – m) + (x2 – m) + … + (xn – m)
= 0 <= いつも必ずゼロ
– 偏差の和の平均
mean of S = S÷n = 0 <= いつも必ずゼロ
• 長所
– すべてのデータの情報を利用
• 短所
– いつもゼロになり意味がない。
42
Copyright© 2010 Tokyo University of Technology
アイデア3
• 平均からの距離の総和Sの平均
– 各データの平均からの距離 D = | di | = | 偏差 |
偏差 di = xi – m (i=1,2,3, … , n)
– S = | x1 – m | + | x 2 – m | + … + | xn – m |
– 偏差の絶対値の平均(平均偏差M.D.) = S÷n
• 長所
– すべてのデータの情報を利用
• 短所
– 数学的取り扱いが大変(どうやって絶対値をはずす?)
43
Copyright© 2010 Tokyo University of Technology
アイデア4
• 平均からの距離の二乗の総和Sの平均
– 各データの平均からの距離 D = | di | = | 偏差 |
偏差 di = xi – m (i=1,2,3, … , n)
– S = (x1 – m) 2 + (x2 – m) 2 + … + (xn – m)2
– 距離の自乗の平均 = S÷n
• 長所
– すべてのデータの情報を利用
– 数学的に取り扱いやすい
• 短所
– 計算が大変? <= コンピュータを利用すればOK!
– 解釈は?(データxやmと、Sの次元がちがう!)
44
Copyright© 2010 Tokyo University of Technology
分散と標準偏差
• 分散S 2 = {(x1 – m) 2 + (x2 – m) 2 + … +
(xn – m)2}÷n
• 標準偏差S = √ S 2 (分散の平方根)
(短所の2番目を配慮して平方根をとった。)
45
Copyright© 2010 Tokyo University of Technology
散らばり
• 以上のような経緯により、データの散らばりの
尺度として、
– 標準偏差S
– 分散S 2
– 範囲R
– 平均偏差M.D.
<= 一般によく利用される。
<=一般によく利用される。
<= 工場等でよく利用される。
<= これも利用されることが
ある。
などが用いられる。
46
Copyright© 2010 Tokyo University of Technology
平均の考え方の重要性
• データ{xi | i=1, 2, 3, …, n}
• 平均 m = (x1 + x2 +…+ xn)÷n
• 分散:
xi から (xi – m)2 を作り出し、この平均を求め
ている。
47
Copyright© 2010 Tokyo University of Technology
例1と例2のデータの比較
• 例1:
{1, 1, 2, 3, 3, 3,
4, 4, 6, 6, 7, 8}
データ数
n = 12
平均
m=4
モード
mode = 3
中央値
med = 3.5
最大値
max = 8
最小値
min = 1
分散
• 例2 :
{-9, -7, -4, -1, 3, 3,
4, 6, 8, 12, 15, 18}
データ数 n = 12
平均
m=4
モード
mode = 3
中央値
med = 3.5
最大値
max = 18
最小値
min = -9
分散
分布が異なっているにもかかわらず、代表値は同じ! => 散らばりも考慮しよう!
48
Copyright© 2010 Tokyo University of Technology
おまけ
http://www.stat.go.jp/ の「統計学習サイト」
をクリックすると「How to 統計」のページが出
てきます。そを参考に、自習することをお勧め
します。特に、世の中にどのような統計データ
が収集・公開されているのかを知ってください。
(統計学習も経験の積み重ねが大切。)
49
Copyright© 2010 Tokyo University of Technology

similar documents