Misure di tendenza centrale

Report
Metodi Quantitativi per Economia,
Finanza e Management
Lezione n°3
Le distribuzioni di frequenza e le misure di sintesi univariate
Metodi Quantitativi per Economia, Finanza e
Management
SUDDIVISIONE PER ESERCITAZIONI
Venerdì ore 08.30
Economia e direzione d'impresa, Marketing.
Venerdì ore 11.00
Amministrazione aziendale e libera professione,
Banche mercati e finanza d'impresa,
Management delle risorse umane.
Percorso di Analisi
Tipo di analisi
ANALISI UNIVARIATA
Cosa è?
La statistica descrittiva univariata ha come
obiettivo lo studio della distribuzione di
ogni variabile, singolarmente considerata,
all’interno della popolazione. Fornisce
strumenti per la lettura dei fenomeni
osservati di rapida ed immediata
interpretazione.
Strumenti
- DISTRIBUZIONI DI FREQUENZA
- INDICI DI POSIZIONE (MISURE DI TENDENZA CENTRALE E MISURE
DI TENDENZA NON CENTRALE)
- INDICI DI DISPERSIONE
- MISURE DI FORMA DELLA DISTRIBUZIONE
La statistica descrittiva bivariata si occupa
Due variabili qualitative o quantitative discrete:
dello studio della distribuzione di due
TABELLA DI CONTINGENZA E INDICI CHI QUADRO E V DI CRAMER
variabili congiuntamente considerate.
TEST CHI QUADRO PER L'INDIPENDENZA STATISTICA
Due variabili quantitative continue:
ANALSI BIVARIATA E TEST STATISTICI I test statistici per lo studio
INDICE DI CORRELAZIONE DI PEARSON (ρ) E COVARIANZA
PER LO STUDIO DELL'ASSOCIAZIONE dell'associazione tra variabili ci
TRA VARIABILI
permettono di formulare delle ipotesi e TEST t PER L'INDIPENDENZA LINEARE
verificarle tramite i dati campionari. I dati Una variabile qualitativa e una quantitativa continua:
campionari sono utilizzati per stabilire se INDICE η2
tale ipotesi è ragionevolmente accettabile TEST F PER L'INDIPENDENZA IN MEDIA
o rifiutabile.
ANALISI MULTIVARIATA
L'analisi statistica multivariata e' l'insieme
di metodi statistici usati per analizzare
simultaneamente più variabili. Esistono
molte tecniche diverse, usate per
risolvere problemi anche lontani fra loro.
- ANALISI FATTORIALE
- REGRESSIONE LINEARE
- REGRESSIONE LOGISTICA
- SERIE STORICHE
Matrice dei dati
Variabili rilevate
Unità statistiche
X
1
Y
Z
W
Modalità della
variabile X rilevata
sull'unità statistica 1
2
3
4
modalità
…
…
…
n
Modalità della
variabile W
rilevata sull'unità
statistica n
Esempio di matrice dei dati
Popolazione
di 20 individui
N=20
Variabili rilevate su ogni unità statistica
Unità statistiche Numero Altezza Sesso
Titolo di studio
di figli
1
0
175 Maschio Laurea
2
1
170 Maschio Diploma
3
1
173 Femmina Diploma
4
3
180 Maschio Licenza scuola media
5
2
155 Femmina Laurea
6
0
165 Femmina Laurea
7
0
188 Maschio Diploma
8
1
175 Femmina Diploma
9
2
182 Femmina Licenza scuola media
10
2
165 Maschio Licenza scuola media
11
3
158 Maschio Diploma
12
6
188 Maschio Laurea
13
0
180 Femmina Laurea
14
0
170 Maschio Diploma
15
0
179 Femmina Laurea
16
0
169 Maschio Licenza scuola media
17
2
178 Femmina Laurea
18
1
188 Maschio Laurea
19
0
175 Maschio Diploma
20
0
165 Femmina Laurea
Tipologia di variabili:
NUMERO DI FIGLI
variabile quantitativa discreta
ALTEZZA
variabile quantitativa continua
SESSO
variabile qualitativa nominale
TITOLO DI STUDIO
variabile qualitativa ordinale
Statistica descrittiva univariata
La statistica descrittiva univariata ha come obiettivo lo studio della
distribuzione di ogni variabile, singolarmente considerata, all’interno
della popolazione.
Fornisce strumenti per la lettura dei fenomeni osservati di rapida ed
immediata interpretazione.
Unità
Numero Altezza
statistiche di figli
1
0
175
2
1
170
3
1
173
4
3
180
5
2
155
6
0
165
7
0
188
8
1
175
9
2
182
10
2
165
11
3
158
12
6
188
13
0
180
14
0
170
15
0
179
16
0
169
17
2
178
18
1
188
19
0
175
20
0
165
• Distribuzioni di frequenza
• Misure di sintesi
– Misure di posizione
– Misure di dispersione
– Misure della forma della distribuzione
• Data Audit
– Errori di imputazione
– Dati mancanti (missing)
– Valori anomali (outliers)
• Analisi preliminari
Le distribuzioni di frequenza
Per variabili
qualitative e
quantitative
discrete
Lista dei dati
Unità statistiche
Sesso
1 Maschio
2 Maschio
3 Femmina
4 Maschio
5 Femmina
6 Femmina
7 Maschio
8 Femmina
9 Femmina
10 Maschio
11 Maschio
12 Maschio
13 Femmina
14 Maschio
15 Femmina
16 Maschio
17 Femmina
18 Maschio
19 Maschio
20 Femmina
Sesso
Frequenza Frequenza
assoluta
relativa
ni
pi
Femmina
9
9/20 = 45%
Maschio
11 11/20 = 55%
20
100%
Totale (N)
La distribuzione di frequenza è in
grado di «compattare» la lista di dati
dando un’immagine immediata e di
facile lettura della distribuzione della
variabile.
Le distribuzioni di frequenza
• Frequenza assoluta: è un primo livello di sintesi dei
dati, consiste nell’associare a ciascuna categoria, o
modalità, il numero di volte in cui compare nei dati
• Distribuzione di frequenza: insieme delle modalità e
delle loro frequenze
• Frequenza relativa: rapporto tra la frequenza assoluta
ed il numero complessivo delle osservazioni effettuate.
pi= ni/ N
I due tipi di frequenze vengono usati con dati
qualitativi (nominali e ordinali)
e quantitativi discreti.
Le distribuzioni di frequenza
• Rappresentazione grafica variabili qualitative:
Diagramma a barre – titolo di studio
Diagramma a torta - sesso
Diagr. a barre: nell’asse delle ascisse ci sono le categorie,
senza un ordine preciso; in quello delle ordinate le
frequenze assolute/relative corrispondenti alle diverse
modalità
Diagr. a torta: la circonferenza è divisa proporzionalmente
alle frequenze
Le distribuzioni di frequenza
• Rappresentazione grafica var.quantitative discrete:
Diagramma delle frequenze – numero di figli
Diagr. delle frequenze: nell’asse delle ascisse ci sono i
valori assunti dalla var. discreta (quindi ha un
significato quantitativo); l’altezza delle barre è
proporzionale alle frequenze relative o assolute del
valore stesso
Istogramma: nell’asse delle ascisse ci sono le classi
degli intervalli considerati; l’asse delle ordinate
rappresenta la densità di frequenza; l’area del
rettangolo corrisponde alla frequenza della classe
stessa.
Le distribuzioni di frequenza
esempi
Numero di figli
Numero_di_figli Frequency Percent Cumulative Cumulative
Frequency
Percent
0
9
45
9
45
1
4
20
13
65
2
4
20
17
85
3
2
10
19
95
6
1
5
20
100
Titolo di studio
Titolo_di_studio
Frequency Percent Cumulative Cumulative
Frequency
Percent
Diploma
7
35
7
35
Laurea
9
45
16
80
Licenza scuola media
4
20
20
100
Misure di sintesi
Misure di posizione:
Misure di tendenza centrale:
– Media aritmetica
– Mediana
– Moda
Misure di tendenza non centrale:
– Quantili di ordine p (percentili, quartili)
Misure di dispersione:
• Campo di variazione
• Differenza interquantile
• Varianza
• Scarto quadratico medio
• Coefficiente di variazione
Misure di forma della distribuzione:
• Skewness
• Kurtosis
Misure di sintesi
Misure di posizione:
Misure di tendenza centrale:
– Media aritmetica
– Mediana
– Moda
Misure di tendenza non centrale:
– Quantili di ordine p (percentili, quartili)
Misure di dispersione:
• Campo di variazione
• Differenza interquantile
• Varianza
• Scarto quadratico medio
• Coefficiente di variazione
Misure di forma della distribuzione:
• Skewness
• Kurtosis
Misure di Tendenza Centrale
Tendenza Centrale
Media
Mediana
Moda
n
x 
x
i
i 1
n
Media
Aritmetica
Valore centrale delle
osservazioni ordinate
Valore più
frequente
Media Aritmetica
• E’ è quel valore (non necessariamente una modalità
osservata) che rileva la tendenza centrale della distribuzione
• E’ la misura di tendenza centrale più comune
• Media = somma dei valori diviso il numero di valori
• Influenzata da valori estremi (outlier)
0 1 2 3 4 5 6 7 8 9 10
Media = 3
1 2  3  4  5
5

0 1 2 3 4 5 6 7 8 9 10
Media = 4
15
5
3
1  2  3  4  10
5

20
5
 4
Media Aritmetica
Voto
xi
18
19
20
21
22
23
24
25
Totale
Frequenze
assolute
ni
1
5
3
2
3
1
3
2
20
k
xi*ni
(18*1)=18,00
(19*5)=95,00
(20*3)=60,00
(21*2)=42,00
(22*3)=66,00
(23*1)=23,00
(24*3)=72,00
(25*2)=50,00
=426,00
 
x
i
i 1
n
 ni

426 , 00
20
 21 , 30
Mediana
• In una lista ordinata, la mediana è il valore “centrale” (50%
sopra, 50% sotto)
0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10
Mediana = 3
• Non influenzata da valori estremi
Mediana = 3
Moda
• Valore che occorre più frequentemente, cioè quella
modalità della distribuzione di frequenza alla quale è
associata la frequenza assoluta (o relativa) maggiore
• Non influenzata da valori estremi
• Usata sia per dati numerici che categorici
• Può non esserci una moda
• Ci può essere più di una moda
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Moda = 9
0 1 2 3 4 5 6
No Moda
Moda
Quale è la moda della variabile “Titolo di Studio”?
Titolo di studio
Frequenza relativa
Diploma
35%
Laurea
45%
Licenza scuola media
20%
Totale
100%
Quale è la moda della variabile “Sesso”?
Sesso
Frequenza
assoluta
Femmina
9
Maschio
11
20
Totale
Media, Moda & Mediana
1
1
1
1
2
3
1 2 2 3 4
2
3
4
4
La moda è pari a 1, è il valore
che occorre più frequentemente
In una lista ordinata, la mediana è il
valore “centrale”, è pari a 2
Media = somma dei valori diviso
il numero di valori = 2
(1+1+1+2+2+3+4)/7 = (1*3 + 2*2 + 3*1 + 4*1)/7 = 14/7 = 2
Misure di Tendenza Non Centrale
I quantili di ordine p
• Il quantile di ordine p (p ∈(0,1)) è quella modalità della
distribuzione che lascia prima di sé almeno il p% delle
n unità statistiche indagate e dopo di sé almeno il
restante (1-p)%.
• Quantile è il termine generico che individua una
famiglia di indici di posizione, ad esempio si parla di:
– percentili quando p assume un valore dell’insieme
{0.01;0.02;…;0.99}
– quartili quando p assume uno dei seguenti valori
{0.25;0.50;0.75}.
• Si noti che la mediana (il quantile più famoso) coincide
con il 50° percentile o il 2° quartile.
Misure di Tendenza Non Centrale
I Quartili
• I Quartili dividono la sequenza ordinata dei dati in 4
segmenti contenenti lo stesso numero di valori
25%
Q1
25%
25%
Q2
25%
Q3
• Il primo quartile, Q1, è il valore per il quale 25% delle
osservazioni sono minori e 75% sono maggiori di esso
• Q2 coincide con la mediana (50% sono minori, 50% sono
maggiori)
• Solo 25% delle osservazioni sono maggiori del terzo quartile
Misure di Tendenza Non Centrale
ESEMPIO
PRINCIPALI QUANTILI:
MATRICE DEI DATI:
Unità
statistiche
Altezza
1
175
2
170
3
173
4
180
5
158
6
166
7
188
8
175
9
182
10
165
Quantile
Estimate
100% Max
190
99%
188
95%
184
90%
182
75% Q3
180
50% Median
175
25% Q1
167
10%
165
5%
160
1%
155
0% Min
150
•
Il primo quartile, Q1, è 167,
cosa significa?
•
Il 25% delle unità
statistiche che
compongono il campione
hanno un’altezza minore
di 167 cm e il 75%
un’altezza maggiore
Box Plot
X
minimo
Q1
25%
12
INDICE DI
DISPERSIONE
Mediana
Q3
(Q2)
25%
30
25%
45
X
25%
57
Differenza Interquartile
57 – 30 = 27
OUTLIERS:
massimo
Q1 - 1,5 * Differenza interquartile
Q3 + 1,5 * Differenza interquartile
70
Misure di sintesi
Misure di posizione:
Misure di tendenza centrale:
– Media aritmetica
– Mediana
– Moda
Misure di tendenza non centrale:
– Quantili di ordine p (percentili, quartili)
Misure di dispersione:
• Campo di variazione
• Differenza interquantile
• Varianza
• Scarto quadratico medio
• Coefficiente di variazione
Misure di forma della distribuzione:
• Skewness
• Kurtosis
Misure di Variabilità
Variabilità
Campo di
Variazione
Differenza
Interquartile
Varianza
Scarto
Quadratico
Medio
Coefficiente
di Variazione
• Le misure di variabilità
forniscono informazioni sulla
dispersione o variabilità
dei valori.
Stesso centro,
diversa variabilità
Campo di Variazione
• La più semplice misura di variabilità
• Differenza tra il massimo e il minimo dei valori osservati:
Campo di variazione = Xmassimo – Xminimo
Esempio:
0 1 2 3 4 5 6 7 8 9 10 11 12
13 14
Campo di Variazione = 14 - 1 = 13
Campo di Variazione
• Ignora il modo in cui i dati sono distribuiti
7
8
9
10
11
12
Campo di Var. = 12 - 7 = 5
7
8
9
10
11
12
Campo di Var. = 12 - 7 = 5
• Sensibile agli outlier
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
Campo di Var. = 5 - 1 = 4
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
Campo di Var = 120 - 1 = 119
Differenza Interquartile
• Possiamo eliminare il problema degli outlier usando la
differenza interquartile
• Elimina i valori osservati più alti e più bassi e calcola il campo
di variazione del 50% centrale dei dati
• Differenza Interquartile = 3o quartile – 1o quartile
IQR = Q3 – Q1
Varianza
• Media dei quadrati delle differenze fra ciascuna osservazione
e la media
N
– Varianza della Popolazione:
σ 
2
 (x
i
i 1
N
dove
μ = media della popolazione
N = dimensione della popolazione
xi = iimo valore della variabile X
 μ)
2
Scarto Quadratico Medio
•
•
•
•
Misura di variabilità comunemente usata
Mostra la variabilità rispetto alla media
Ha la stessa unità di misura dei dati originali
Assume valori maggiori o uguali a 0; il caso particolare
SQM=0 si verifica solamente in caso di assenza di
variabilità
– Scarto Quadratico Medio della Popolazione:
N
σ 
 (x
i
i 1
N
 μ)
2
Scarto Quadratico Medio
Scarto quadratico medio piccolo
Scarto quadratico medio grande
Scarto Quadratico Medio
Dati A
11
12
13
14
15
16
17
18
19
20 21
Media = 15.5
s = 3.338
20 21
Media = 15.5
s = 0.926
20 21
Media = 15.5
s = 4.570
Dati B
11
12
13
14
15
16
17
18
19
Dati C
11
12
13
14
15
16
17
18
19
Scarto Quadratico Medio
• Viene calcolato usando tutti i valori nel set di dati
• Valori lontani dalla media hanno più peso
(poichè si usa il quadrato delle deviazioni dalla media)
• Le stesse considerazioni valgono anche per il calcolo
della Varianza
Coefficiente di Variazione
• Misura la variabilità relativa
• Sempre in percentuale (%)
• Mostra la variabilità relativa rispetto alla media
• Può essere usato per confrontare due o più set di dati
misurati con unità di misura diversa
• Assume valori maggiori di 0 e crescenti al crescere della
variabilità; ancora una volta, si avrà che CV=0 in assenza di
variabilità.
 s
C V  
 |x |

  100%

Coefficiente di Variazione
• Azione A:
– Prezzo medio scorso anno = $50
– Scarto Quadratico Medio = $5
•
 s 
$5
C VA     100% 
 100%  10%
|x | 
$50

Azione B:
– Prezzo medio scorso anno = $100
– Scarto Quadratico Medio = $5
 s 
$5
C VB     100% 
 100%  5%
$100
 | x|
Entrambe le
azioni hanno lo
stesso scarto
quadratico
medio, ma
l’azione B è
meno variabile
rispetto al suo
prezzo
Misure di sintesi
Misure di posizione:
Misure di tendenza centrale:
– Media aritmetica
– Mediana
– Moda
Misure di tendenza non centrale:
– Quantili di ordine p (percentili, quartili)
Misure di dispersione:
• Campo di variazione
• Differenza interquantile
• Varianza
• Scarto quadratico medio
• Coefficiente di variazione
Misure di forma della distribuzione:
• Skewness
• Kurtosis
Forma della Distribuzione
• La forma della distribuzione si dice simmetrica se le osservazioni
sono bilanciate, o distribuite in modo approssimativamente regolare
attorno al centro.
Distribuzione Simmetrica
120
100
60
40
20
0
Frequenza
80
10
9
8
7
6
5
4
3
2
1
0
1
2
3
4
5
6
7
8
9
Forma della Distribuzione
• La forma della distribuzione è detta asimmetrica se le
osservazioni non sono distribuite in modo simmetrico
rispetto al centro.
Distribuzione con Asimmetria Positiva
12
10
Frequenza
Una distribuzione con asimmetria
positiva (obliqua a destra) ha una
coda che si estende a destra, nella
direzione dei valori positivi.
8
6
4
2
0
1
3
4
5
6
7
8
9
8
9
Distribuzione con Asimmetria Negativa
12
10
Frequenza
Una distribuzione con asimmetria
negativa (obliqua a sinistra) ha una
coda che si estende a sinistra, nella
direzione dei valori negativi.
2
8
6
4
2
0
1
2
3
4
5
6
7
Misure di Forma della Distribuzione
• Descrive come i dati sono distribuiti
• Misure della forma
– Simmetrica o asimmetrica
Obliqua a sinistra
Media < Mediana
Simmetrica
Media = Mediana
Obliqua a destra
Mediana < Media
Misure di Forma della Distribuzione
Skewness: indice che informa circa il grado di simmetria o
asimmetria di una distribuzione.
– γ=0 ditribuzione simmetrica;
– γ<0 asimmetria negativa (mediana>media);
– γ>0 asimmetria positiva (mediana<media).
Kurtosis: indice che permette di verificare se i dati seguono una
distribuzione di tipo Normale (simmetrica).
– β=3 se la distribuzione è “Normale”;
– β<3 se la distribuzione è iponormale (rispetto alla
distribuzione di una Normale ha densità di frequenza minore
per valori molto distanti dalla media);
– β>3 se la distribuzione è ipernormale (rispetto alla
distribuzione di una Normale ha densità di frequenza
maggiore per i valori molto distanti dalla media).
Unità
statistiche
Altezza
1
175
2
170
3
173
4
180
5
158
6
166
7
188
8
175
9
182
10
165
11
158
12
188
13
180
14
170
15
179
16
169
17
178
18
188
19
175
20
165
altezza
Basic Statistical Measures
Location
Variability
Mean
173.9
Std Deviation
Median
175
Variance
Mode
165
Range
Interquartile Range
9.41946
88.72632
33
13
The mode displayed is the smallest of 3 modes with a count of 3.
Univariate Analysis
N_ID
H1
H2
H3
H4
H5
H6
H7
H8
H9
H10
H11
H12
H13
H14
H15
H16
H17
H18
H19
H20
H21
H22
D_8_2
0.1
0
0
0.2
0.05
0.2
0.1
0.1
0.2
0.05
0
0
0
0.15
0
0.1
0
0.2
0
0.05
0.2
0.2
• Frequency distribution
• Synthesis measures
– Measures of location
– Measures of spread
– Measures of shape
• Data Audit
– Input errors
– Outliers
– Missing values
…
…
H234
H235
H236
Nominal
Ordinal
Quantitative
0.2
0.1
0.1
Distribution
X
X
X
• Basic insights
Mode
X
X
X
Percentiles
Moments
Shape
X
X
X
X
Analisi di Concentrazione
Caratteri quantitativi trasferibili
• Un carattere è trasferibile se possiamo
immaginare che un’unità possa cedere parte del
carattere che possiede ad un’altra unità.
• Sono esempi di carattere trasferibile: reddito,
fatturato, numero addetti, audience televisiva,
clienti.
• Sono esempi di carattere non trasferibile:
altezza e peso.
Analisi di Concentrazione
Caratteri quantitativi trasferibili
Si rilevi il reddito delle famiglie di un campione.
L’analisi di concentrazione ci aiuta a ripondere alla
seguente domanda:
Il reddito complessivo è equidistribuito tra le
famiglie oppure la maggior parte dell’ammontare
complessivo del reddito è posseduto da un numero
esiguo di famiglie?
Vogliamo misurare il grado di concentrazione del
carattere nella nostra popolazione.
Analisi di Concentrazione
Per caratteri quantitativi trasferibili
Equidistribuzione:
x1  x 2  x 3
 ....... 
xn  μ
Se tutte le famiglie hanno lo stesso reddito,
si parla di equidistribuzione;
Max concentrazione:
x 1  x 2  x 3  .......  x n  1  0
xn  N μ
Nel caso in cui tutto il reddito sia
posseduto da una sola famiglia mentre
tutte le altre hanno zero reddito, si
parla di massima concentrazione.
Analisi di Concentrazione
1. Ordinare le osservazioni
le unità sono ordinate dalla più povera alla più ricca
i
x
2. Calcolare le quantità: F  i
i
N
Qi

j
j1
N
x
j
j1
Dove Fi è la frazione, sul totale delle unità, delle i unità più povere
e Qi è la frazione di ammontare del carattere, sull’ammontare complessivo,
posseduto dalle i unità più povere.
Analisi di Concentrazione
CURVA DI CONCENTRAZIONE REDD. >=0
QI
1.0
20%
0.9
0.8
50%
0.7
0.6
0.5
60%
0.4
0.3
90%
0.2
0.1
0.0
0.0
0.1
0.2
0.3
0.4
0.5
FI
0.6
0.7
0.8
0.9
1.0

similar documents