Le cours en ppt

Report
Licence STE 2eme année
Statistiques
1
Plan
1.
Introduction
2.
Coefficient de corrélation
Principe
Interprétation
3.
Modèles de régression
Régression linéaire
Ajustement par un polynôme
Fonction exponentielle
Le coéfficient de détermination
4.
Approche non-paramétrique
Coefficient de correlation de Spearman
Statistiques
2
1. Introduction
Méthode et but
• 2 variables numériques (quantitatives)
• Identifier la nature des variables : indépendante x et dépendante y.
• Décrire la relation entre les variables
 graphiquement
 en utilisant une équation
• Utiliser l’équation pour prévoir une valeur yi à partir d’une valeur xi.
• Etablir le degré de fiabilité de l’estimation (relation probabiliste
seulement)
La relation entre deux variables peut être :
• déterministe
(Ceci ne nous concerne pas ici)
• probabiliste
(C’est ce dont on va parler)
Statistiques
3
1. Introduction
Relation déterministe: La valeur de la variable y peut être
précisement prédite à partir de la valeur de la variable x.
Exemples:
 Prix d’une maison et taxe due.
 Vitesse d’un corps en chute libre et temps.
V=V0+gt
V
V0
Statistiques
t
4
1. Introduction
Relation probabiliste: La valeur d’une variable y ne peut pas être
précisement prédite à partir de la valeur de la variable x - à cause
d’autres facteurs.
Exemples:
1. Consommation en eau et une population
x = nombre d’habitants
y = eau consommée
2. Nombre d’heures passées à réviser un examen et la note
obtenue.
x = heures passées à réviser
y = note obtenue
Regression possible avec une relation probabiliste.
Statistiques
5
2. Coefficient de correlation
Le coefficient de corrélation r est une mesure du degré de corrélation
linéaire. En pratique on essaye d’obtenir une estimation (r) à partir d’un
échantillon représentatif de la population.
Approche géométrique:
x
Q2
-
Q3 Q4
+
( yi  y)
+
+
-
-
( xi  x )( yi  y)
+
-
+
-
( xi  x )
y
Q2
Q1
+
Q1
y
Q3
Q4
Statistiques
x
6
2. Coefficient de correlation
n
 x  x  y  y 
i 1
i
est un paramètre intéressant
i
Évidemment cette somme dépend de n. On va donc diviser par (n-1).
Au fait, pourquoi (n-1) et pas simplement n???
n
Cov( x, y ) 
 ( x  x )( y
i 1
i
i
 y)
n 1
aussi appelées xy
Cov(x,y) est la covariance. Elle est utilisée dans de nombreuses
méthodes multivariées.
Il y a encore un problème… La covariance
dépend fortement des unités de x et de y.
Alors que faire...?
Statistiques
7
2. Coefficient de correlation
Pour éviter ce problème on va diviser la covariance par l’écart type
de x et l’écart type de y. Attention : les données doivent être
normalement distribuée (mais nous reviendrons sur ce point…)
Coefficient de corrélation de Bravais-Pearson
Cov( x, y ) s xy

r
sx s y
sx s y
n
r
 x  x  y  y 
i 1
i
i
 x  x    y  y 
2
2
i
i
Statistiques
Un exemple...
8
2. Coefficient de correlation
Numéro Masse mi Long. li
de l'essai i x
y
i
xi  x  xi  x 2  yi  y 
( xi  x )( yi  y)
i
1
2
3
4
5
2
4
6
8
10
42.0
48.4
51.3
56.3
58.6
n=5
X 6
Y  51.32
-4.0
-2.0
0.0
2.0
4.0
 x  x  y
i 1
i
16.0
4.0
0.0
4.0
16.0
-9.3
-2.9
0.0
5.0
7.3
86.9
8.5
0.0
24.8
53.0
  0.0   40   0.0   173.2
n
r
 yi  y 2
i
 y
2
2




x

x
y

y
 i
 i
Statistiques
37.28
5.84
0
9.96
29.12
  82.2
82,2

 0,987
173,2  40
9
2. Coefficient de correlation
Balance à ressort
65.0
Longueur (cm)
60.0
55.0
50.0
45.0
40.0
r = 0,987
35.0
30.0
0
2
4
6
8
10
12
Masse (kg)
Statistiques
10
2. Coefficient de correlation
Allons un peu plus loin...
s xy  s x s y
Inégalité de Schwarz:
r  1 ou  1  r  1
Donc...
r = -1
r = 0.7
r=1
Liaisons absolues
(déterministe)
Liaison
stochastique
(probabiliste)
Statistiques
r0
Pas de liaison
11
2. Coefficient de correlation
Etude des variables deux à deux
Un exemple:
Teneurs en Be, Zn et Sr (ppm)
dans l’étang de Thau
Statistiques
12
2. Coefficient de correlation
La matrice de corrélation...
Représentation pratique pour l’exploration
Statistiques
13
2. Coefficient de correlation
Statistiques
14
2. Coefficient de correlation
En pratique attention!!!!!!
Ce coefficient de corrélation doit être manié avec
grande précaution
r=0
r = 0.93
• r donne le degré de liaison linéaire.
• Dépendance curvilinéaire forte et r faible dans le 2eme cas.
• Le diagramme xy doit donc toujours être examiné en même temps
que la valeur de r.
Statistiques
15
2. Coefficient de correlation
Le coefficient de corrélation peut produire de hautes
valeurs si des points isolés sont présents.
r = -0.13
r = 0.19
r = 0.53
r = 0.92
Statistiques
16
2. Coefficient de correlation
La corrélation de deux variables log-transformées doit toujours
être interprétée avec précaution
4.8
Pb
100
50
3.0
r = 0.355
r = 0.784
0
1.2
30
60
90
2.0
Zn
3.0
4.0
5.0
ln(Zn)
Statistiques
17
2. Coefficient de correlation
Les coefficients de corrélation pour des données fermées (i.e. %) sont
probablement biaisés!!!
Pourquoi? La valeur d’une variable aura tendance à affecter les autres.
100
Mélange pur Qz - Fldp
Roche ignée avec
un 3ieme composant
<50%
Fldp (%)
Fldp (%)
100
50
50
r = - 0.62
r = -1
0
0
50
50
100
100
Qz (%)
Qz (%)
Statistiques
18
2. Coefficient de correlation
Fldp (%)
100
Roche ignée avec
un 3ieme composant
<50%
50
r = - 0.62
0
50
Qz (%)
100
Si l’on ajoute du Qz, le feldspath diminue.
Mauvaise interprétation: le Qz se substitue au feldspath!
En fait le feldspath est constant mais le volume change
Statistiques
19
2. Coefficient de correlation
Autre exemple de données fermées:
Paleoécologie. Fréquence d’une communauté par m2.
Attention. Ce sont des données fermées et une corrélation
négative peut être induite.
Mieux vaut travailler en nombre absolu d’individus.
Ceci n’est malheureusement pas possible en pétrologie.
Statistiques
20
2. Coefficient de correlation
Encore un autre exemple (données fermées):
Pb, Zn, Cd, Tl (ppm) dans un sédiment.
SiO2 varie
La corrélation entre les éléments traces devient positive
par dilution avec le SiO2!!
Alors comment faire??
Statistiques
21
2. Coefficient de correlation
Quoiqu’il en soit gare aux corrélations entre
rapports de variables!
Quand la même variable apparaît dans chacun des
rapports…
Quand son coefficient de variation est important face
aux autres variables…
Quand les données sont loin d’être normalement
distribuées…
A
B
C A/C B/C
12
50
10
49
9
46
7
65
5
37
11
69
9
58
8
48
9
37
10
51
12
43
13
43
6
56
7
76
8
48
13
67
Moyenne 9,31 52,7
ET
2,44 11,5
CV
26,2 21,9
2
6 25
6 1,67 8,2
3
3 15
20 0,35 3,3
54 0,09 0,7
3 3,67 23
5 1,8 12
28 0,29 1,7
55 0,16 0,7
32 0,31 1,6
40 0,3 1,1
2 6,5 22
17 0,35 3,3
8 0,88 9,5
12 0,67
4
54 0,24 1,2
21
Statistiques
20
94
22
2. Coefficient de correlation
Au fait, à partir de quelle valeur de r peut-on
considérer qu’on a vraisemblablement une
corrélation??
0.9 ?
0.6 ?
0.4 ?
Statistiques
23
2. Coefficient de correlation
Tests d’hypothèses
Population normale conjointe, hypothèse concernant la valeur de r
H 0 : r  0 contre H1 : r  0
Calcul de :
tc 
r n2
1 r2
On rejetteH0 si tc  t / 2,n2 ou si tc  t / 2,n2
Remarque: un coefficient de corrélation r = 0.4 peut être significatif
si n = 100 mais pas si n = 10.
Statistiques
24
2. Coefficient de correlation
Exemple:
Les données Pb(ppm) vs. Zn (ppm) mesurées dans les sols du Derbyshire
(n=44) permettent de calculer un coefficient de corrélation r = 0,765.
Y-a-t ’il une corrélation significative entre Pb et Zn?
H 0 : r  0 contreH1 : r  0
T est:
tc 
r n2

0.765 44  2
1 r
1  0.765
Pour  0.05,t critique  2
2
2
 7.7
tc calculé  t critique,donc H 0 est rejeté
C onclu sion
: Il y a un ecorré latio
n significat
ive e ntrePb e t Zn
Statistiques
25
2. Coefficient de correlation
Comparaison de deux coefficients de corrélation expérimentaux:
Deux valeurs de r obtenues sur deux différents groupes sont-elles
différentes?
H 0 : r1  r 2
Z est la transformée de r par
transformation de Fisher
H1 : r1  r 2
Quand n1 & n2 sont assez grands (>20):
On calcule Z d 
Z1  Z 2
1
1

n1  3 n2  3
1 1 r
Z  ln(
)
2 1 r
Zd est censé suivre une
loi normale N(0,1)
Si –Z<Zd < Z on accepte H0
Statistiques
26
2. Coefficient de correlation
Attention: ces tests sont valides
seulement si les données sont prises
sans biais dans une population
normalement distribuée (au moins
raisonnablement) par rapport aux deux
variables. Ce n’est pas souvent le cas
en géologie ou en environnement!
Une alternative: l’approche non-paramétrique que
nous allons voir plus tard.
Statistiques
27
2. Analyse de regression
La régression
Une technique statistique pour analyser les relations qui existent
parmi les variables.
Modèle de régression linéaire simple.
Equation linéaire décrivant la relation entre une simple
variable independante x et une variable dépendante y
Statistiques
28
2. Analyse de regression
Estimer l’équation linéaire qui décrit le mieux la relation entre une
variable dépendante (y) et une variable indépendante (x).
Exemple
 Un échantillon aléatoire de 15 appartements vendus à Dijon.
 Variables (pour chaque appartement):
 prix de vente (kF) et taille (m2).
Taille (m2)
20,0
70,4
20,5
etc
Prix (kF)
225,2
725,9
296,0
etc
Statistiques
29
2. Analyse de regression
• La relation linéaire apparaît positive mais elle n’est pas parfaite (non
déterministe). Il y a un élément du au hasard.
• Modèle probabiliste, avec un terme d’erreur aléatoire qui va compter
pour toutes les variables qui ne sont pas dans le modèle. (emplacement,
présence de jardins...)
Prix (keuros)
160
120
80
40
Taille m2
0
0
50
100
150
Statistiques
200
250
300
30
2. Analyse de regression – relation linéaire
• La droite qui s’ajuste le mieux aux données (best fit) est trouvée par la
méthode aux moindres carrés. La méthode minimise la somme des
carrés des distances verticales | entre les points et la droite.
yi
yˆi
Droite de régression de y en x
Statistiques
31
2. Analyse de regression – relation linéaire
yi  axi  b   i
yi : variabledépendant e
xi : variableindependant e
Ce sont des paramètres qui
s’appliquent à l’équation
s’ajustant le mieux
à la population (x,y).
b : int ercept
a : pent e
 i : erreur aléat oire
a et b sont les coefficients de la régression
Statistiques
32
2. Analyse de regression – relation linéaire
Un brin de mathématiques…?
Statistiques
33
2. Analyse de regression – relation linéaire
Il faut minimiser i
 i  yi  b  axi
P lusieurs possibilités :
1. mina,b i  i
2. mina,b i  i2
Le critère2 correspondà la méthodeaux m oin dre scarré s.
Si l' on a n observations : (x1,y1 ), (x2 ,y2 ),...,(xn ,yn )
et l' équationsuivanteliant les yi aux xi : yi  b  axi   i ,
i  1,....,n
la sommedes carrésdes écartsà la droiteest :
n
n
D      ( yi  b  axi ) 2
i 1
2
i
i 1
D doit ê tre le plus pe tit pos s ible ... alors ...?
Statistiques
34
2. Analyse de regression – relation linéaire
... dérivéespartielleset on les pose égales à zéro.
n
D   ( yi  b  axi ) 2
i 1
n
D
 2 ( yi  b  axi )
b
i 1
n
D
 2 xi ( yi  b  axi )
a
i 1
Les valeursestiméesde a et de b sont donnéespar :
n
  y  b  ax   0
i
i 1
i
n
 x  y  b  ax   0
i 1
i
i
ou bien...
i
Statistiques
35
2. Analyse de regression – relation linéaire
n
y
i 1
n
i
 nb  a  x i  0
i 1
n
n
n
i 1
i 1
i 1
2
x
y

b
x

a
x
 i i  i  i 0
C' est - à - dire...
n
y
i 1
n
i
 nb  a  xi
i 1
n
n
n
i 1
i 1
i 1
2
x
y

b
x

a
x
 i i  i  i
D' aut re part :
n
x1  ...  xn
x
x
 i
n
i 1 n
et
n
y1  ...  yn
y
y
 i
n
i 1 n
Statistiques
36
2. Analyse de regression – relation linéaire

x  y 

x y 
xi  x  yi  y  sxy

n
a

 2
2
2
sx
xi  x 

xi 


2
 xi  n
yi
xi


b
a
 y  ax
n
n
i
i
i i
La droite de régression passe par
( x; y )
Statistiques
37
2. Analyse de regression – relation linéaire
Ne nous énervons pas!!
En fait, ce n’est pas sorcier du tout…
Voyons plutôt un exemple.
Cas d’un ressort subissant un allongement sous l’effet d’un poids.
Statistiques
38
2. Analyse de regression – relation linéaire
Numéro de l'essai
i
‘X’ Masse
mi
‘Y’ Longueur
li
mi2
mili
1
2
3
4
5
2
4
6
8
10
42.0
48.4
51.3
56.3
58.6
4.0
16.0
36.0
64.0
100.0
84.0
193.6
307.8
450.4
586.0
i
 mili 
 m  l 
i
i
 30
l
i
 256,5
m
2
i
m l
i i
 1622
Balance à ressort
30 256,5
5
 2,055
900
220
5
1622
n

2
 mi 
2
m

 i
n
 li  a  mi  256,5  2,055 30  38,99
b
n
n
5
5
a
 220
65.0
60.0
y = 2.055x + 38.99
Longueur (cm)
m
n=5
55.0
50.0
45.0
40.0
35.0
30.0
Statistiques
0
2
4
6
Masse (kg)
8
10
39
12
2. Analyse de regression – relation linéaire
L’écart type de la pente a, estimé à partir de l’échantillon est noté S(a):
S(a) 
2
ˆ
(
y

y
)
 i i
n2
2
(
x

x
)
 i
C’est l’ordonnée
estimée à partir
du modèle
linéaire:
yˆi  axi  b
On peut alors déterminer l’intervalle de confiance de la pente (cf cours L1)
a [a  t( / 2,n2) S (a); a  t( / 2,n2) S (a)]
Si 0 apparaît dans cet intervalle, alors la pente ne peut être considérée
comme significativement différente de 0. On peut conclure qu’il n’existe
pas de corrélation significative entre les deux variables.
Statistiques
40
2. Analyse de regression – relation linéaire
Ceci correspond à la procédure habituelle d’un test d’hypothèses:
H0 : a  0
H1 : a  0
Autre méthode pour
finalement tester l’existence
d’une corrélation
a
tc 
S (a)
Comparaison de tc avect( / 2,n  2)
Si tc  t( / 2,n  2) alorson rejèteH 0
Statistiques
41
2. Analyse de regression – relation linéaire
3 méthodes possibles pour déterminer l’existence d’une corrélation entre
2 variables:
1. Calcul de r et test sur r
2. Calcul de l’intervalle de confiance de la pente. 0 appartient-il à cet
intervalle?
3. Calcul de la pente et de son écart type, test sur la pente.
Heureusement les trois méthodes aboutissent rigoureusement à la même
conclusion!!
Statistiques
42
2. Analyse de regression – relation linéaire
L'écart typeestiméde b, notéS(b), est :
S (b) 
2
x
 i
n ( xi  x )
2

2
ˆ
(
y

y
)
 i i
n2
On peut alors déterminer l’intervalle de confiance de l’ordonnée à l’origine
(cf cours L1)
b  [b  t( / 2,n  2 )  S (b);b  t( / 2,n  2 )  S (b)]
La valeur de tc pour le test de student est :
tc 
b
s (b)
H0 : b  0
H1 : b  0
Test sur la table de Student
Statistiques
43
2. Analyse de regression – relation linéaire
La droite de régression
passe par la moyenne
de x et la moyenne de
y.
Intervalle de confiance à 95%
140
y = 20,84 + 0,567 x
r = 0,77
La corrélation est
significative (de peu)
L’ordonnée à l’origine
ne peut pas être
considérée comme
différente de 0
Soyons honnête, de
tels résultats indiquent
un piètre analyste
Pb mesuré par AA (ppm)
120
100
80
y = 64, 14
60
40
20
x = 76,29
0
0
20
40
60
80
100
120
140
Pb mesuré à l'ICPMS (ppm)
Statistiques
44
2. Analyse de regression – relation linéaire
On accepte l’hypothèse nulle H0: b=0
yi  axi   i
 i  yi  axi
D    i   ( yi  axi ) 2
2
En dérivantpar rapportà a :
D
 2 xi ( yi  axi )
a
i
 x (y
i
i
 axi )  0
i
 xi yi  a xi  0
2
i
i
La valeur de a qui satisfait l' équation est :
a
x y
i
i
 xi
2
i
a: pente de la droite,
pas d’ordonnée à l’origine
i
Statistiques
45
2. Analyse de regression – relation polynomiale
Y s’exprime comme polynôme d’une seconde variable X
y  a  bx  cx2  ...  Hxn
Exemple: la hauteur h de chuted' un corpsest une fonct ionquadratique du tempst :
1 2
gt
2
On tirecommeprécédement :
h  h0  v0t 
n
y
i 1
i
x y
i 1
n
x
i 1
2
i
n
i 1
i 1
 na  b xi  c  xi2
n
i
n
i
n
n
n
i 1
i 1
i 1
a, b, c
 a  xi  b xi2  c  xi3
n
n
n
yi  a  x  b x  c  xi4
i 1
2
i
i 1
3
i
i 1
Ajustementpolynômialpar moindrescarrés
Statistiques
46
2. Analyse de regression – relation polynomiale
Ou sous forme matricielle...
2
 n
 a  
x
x



    y 
  x  x 2  x 3  b     xy 

2
3
4  


  x  x  x  c    x 2 y 


et pour un polynômede degré n...
  x0

  x1

 ...
 x n 1

x
1
x
2
...
n
x

 n 1
 a    x 0 y 
  

n
1
...  x  b    x y 
   
... 
...
...  ... 
2  n 1  
h    x ( n 1) y 
...  x


...
x
Même principe pour les sommes de fonctions trigonométriques
y  a sin x  b cos x
Statistiques
47
2. Analyse de regression – relation exponentielle
La fonction exponentielle est très courante en sciences
y  aebx
Par exemple la décroissance d’un élément radioactif...
210
Pb(t ) Pb0  e
210
 t
Si les constantes a et b sont inconnues, on espère pouvoir les
estimer à partir de x et y. Malheureusement l’approche directe
fournit des équations insolubles.
Alors… comment faire????
Statistiques
48
2. Analyse de regression – relation exponentielle
Très facile! On transforme l’équation non linéaire en une équation
linéaire. Linéarisation en prenant le logarithme:
ln y  ln a  bx
ln y devientlinéaireen x
Plus simple encore!! On utilise un papier « semi-log » puisque
l’espacement logarithmique des graduations évite le calcul de
lny.
Voyons cela sur un exemple...
Statistiques
49
2. Analyse de regression – relation exponentielle
Une population de bactéries décroît exponentiellement:
N  N 0e
t /
t est le temps et  est la vie moyenne de la population. A rapprocher de
la demi-vie t1/2; en fait t1/2 = (ln2) .
Temps ti
(jours)
0
1
2
Population Ni
Zi = ln Ni
153000
137000
128000
11.94
11.83
11.76
Statistiques
50
2. Analyse de regression – relation exponentielle
Opération bactéries
Opération bactéries
155000
11.95
y = -0.089x + 11.933
150000
11.9
Population
Population
145000
140000
11.85
11.8
135000
11.75
130000
11.7
125000
0
0.5
1
1.5
2
2.5
0
Temps (jours)
ln N0 = 11,93 et (-1/ ) = -0.089 j-1
  11,2 jours Statistiques
0.5
1
1.5
2
2.5
Temps (jours)
51
2. Analyse de regression – relation exponentielle
Extrêmement facile mais attention quand même…!!!
L’ajustement par moindres carrés de la droite y = ax+b suppose
que toutes les mesure y1,…,yn soient également incertaines.
Statistiques
52
2. Analyse de regression – Les autres grands modèles
Statistiques
53
2. Analyse de regression – Et les résidus…?
Attention
• Les points isolés ont un effet indésirables sur la régression
Leur influence doit être testée en les éliminant et en
répétant la régression.
• La différence en y entre un point et la droite de
régression est connue sous le nom de résidu.
La validité de la régression statistique dépend de la
distribution des résidus:
1. Les résidus doivent être normalement distribués
2. Il ne doit pas y avoir de tendance dans la distribution de
variance le long de x.
Statistiques
54
2. Analyse de regression – Et les résidus…?
Bande incurvée: Relation curvilinéaire. Ajouter des termes
polynomiaux!
i
x
Statistiques
55
2. Analyse de regression – Et les résidus…?
Le fuseau: La variance des résidus n’est pas indépendante des valeurs
de x. Des corrections doivent être apportées (courbe log. log p.e.)
i
x
Statistiques
56
2. Analyse de regression – Et les résidus…?
i
x
Bande oblique: Relation entre les résidus et la variable x. Si x
n’est pas dans le modèle, il faudrait l’introduire, ou erreur
importante.
Statistiques
57
2. Analyse de regression – Et les résidus…?
i
x
Bande horizontale: les conditions d’application sont suffisamment respectées
Statistiques
58
2. Analyse de regression – Le coefficient de détermination
yi
y
Variation
inexpliquée
yˆi
Variation
totale
Variation
expliquée
y
R2 = Variation expliquée / variation totale
Statistiques
59
x
2. Analyse de regression – Le coefficient de détermination
  yi  y 
2
Somme des carrés
totale (SCtot)

  yi  yˆi 
2
Somme des carrés
des résidus (SCres)

2
ˆ
(
y

y
)
 i
Somme des carrés
de la régression (SCreg)
Variation totale = variation inexpliquée + variation expliquée
R2 = Variation expliquée / variation totale
R2 est le coefficient de détermination, proportion de la variation
de y qui s’explique par la présence de x.
Plus R2 est grand, plus SCres est petit.
Statistiques
60
3. Corrélations non-paramétriques – rs de Spearman
Comme nous l’avons déjà vu, il est rare en géologie de trouver des
variables normalement distribuées.
La corrélation paramétrique est donc particulièrement dangereuse car
elle donne de forte corrélation en présence de points isolés.
En conséquence on utilisera plutôt une corrélation de rang.
Coefficient de rang de Spearman
- une méthode simple et populaire -
08/04/2015
Statistiques
61
3. Corrélations non-paramétriques – rs de Spearman
Echelle de la 1ere variable : ordinale
Echelle de la 2eme variable : ordinale, rapport, intervalle
rs :coefficient de rang (Spearman)
n
rs  1 
6 D 2
i 1
2
n(n  1)
D représente, pour chaque observation, les différences de rang
obtenues sur les deux variables.
08/04/2015
Statistiques
62
3. Corrélations non-paramétriques – rs de Spearman
n
Un exemple
Be
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
1,71
1,91
1,98
1,74
1,87
1,38
0,99
1,13
1,65
2,26
1,72
1,77
2,31
2,09
2,03
2,02
1,91
Zr
Rang Be Rang Zr D*D
62,04
5
5
0
71,50
10
13
9
68,40
12
11
1
61,25
7
4
9
64,16
9
7
4
58,49
3
3
0
30,33
1
1
0
39,55
2
2
0
64,71
4
8
16
71,47
16
12
16
63,14
6
6
0
67,09
8
9
1
85,68
17
15
4
88,52
15
17
4
88,30
14
16
4
77,45
13
14
1
68,20
11
10
1
rs  1 
i 1
2
n(n  1)
6  70
rs  1 
17  (172  1)
rs  0.914
100
90
80
Zr (ppm)
Ech.
6 D 2
70
60
50
40
Somme D*D 70
30
20
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
Be (ppm)
08/04/2015
Statistiques
63
3. Corrélations non-paramétriques – rs de Spearman
08/04/2015
Statistiques
64
3. Corrélations non-paramétriques – rs de Spearman (petits échantillons)
Cette valeur est-elle significative?
H 0 : rs  0
(absence de corrélation)
H1 : r s  0
Deux cas possibles
Si n<20, il existe une table qui donne en
fonction de n et , la valeur rs telle que sous
H0, on ait P(IRsI>r)=
On rejette donc H0 si IrsI>r
n (nbre
de paires)
0.05
0.02
5
0.95
0,99
6
0.886
0.943
1
7
0.786
0.893
0.929
8
0.738
0.833
0.881
9
0.683
0.783
0.833
10
0.648
0.746
0.794
12
0.591
0.712
0.777
14
0.544
0.645
0.715
16
0.506
0.601
0.665
18
0.475
0.564
0.625
20
0.45
0.534
0.591
0.01
Ici, n=17, rs =0,91>0,5, donc H0 est rejeté, il
y a donc une corrélation significative entre Zr
et Be au sens de Spearman
08/04/2015
Statistiques
65
3. Corrélations non-paramétriques – rs de Spearman (grands échantillons)
Si n>20, on opère de la même façon que pour le coefficient de
corrélation linéaire :
H 0 : r  0 contreH1 : r  0
Calcul de :
tc 
rs n  2
1  rs2
On rejetteH0 si tc  t / 2,n2 ou si tc  t / 2,n2
08/04/2015
Statistiques
66
3. Corrélations non-paramétriques – rs de Spearman
ATTENTION : Un rs significatif signifie que les variables sont
liées sans savoir de quelle façon!!!
Voyons cela sur quelques exemples…
08/04/2015
Statistiques
67
3. Corrélations non-paramétriques – rs de Spearman
rs=1
08/04/2015
Statistiques
68
3. Corrélations non-paramétriques – rs de Spearman
r = 0.88
08/04/2015
Statistiques
69
Faible
r de Pearson
Fort
3. Corrélations non-paramétriques – rs de Spearman
Faible
Fort
rs de Spearman
08/04/2015
Statistiques
70

similar documents