LOI NORMALE et BINOMIALE

Report
AUTOUR DE LA LOI NORMALE
Formation nouveaux programmes de Terminales S et ES
Les objectifs du programme de statistique en
terminale
Poursuivre le travail de statistique inférentielle
commencé en classe de Seconde et de
Première
 Prise de décision en situation de risque
 Estimation par intervalle de confiance
Avec un nouvel outil : la loi normale
2
Formation nouveaux programmes de Terminales
POURQUOI LA LOI NORMALE ?
Formation nouveaux programmes de Terminales S et ES
Un exemple : Etude du surpoids
Dans la population étudiée, il y a 46% d’hommes et 18% de
personnes de plus de 60 ans.
Un sondage a été réalisé par un tirage au hasard de 400
personnes, et peut être assimilé à un tirage avec remise.
1.
Dans l’échantillon prélevé pour cette étude on observe :
Hommes
Femmes
< 60 ans
> 60 ans
195
205
313
87
Cet échantillon est-il représentatif ?
2. L’étude montre que dans cet échantillon 29% des personnes
sont en surpoids. Estimer la proportion de personnes en
surpoids dans cette population.
4
formation nouveaux programmes de terminales
Un exemple : Etude du surpoids
Pour une étude, mettant en jeu le lien avec certaines caractéristiques
connues de la population on considère qu’un échantillon est
représentatif, si la fréquence f observée de ces caractéristiques est
dans l’intervalle de fluctuation au seuil de 95%.
Dans la population étudiée, il y a 46% d’hommes et 18% de
personnes de plus de 60 ans.
Le sondage a été réalisé par un tirage au hasard de 400
personnes et peut être assimilé à un tirage avec remise.
Au travail !
5
Formation nouveaux programmes de terminales
Etude du surpoids : un scénario possible
Pour une étude, mettant en jeu le lien avec certaines caractéristiques
connues de la population on considère qu’un échantillon est
représentatif, si la fréquence f observée de ces caractéristiques est
dans l’intervalle de fluctuation au seuil de confiance de 95%.
Dans la population étudiée, il y a 46% d’hommes et 18% de
personnes de plus de 60 ans.
le sondage a été réalisé par un tirage au hasard de 400
personnes et peut être assimilé à un tirage avec remise.


1. Réaliser un échantillon. par simulation,
Cet échantillon est-il représentatif en ce qui concerne la
répartition des hommes ?
6
Formation nouveaux programmes de terminales
Etude du surpoids : réinvestir
Dans l’échantillon prélevé pour cette étude on observe :
2.
Hommes
Femmes
195
205
< 60 ans
> 60 ans
313
87
Cet échantillon est-il représentatif ?
Pour les hommes : p =0,46 (outil de seconde)
Pour un seuil de 95%, on a obtenu IFH =[0,41 ;0,51]
f =195/400 = 0,4875 donc f IFH
donc cet échantillon est représentatif pour les hommes
Pour les plus de 60 ans : p=0,18 (outil première)
cette méthode ne s’applique pas, il faut 0,2<p<0,8
On établit IFV avec la fonction de répartition de la loi binomiale B(400;0,18) ,
à l’aide d’une calculatrice ou d’un tableur : IFv=[57/400;87/400]
donc cet un échantillon est représentatif pour les plus de 60 ans.
7
formation nouveaux programmes de terminales
Etude du surpoids : outil de 2de
3. L’étude montre que dans cet échantillon 29% des
personnes sont en surpoids. Estimer la proportion de
personnes en surpoids dans cette population.
L’intervalle de confiance de la classe de seconde donne
[0,29- 0,05 ; 0,29+0,05]

Donc la proportion de personnes en surpoids est dans
l’intervalle [0,24 ; 0,33] au niveau de confiance de 95%.
On dit aussi pour un seuil de risque de 5%.
8
formation nouveaux programmes de terminales
Un exemple : Etude du surpoids
4. On veut réaliser une étude plus précise en réalisant un
échantillon de taille 1200. Dans l’échantillon prélevé pour
cette étude on observe :
Cet échantillon est-il représentatif ?
Le calcul n’est ici plus possible avec une calculatrice, cela
dépasse ses capacités de calcul.

L’étude montre que dans cet échantillon 32% des personnes
sont en surpoids. Estimer la proportion de personnes en
surpoids dans cette population.

9
formation nouveaux programmes de terminales
Observation des binomiales pour n grand

En utilisant Geogebra et l’outil de calcul des probabilités, on
peut explorer le comportement des grandes binomiales

Des formes similaires dites « forme en cloche »
10
formation nouveaux programmes de terminales
TP centrer- réduire : le foie gras
Les foies gras d'oie commercialisés en 2012 par un
producteur du Sud Ouest ont une masse dont la
moyenne est 750 grammes et dont l'écart type est 100
grammes. Le pesage, en grammes, d'un foie pris au
hasard dans la production détermine une V.A. G telle
que E(G)=750 et (G)=100. L'année précédente, en
2011, les foies gras commercialisés par ce même
producteur avaient un poids moyen de 680 g et un
écart type de 120g. Un client fidèle a acheté un foie de
750 g en 2011 et un de 800 g en 2012.
 Quel classement peut-on faire de ces deux foies
comparativement à la production annuelle dont ils
sont issus ?
11
formation nouveaux programmes de terminales
LOI NORMALE et BINOMIALE
Formation nouveaux programmes de Terminales S et ES
L’idée centrale
Une première idée simplifiée du théorème :

Lorsqu’on observe les représentations graphiques des
grandes binomiales, elles présentent une forme
commune dite « forme en cloche », connue sous le
nom de courbe de Gauss, et qui correspond à la
fonction de densité de la loi normale.

On a donc l’idée intuitive qu’on peut approcher les lois
binomiales par les normales, pour n grand.
La formalisation de ce constat est énoncée par le
« théorème de Moivre-Laplace », ce qui va nécessiter
quelques détours…

13
Formation nouveaux programmes de terminales
Le théorème de Moivre-Laplace
Premières remarques :
 On reconnait à droite P(a < Z < b) où Z suit la loi
normale N(0;1).
 Ce n’est pas sur Xn que porte la convergence vers la loi
normale, mais sur la « variable centrée réduite » Zn.
 On s’intéresse à des probabilités d’intervalles.
14
formation nouveaux programmes de terminales
Le théorème de Moivre-Laplace
Autre remarque
 Ce théorème définit une convergence en loi :
Ce n’est pas Zn qui converge vers Z, mais la fonction de
répartition de Zn qui converge vers la fonction de
répartition de Z.
15
formation nouveaux programmes de terminales
le théorème de Moivre-Laplace
On centre et
on réduit
Xn suit B(n;p)
On obtient
Zn
converge
converge
Z qui suit
N(0 ; 1)
Y qui suit
N (np; npq)
Dépend
de n
16
Formation nouveaux programmes de terminales
n tend
vers
l’infini
Premier problème :
le passage du discret au continu

Premier problème :
la loi binomiale est une loi
discrète
P(X=a)
Diagramme en bâtons

la loi normale est une loi
continue
P(a<X<b)
Aire sous une courbe
On va donc plonger la loi binomiale dans le monde des aires
17
formation nouveaux programmes de terminales
Passage du discret au continu

On considère une variable aléatoire Xn qui suit la loi
discrète B(n;p)
E(Xn) = np = µ
18
V(Xn) = np(1-p) = σ²
Formation nouveaux programmes de Terminales
Problème du passage du discret au continu

La loi binomiale, loi discrète, se représente par un
diagramme en bâtons, qu’il faut convertir en histogramme
pour que les probabilités puissent être interprétées en
termes d’aires.

Le bâton représentant p(X=k) = pk doit devenir une
colonne d’aire pk.

On l’obtient en traçant une colonne de largeur 1 centrée
sur k : [k - 0,5 ; k + 0,5] de hauteur pk.
19
formation nouveaux programmes de terminales
Passage du discret au continu

On considère une variable aléatoire Xn qui suit la loi
discrète B(n;p)
E(Xn) = µ et V(Xn) = σ²
20
Formation nouveaux programmes de terminales
Passage du discret au continu

On considère une variable aléatoire Xn qui suit la loi
discrète B(n;p)
Et on a :
P(a  Xn  b) = somme des aires des rectangles
21
Formation nouveaux programmes de terminales
Comment centrer

X est une variable aléatoire centrée
signifie que E(X) = 0

La variable Yn = Xn – µ est centrée
Attention :
Yn ne suit pas une loi binomiale :
Cette variable aléatoire prend des valeurs négatives !
22
Formation nouveaux programmes de terminales
Comment centrer

La variable Yn = Xn – µ est centrée
E(X+b) = E(X)+ b
donc
E(Yn) = 0
23
V(aX+b) = a²V(X)
donc
V(Yn) = ²
Formation nouveaux programmes de terminales
Comment réduire
La variable aléatoire Zn = Yn/
est centrée
E(Zn) = 0
Sa variance est égale à 1 :
V(aX+b) = a²V(X)
24
formation nouveaux programmes de terminales
Comment réduire
On a pris la variable aléatoire
Zn = Yn /
On raisonne sur des aires, on veut
conserver des rectangles d’aire pk ;
donc si on réduit les abscisses en les
divisant par , on doit compenser en
multipliant les ordonnées par .
On conserve une aire totale de 1.
25
formation nouveaux programmes de terminales
Bilan sur Zn, variable centrée réduite
Zn 
E(Zn) = 0
26
formation nouveaux programmes de terminales
X n  np
np( 1  p )
V(Zn) = 1
Loi normale centrée réduite


Les histogrammes représentant Zn ont tous
exactement la même allure
La courbe qui approxime cette allure c’est la courbe
de Gauss représentant la fonction f définie par :
f(x) =
1
2
e

x²
2
C’est la fonction de densité de la loi normale N(0;1)
nouvelle fonction de référence à étudier
27
formation nouveaux programmes de terminales
Lien entre binomiale et normale
Le théorème qui formalise ce constat est le théorème de MoivreLaplace (TML).
Xn suit B(n;p)
On centre et
on réduit
On obtient
Zn
converge
Approxim°
Y qui suit
N (np; npq)
28
Z qui suit
N(0 ; 1)
Formation nouveaux programmes de terminales
TML
FLUCTUATION ET CONFIANCE
Formation nouveaux programmes de Terminales S et ES
Second théorème du programme
Si Z suit N(0 ; 1) alors pour tout réel α [0 ; 1],
il existe un réel u tel que P(-u<Z< u ) =1-
f(x) =
30
formation nouveaux programmes de terminales
1
2
e

x²
2
Second théorème du programme
On cherche un intervalle I=[-u ; u]
tel que P(Z  I)=1-
où Z suit N(0 ;1)
I est un intervalle de fluctuation au seuil de 1-α pour
une V.A. qui suit la loi normale standard N(0 ; 1) .
31
formation nouveaux programmes de terminales
Application à l’intervalle de fluctuation pour
une v.a. qui suit B(n,p)
 un réel donné et u le réel tel que P(-u<Z< u ) =1-
où Z suit N(0 ; 1)
Si Xn suit B(n ; p) et Fn = Xn/n

et In l’intervalle :


I n   p  u

p( 1  p )
n
; p  u
p( 1  p ) 

n

d’après le théorème de Moivre-Laplace, on aura :
P( Fn  I n )  1  
lim
n
Donc pour n « assez grand » on a : P(Fn In) ≃ 1 - 
In est un intervalle de fluctuation dit asymptotique au seuil
1-,
32
Formation nouveaux programmes de terminales
Intervalle de fluctuation pour la loi normale N(0 ; 1)
au seuil de 95%
Uα ≃ 1,96
α = 0,05
u0,05
P(F[-u0,05 ; u0,05]) = 0,95
P(F[-1,96 ; 1,96])≃>0,95
33
formation nouveaux programmes de terminales
Intervalle de fluctuation pour une v.a. qui suit B(n ; p)
au seuil de 95%
α = 0,05
uα ≃ 1,96
u0,05
u0,05 ≃ 1,96 on en déduit au seuil de 95%
34
formation nouveaux programmes de terminales
Intervalle de fluctuation pour une v.a. qui suit B(n ; p)
au seuil de 95%
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
35
200
400
600
800
1000
1200
1400
Formation nouveaux programmes de terminales
1600
1800
2000
trois intervalles de fluctuation
au seuil de 95%

1
1 
p

;
p



n
n

formule

p( 1  p )
p( 1  p ) 
p

1
,
96
;
p

1
,
96


n
n


Pas de
formule
formule
formation nouveaux programmes de
terminales
a b 
n ; n


38
trois intervalles de fluctuation
au seuil de 95%
1ère
• Base théorique : loi binomiale
• sans contraintes sur n et p
Term.
Environ 95%
Au moins 95%
• Base théorique : TML
Environ 95%
• Intervalle asymptotique
•  contraintes : n 30 et np5 et n(1-p)5
formation nouveaux programmes de
terminales
2nde
• Pas de base théorique : simulations
• approximation de l’IF de terminale
 contraintes : n 25 et 0,2<p<0,8
39
Un exemple : Etude du surpoids
4. On veut réaliser une étude plus précise en réalisant un
échantillon de taille 1200. Dans l’échantillon prélevé pour
cette étude on observe :
Cet échantillon est-il représentatif ?


L’étude montre que dans cet échantillon 32% des
personnes sont en surpoids. Estimer la proportion de
personnes en surpoids dans cette population.
40
formation nouveaux programmes de terminales
Un exemple : Etude du surpoids
4.
On veut réaliser une étude plus précise en réalisant un échantillon de taille 1200. Dans
l’échantillon prélevé pour cette étude on observe :
Intervalle de fluctuation asymptotique au niveau de confiance de 0,95
on a p=0,46 et n =1200 donc np >5
1200
IFH = [0,46-1,96x0,014; 0,46-1,96x0,014]
=[0,43;0,49]
Or fH ≃ 0,46 et fH  IFH donc l’échantillon est représentatif.
De même IFV =[0,158;0,202] et fV ≃ 0,207 et fH IFH donc l’échantillon n’est
pas représentatif.

L’étude montre que dans cet échantillon 32% des personnes sont en
surpoids. Estimer la proportion de personnes en surpoids dans cette
population. [0,32-1/rac(1200) ; 0,32 +1/rac(1200)]≃[0,29 ; 0,35]
Donc au niveau de confiance de 0,95 p [0,29 ; 0,35]
41
formation nouveaux programmes de terminales
Bilan : Intervalle de confiance


f la fréquence observée sur un échantillon de taille n.
Si n  30, nf  5 et n(1-f)  5
Un intervalle de confiance IC au niveau de confiance de
1
1

 .
95% est f 
;
f


n
n 
et on a P( pIC) ≃ 0,95.
Pour n et f déterminés, on parlera d’une fourchette de
sondage.
42
Formation nouveaux programmes de Terminales
Détermination de l’intervalle de confiance
par lecture des abaques
n=100
Fréquence
observée fn
Intervalle de confiance
44
formation nouveaux programmes de terminales
A quoi servent les sondages
Extraction d ’un
échantillon
x
xx
x
xx
xx
x
x
P
x xx x x x x x
x x x xx x xx x xx
x
xx
xx
x
x x xx x x x xx
x
x x x xx
xx x
x
x
x
x
x x
xx x x xx x x
x
x
x
x x x
x
x
xx x x x
x
x
x x
x
x x
x x
x
xx
45
x xx
x x x
Ex x xx x xx
x x xx x
x
Étude sur
l ’échantillon
Extrapolation
à la population
x xx
x x x
Ex x xx x xx
x x xx x
x
Formation nouveaux programmes de Terminales
l’ECHANTILLONNAGE
au lycée
Échantillonnage
Je connais p, j’en déduis f
Échantillon
Population
Proportion p
Fréquence f
Statistiques inférentielles
Je connais f, j’en déduis p
46
formation nouveaux programmes de terminales
APPLICATIONS DE
L’ECHANTILLLONNAGE
Théorie
des tests, quand on dispose d’une hypothèse sur p
fréquence f
sur un
échantillon de
taille n
Théorie
Intervalle de
fluctuation
Rejet ou non
de
l’hypothèse
sur p
de l'estimation, quand on ne connait pas p.
fréquence f
sur un
échantillon de
taille n
Intervalle de
confiance
Formation nouveaux programmes de terminales
Estimation
de p
47
Prise de décision : un exemple


Dans la réserve indienne d’Aamjiwnaag, située au Canada à
proximité d’industries chimiques, il est né entre 1999 et 2003,
132 enfants dont 46 garçons.
Ces observations sont-elles le fruit du hasard ?
Règle de décision : Si f  IF c’est le fruit du hasard,
sinon ce n’est pas le fruit du hasard.
 On a f = 46/132 ≃ 0,35 et IFasyptotique =[0,42 ; 0,60]
Donc ce n’est pas le fruit du hasard

Hypothèse vraie
48
Hypothèse fausse
J’accepte l’hypothèse
1-
β
Je rejette l’hypothèse
α
1-β
Formation nouveaux programmes de Terminales
Conclusion : pourquoi les statistiques?

Le statisticien est une personne qui préfère les
vrais doutes aux fausses certitudes.
Je sais que je me
trompe, mais je peux
quantifier mon erreur.
49
formation nouveaux programmes de terminales
Quels types d’exercices en terminale
La situation est modélisée par une loi normale
 On connait μ et σ, on calcule une probabilité
 On connait μ, σ et p, on détermine x tel que P(X<x) = p
 On connait x et p, on détermine μ et σ
La situation est modélisée par une loi binomiale
 On connait μ et p, on cherche la précision ε telle que
P(X[μ- ε ; μ + ε]) = p en approximant par une loi normale
Avec une loi normale ou binomiale
 Prise de décision avec IF asymptotique
 Estimation de p avec IC seconde
 Détermination de la précision d’une estimation.
50
Formation nouveaux programmes de Terminales

similar documents