Nous avons calculé précédemment des intervalles contenant probablement la moyenne et la variance d’un échantillon généré suivant une loi dont les paramètres sont connus. Nous abordons maintenant le problème inverse : la moyenne et la variance de la loi sont inconnues, et nous cherchons des intervalles contenant vraisemblablement leurs vraies valeurs.
La notion de niveau de confiance est indispensable pour construire un intervalle de confiance. Nous avons déjà abordé ce problème dans le paragraphe précédent, en choisissant des probabilités (0.95) associées aux intervalles contenant très probablement les valeurs calculées sur l’échantillon.
Il faut en effet fixer une probabilité suffisamment grande pour que l’on puisse considérer que la réalisation d’un événement est très probable. Habituellement, on choisit les valeurs 0.90, 0.95, ou 0.99, que l’on note 1 - a pour des raisons expliquées dans le chapitre 6.
Définition : le niveau de confiance 1 - a, noté aussi (100 - a) %, est la probabilité d’un événement que l’on considère comme très probable.
Son choix est raisonné ; on doit l’effectuer en fonction du contexte dans lequel les estimations sont effectuées. On ne peut guère donner plus de précisions à ce stade.
On considère un paramètre w de la loi de probabilité d'une v.a. X, et un échantillon Xi, i = 1, …, n de cette v.a. .
Définition : l’intervalle de confiance du paramètre w est défini au niveau de confiance 1 – a par l’observation de deux v.a. B1 et B2 dépendant de l’échantillon Xi, i = 1, …, n et vérifiant la propriété suivante :
P(w Î[B1, B2 ]) = 1-a
Les bornes B1 et B2 de l’intervalle dépendent du hasard. Chaque échantillon observé donne donc un intervalle de confiance [b1, b2] différent. L’intervalle de confiance est finalement l’ensemble des valeurs vraisemblables du paramètre w compte tenu de l’échantillon observé.
On donne en figure 9.5 une suite d’intervalles de confiance de la moyenne théorique m d’une v.a. X. Chaque intervalle [m1, m2] résulte de l’observation d’un échantillon de X et est la réalisation de l’intervalle aléatoire [M1, M2] contenant le paramètre théorique m avec la probabilité 0.95. Les v.a. M1 et M2 sont définies dans le paragraphe 3.2.
Nous cherchons à évaluer la moyenne m de la population (figure 9.5). Pour cela, on choisit un niveau de confiance égal à (100-a)%, qui permet de définir l’intervalle de confiance. On suppose tout d’abord que la variance théorique s2 est connue.
Propriété : lorsque les v.a. Xi sont indépendantes et suivent la loi normale, la statistique U définie par
U = [M - m ]/[s2/n ]1/2
suit la loi centrée réduite.
On sait que la v.a. M suit la loi normale de moyenne m et de variance s2/n. La variable U ci-dessus est obtenue en centrant et en réduisant M.
On peut donc déterminer le nombre ua tel que :
P(-ua < U < ua ) = 1 - a
Pour obtenir un intervalle symétrique, on pose :
P(U < - ua ) = a/2 P(U > ua ) = a/2
Exemple (figure 10.5) :
a = 1% |
1 – a = 99% |
ua = 2.58 |
a = 5% |
1 – a = 95% |
ua = 1.96 |
a = 10% |
1 – a = 90% |
ua = 1.65 |
On en déduit :
P(- ua s/Ön < M - m < ua s/Ön ) = 1 - a
P(M - ua s/Ön < m < M + ua s/Ön ) = 1 - a
On obtient l’intervalle ci-dessous :
IC = [M - ua s/Ön, M + ua s/Ön] = [M1, M2]
avec :
M1 = M - ua s/Ön |
M2
= M + ua s/Ön |
à ce niveau, les bornes de l’intervalle IC dépendent de la v.a. M et sont aléatoires : on peut donc dire que la moyenne théorique m appartient à l’intervalle de confiance IC avec la probabilité 1 – a.
Par contre, après observation de l’échantillon, on connaît la valeur observée m de M : on ne peut tenir le même discours que précédemment puisque les bornes de l’intervalle ne dépendent plus du hasard. La moyenne théorique m est très « vraisemblablement » comprise entre les deux valeurs numériques.
Définition : lorsque la variance théorique s2 est connue, l’intervalle de confiance de la moyenne au niveau de confiance (100-a)% est l’intervalle :
[m - ua s/√n , m + ua s/√n ] |
le
nombre ua étant choisi dans
la table de la loi normale centrée réduite U de façon que P(- ua < U < ua ) = 1 - a.
Remarques :
· Les bornes de l’intervalle de confiance sont symétriques par rapport à la moyenne observée. Il est possible de les choisir différemment. Par exemple, on choisit la valeur ua telle que :
P(U < ua ) = 1 - a
L’intervalle de confiance est alors de la forme ] - ¥, M + ua s/√n ] : la moyenne théorique est très vraisemblablement inférieure à m + ua s/√n.
· La longueur de l’intervalle aléatoire tend vers 0 lorsque le nombre d’observations augmente indéfiniment. On retrouve la convergence de l’estimateur M vers la moyenne théorique m.
· Le théorème de la limite centrée permet de calculer cet intervalle de confiance même lorsque la v.a. X ne suit pas la loi normale, à condition que l’échantillon soit de taille suffisante.
L’estimation de la moyenne est plus fréquemment effectuée sans que l’on connaisse la variance théorique. On ne peut donc plus effectuer les calculs précédents. Le calcul de l’intervalle de confiance est fondé sur la propriété suivante :
Propriété : lorsque les v.a. Xi sont indépendantes et suivent la loi normale, la statistique T définie par :
T
= [M - m ]/[S2 / (n-1) ]1/2
suit la loi de Student de degré de liberté n-1.
Une démarche analogue à la précédente nous donne l’intervalle de confiance.
Définition : lorsque la variance théorique s2 est inconnue, l’intervalle de confiance de la moyenne au niveau de confiance (100-a)% est l’intervalle :
[m - ta s/(n - 1)1/2 , m + ta s/(n - 1) 1/2 ] |
Pour déterminer ta, on utilise :
· si n £ 120, la table de la loi de probabilité de Student de degré de liberté n = n-1 ;
· pour n > 120 la table de la loi normale centrée réduite.
Nous donnons ci-dessous quelques valeurs de ta :
n = 10 |
n = 9 |
a= 5% |
ta = 2.26 |
n = 20 |
n = 19 |
a= 5% |
ta = 2.09 |
n = 20 |
n = 19 |
a= 10% |
ta = 1.73 |
n = 50 |
n = 49 |
a= 5% |
ta = 2.02 |
Remarque : les remarques du paragraphe précédent restent vraies.
Exemple
: nous avons calculé dans le chapitre 1 la moyenne et la variance des 50 achats
de l’échantillon tiré au hasard : m = 316.945F, s = 207.1291, s2
= 42902.472. On a, pour a = 5%, ta
= 2.02. L’intervalle de confiance de la moyenne est égal à :
[316.945 - 2.02 x 207.1291/Ö49
, 316.945 + 2.02 x 207.1291/Ö49 ]
[ 257.173, 376.717 ]
Dans le
calcul de l’intervalle de confiance de la moyenne, le manque de symétrie de la
répartition, constaté précédemment par l’étude de l’histogramme et la valeur du
coefficient d’asymétrie (1.16, est compensé par le nombre d’observations (50).
En ce qui concerne la variance, le principe est le même, mais la loi de probabilité utilisée est la loi du c2 de degré de liberté n = n-1.
Propriété : lorsque les v.a. Xi sont indépendantes et suivent la loi normale, la v.a. n S2/s2 suit la loi du c2 de degré de liberté n-1.
La loi du c2 n’est pas symétrique (figure 11.5), puisque les valeurs appartiennent à l’intervalle [0, + ¥ [. Pour obtenir un intervalle de confiance de niveau de confiance 1 -a symétrique en probabilité, il faut déterminer deux bornes (figure 11.5) :
· ca2 telle que P(n S2 / s2 < ca2) = a/2
· c1-a2 telle que P(n S2/s2 > c1-a2) = a/2
Les valeurs ci-dessous sont obtenues dans la table de la loi du c2 :
n |
n |
a |
ca2 |
c1-a2 |
10 |
9 |
5% |
2.700 |
19.023 |
20 |
19 |
5% |
8.907 |
32.852 |
20 |
19 |
10% |
10.117 |
30.144 |
50 |
49 |
5% |
31.555 |
70.222 |
50 |
49 |
10% |
33.93 |
66.34 |
On en déduit la probabilité de l’intervalle [ca2, c1-a2 ] suivant la loi du c2 :
P(ca2 < n S2/s2 < c1-a2) = 1 - a
Un calcul simple donne :
P(n
S2/c1-a2
< s2 < n S2/ca2)
= 1 - a
Définition : l’intervalle de confiance de la variance au niveau de confiance (100 - a)% est l’intervalle :
[n s2/c1-a2 , n s2/ca2 ] |
Le calcul de l’intervalle de confiance de la variance est plus
compliqué pour n>100 et nous n’en parlerons pas (la procédure est expliquée
dans la plupart des tables du c2).
Remarques :
· Les bornes ca2 et c1-a2 respectent la symétrie en probabilité. On aurait pu les choisir de façon différente, la seule condition étant :
P(n S2/s2 < ca2) + P(n S2/s2 > c1-a2) = a
· En choisissant ca2= 0, on obtient une valeur minimale de la variance puisque l’intervalle de confiance est de la forme [n s2/c1-a2 , + ¥ [
·
En choisissant c1-a2= + ¥, on
obtient une valeur maximale de la variance puisque l’intervalle de confiance
est de la forme [0, n s2/ca2
[
· La v.a. n S2/s2 ne suit la loi du c2 que lorsque la v.a. X suit la loi normale. L’intervalle de confiance peut toujours être calculé, mais son intérêt est limité lorsque cette propriété n’est pas vraie, même lorsque l’effectif de l’échantillon est élevé.
· On remarquera que l’intervalle de confiance de la variance ne dépend pas de la moyenne théorique de la v.a. Plus précisément, les v.a. M et S2 sont indépendantes, ce qui signifie que l’approximation faite sur un paramètre n’a pas d’effet sur l’approximation faite sur l’autre.
Exemple
: calculons l’intervalle de confiance de la variance des achats des
clients d’Euromarket. L’estimation est s2 = 42902.472. Le degré de
liberté est égal à 49 pour 50 observations. On a, en choisissant un niveau de
confiance égal à 95% :
ca2 = 31.555 |
c1-a2 = 70.222 |
D’où
l’intervalle de confiance de la variance des achats :
[50 x 42 902.472/70.222 ,
50 x 42 902.472/31.555 ]
IC = [30 547.74, 67 980.47]
On
sait que le montant des achats n’est pas réparti suivant la loi normale dans la
population. On accordera donc un intérêt limité à l’intervalle de confiance
ci-dessus que nous n’avons calculé qu’à titre d’exemple numérique.
Les lois des estimateurs M et S2 nous ont permis de calculer les bornes des intervalles de confiance des paramètres m et s2. On ne peut pas toujours effectuer ce calcul, et la recherche des bornes doit parfois être menée différemment.
Étudions les cas particuliers d’une probabilité et du paramètre l d’une loi de Poisson.
La démarche repose sur la loi de Bernoulli de paramètre p (qui n’est évidemment pas égal ici à 3.14) et la loi binomiale. Cette probabilité p est la probabilité d’un événement E, par exemple la proportion de femmes dans la clientèle d’Euromarket..
On calcule, en effectuant une suite de n tirages, le nombre de réalisations nE de l’événement E : on sait que le rapport p = nE/n est une estimation de la probabilité p, et que nE est la valeur observée x d’une variable aléatoire X qui suit la loi binomiale B(n, p).
Lorsque le nombre de tirages est suffisant (n>100) on utilise une approximation de cette loi par la loi normale :
Définition : pour n >100, on appelle intervalle de confiance d’une probabilité p au niveau de confiance (100-a)%, l’intervalle :
[ p - ua [p (1 - p)/n]1/2 , p + ua [p (1 - p)/n]1/2 ] |
dans lequel p est la fréquence observée dans l’échantillon et ua est choisi dans la table de la loi normale suivant le niveau de confiance fixé.
Exemple : pour n =200, x= 130 et a = 0.05, on a ua = 1.96.
On en déduit p = 0.65 et l’intervalle de confiance :
[
0.65 - 1.96 x [ 0.65 x 0.35/200 ]1/2 , 0.65 + 1.96 x [ 0.65 x 0.35/200 ]1/2 ]
IC = [ 0.584 , 0.716] |
Pour les petites valeurs de n, la procédure consiste à déterminer pour x connue les valeurs pa a et p1-a telles que :
P(X>x/p = pa) = a/2 |
P(X<x/p = p1-a) = a/2 |
Cela
revient à calculer la plus grande et la plus petite des valeurs possibles de p.
On peut utiliser un abaque[1], une table statistique ou un logiciel.
Exemple :
examinons le cas pour n = 10, p = 0.6 et a =
0.05. Nous donnons ci-dessous les probabilités P(X<=6) et P(X>=6) pour p = 0.3 et p = 0.8.
Loi Binomiale B(10,0.3) |
Loi Binomiale B(10,0.8) |
||
P(X<=6) |
P(X>=6) |
P(X<=6) |
P(X>=6) |
0.989408 |
0.047349 |
0.120874 |
0.967207 |
On peut
considérer que les valeurs p = 0.3 et p = 0.8 appartiennent à l’intervalle de confiance puisque les
probabilités sont supérieures à 0.025.
On constate
aussi que plus la valeur de p est élevée, plus la probabilité P(X<=6) est faible et plus
la probabilité P(X>=6) est grande. On cherche donc la valeur de p la plus grande
possible, jusqu’à obtenir P(X<=6) = 0.025. On trouve p = 0.88
Réciproquement,
plus la valeur de p
est faible, plus la probabilité P(X<=6) est grande et plus la probabilité
P(X>=6) est petite. On cherche donc la valeur de p la plus petite possible, jusqu’à obtenir
P(X>=6) = 0.025. On trouve p = 0.26.
La lecture
de l’abaque donne le même intervalle de confiance: [0.26, 0.88].
Définition : l’intervalle de confiance du paramètre l d’une v.a. de loi P(l) au niveau de confiance (100 - a)% est l’intervalle :
[ca2/2n , c1-a2/2n ] |
où n est le nombre d’observations, s leur somme et où les valeurs ca2 et c1-a2 vérifient les propriétés :
· ca2 telle que P(X12 < ca2) = a/2, X12 étant une v.a. suivant la loi du c2 de degré de liberté n1 = 2 s
· c1-a2 telle que P(X22 > c1-a2) = a/2, X22 étant une v.a. suivant la loi du c2 de degré de liberté n2 = 2 (s+1)
On peut utiliser aussi les tables statistiques ou un logiciel pour calculer l’intervalle de confiance comme précédemment.
Exemple : pour
calculer l’intervalle de confiance du paramètre l d’une loi de Poisson dont la valeur estimée
sur 10 observations est l = 2.5, on cherche les valeurs ca2
et c1-a2
pour les degrés de liberté 50 et 52 et pour le niveau de confiance choisi
(95%). La table donne : ca2
= 32.357, c1-a2
= 73.810. On en déduit l’intervalle de confiance :
[1.618, 3.691]
[1] Graphique donnant par simple lecture la solution approchée d'un problème numérique. On trouvera un abaque dans l’ouvrage de G. Saporta.