2. Caractéristiques de dispersion.

La moyenne et la médiane donnent chacune un ordre de grandeur des observations : ce sont des caractéristiques de « tendance centrale ». Mais il est facile d’imaginer des séries d’observations ayant même moyenne et même médiane alors qu’elles sont très différentes.

 

Exemple numérique : on considère la série de 6 observations : x1 = 10, x2 = 11,
x3 = 12, x4 = 13, x5 = 14, x6 = 15. Nous avons vu que la moyenne et la médiane sont égales à 12.5. La série :x1 = 0, x2 = 1, x3 = 2, x4 = 23, x5 = 24, x6 = 25 a la même moyenne et la même médiane que la première. Elle en est pourtant très différente : les observations sont beaucoup plus écartées les unes des autres.

2.1 Ecart absolu moyen, variance et écart-type.

Pour compléter la caractéristique de tendance centrale par un paramètre évaluant la « dispersion » des observations, on évalue la distance entre cette caractéristique et la série des observations xi :

·      on considère la somme ex des valeurs absolues des différences entre la médiane mé et les xi :

 

 

n

 

e = ï x1 – mé ç + ç x2 – mé ç + ç x3 – mé ç + ...

=

å

ç xi – mé ç

 

 

i = 1

 

·      on considère la somme des carrés des différences entre la moyenne m et les xi :

 

 

n

 

dx2 = [ x1 – m ]2 + [ x2 – m ]2 + [ x3 – m ]2 + ...

=

å

[ xi – m ]2

 

 

i = 1

 

Dans la pratique, on recherche des ordres de grandeur des écarts çxi – mé ç ou des carrés (xi – m)2. Ces ordres de grandeur sont donnés par les moyennes (même s’il serait plus logique de considérer la médiane des écarts ç xi – mé ç dans le premier cas). On définit ainsi :

·      l’écart absolu moyen eam , mé étant la médiane :

 

1

n

 

eam =

–––

å

ç xi – mé ç

 

n

i = 1

 

 

·      la variance s2 , m étant la moyenne :

 

1

n

 

s2 =

––––

å

[ xi – m ]2

 

n

i = 1

 

 

·      la racine carrée s de la variance s2 est appelée écart-type : elle s’exprime dans la même unité que les observations.

 

Il n’y a pas de procédure simple pour calculer l’écart absolu moyen. Par contre, pour calculer la variance, on dispose de la formule ci-dessous :

 

 

1

 

1

n

 

s2 =

–––

( x12 + x22 + x32 + ... ) – m2 =

–––

å

xi 2 – m2

 

n

 

n

i = 1

 

 

Dans cette formule, s2 apparaît comme la moyenne des carrés moins le carré de la moyenne. C’est cette formule qu’il faut employer pour effectuer le calcul d’une variance.

 

Remarque : on définit aussi la variance de façon légèrement différente en divisant par ( n – 1 ) au lieu de n dans la formule précédente. Nous en donnons l’explication dans le chapitre 5. Nous utilisons toujours la première définition qui permet d’effectuer les calculs plus simplement.

 

Exemple numérique : on considère la série de 6 observations : x1 = 10, x2 = 11,
x3 = 12, x4 = 13, x5 = 14, x6 = 15. Nous avons vu que la moyenne est égale à 12.5. Nous admettons que l’écart absolu moyen est égal à 1.5. La somme des carrés est égale à 955. On en déduit la variance, égale à la moyenne des carrés moins le carré de la moyenne :

 

s2 = ( x12 + x22 + x32 + ... ) /n m2

= 955/6 – 12.52 = 159.167 – 156.25

On en déduit :

s2 = 2.917

s = 1.708.

eam = 1.5

 

On sait que la série suivante : x1 = 0, x2 = 1, x3 = 2, x4 = 23, x5 = 24, x6 = 25, a la même moyenne et la même médiane que la précédente. Elle en est pourtant très différente : l’écart-type (11.53) et l’écart absolu moyen (11.5) sont beaucoup plus grands que les précédents.

 

Cas de données classées : on procède comme pour calculer la moyenne en supposant que les observations de chaque classe sont égales au centre de la classe. On applique alors la formule ci-dessous avec les mêmes notations que dans le paragraphe précédent :

sc2 = [n1 c12 + n2 c22 + ... + np cp2] / n – mc2

Soit :

 

1

p

 

sc2 =

–––

å

nk ck2 – mc2

 

n

k = 1

 

 

Exemple : on donne ci-dessous la variance, l’écart-type et l’écart absolu moyen des achats des 50 clients :

s2 = 42902.472

s = 207.129

eam = 150.8346

 

C’est l’écart-type, qui est le plus utilisé dans la pratique, en particulier pour comparer deux valeurs entre elles ou une valeur et la moyenne.

Il possède en effet une propriété qui facilite son interprétation : c’est une moyenne particulière (appelée moyenne géométrique) des écarts entre les observations et leur moyenne. L’écart absolu moyen et l’écart-type donnent deux ordres de grandeur des écarts de la forme ½xi – mx½. Ils sont exprimés dans la même unité que les observations.

2.2 Comparaison d’une valeur à la moyenne.

L’important est de bien comprendre qu’il n’est pas possible de comparer une valeur à la moyenne ou deux valeurs entre elles sans tenir compte de l’écart-type.

Nous proposons dans le tableau 1.2 une première règle de classification et une terminologie que l’on adaptera suivant la nature des données analysées :

différence x – m

valeur centrée réduite

caractérisation

pourcentages

x – m < – 2 s < 0

(x – m)/s < – 2

x est très petite ;

2.5%

– 2 s < x – m < – s

– 2 < (x – m)/s < – 1

x est petite ;

12.5%

– s < x – m <  s

– 1 < (x – m)/s <  1

x est ordinaire;

70 %

2 s > x – m > s

2 > (x – m)/s > 1

x est grande ;

12.5%

x – m > 2 s >0

(x – m)/s > 2

x est très grande ;

2.5%

 

Tableau 1.2 : première règle de classification des valeurs

 

Cette règle est justifiée lorsque l’histogramme est proche de la courbe en cloche dont nous avons parlé dans le chapitre 1 : les pourcentages obtenus doivent être d’autant plus voisins des pourcentages indiqués ci-dessous que le nombre d’observations est important. Si l’histogramme est différent de la courbe en cloche, ces pourcentages peuvent être très différents, et la règle proposée présente moins d’intérêt.

 

Exemple : appliquons la règle précédente aux achats des 50 clients :

m – 2 s

= – 97.3132

m – s

=

109.8159

m + s

= 524.0741

m + 2 s

=

731.2032

Il n’y a pas de très petites valeurs. C’est dû à l’asymétrie de la répartition que l’on peut constater en examinant un des histogrammes donnés dans le chapitre précédent.

Petites valeurs inférieures à 109.8159

: x5, x28, x4, x3, x29, x30, x31

Grandes valeurs supérieures à 524.0741

: x10, x37, x39, x11, x12

Très grandes valeurs supérieures à 731.2032

: x8, x9, x27

2.3 Valeurs centrées réduites

Les deux premières colonnes du tableau 1.2 contiennent des relations équivalentes. La deuxième contient les valeurs centrées réduites, dont l’utilisation est très fréquente en statistique.

Définition : on appelle observations centrées réduites de la série (xi) les observations de la forme xi’ = (xi – m)/s, expression dans laquelle m et s sont respectivement la moyenne et l’écart-type des observations xi .

 

xi – m

xi =

–––––––––

 

s

 

·        Les valeurs xi’ sont dites centrées parce que leur moyenne m’ est nulle.

·        Elles sont dites réduites parce que leur variance est égale à 1.

 

L’intérêt des valeurs centrées réduites est dû en particulier au fait qu’elles sont indépendantes des unités de mesure utilisées pour effectuer les observations.

 

Exemple : on a, suivant que les achats sont exprimés en francs ou en euros (1 euro = 6.5 F) :

 

x26

Moyenne

Écart-type

calcul

x26

en francs

314.25

316.945

207.129

(314.25 – 316.945)/207.129

= – 0.013

En euros

48.33

48.761

31.866

(48.35 – 48.76 )/31.866

= – 0.013