ANAlyse de l’hérédité
étude de cas commentée

L’étude de cas que nous proposons ici a pour but de retrouver statistiquement des résultats concernant les facteurs héréditaires bien connus des généticiens. Les données sont suffisamment nombreuses pour que l’on puisse leur appliquer un grand nombre des méthodes présentées dans le chapitre sur la régression linéaire multiple.

Ces données et les paramètres figurent sur les fichiers hereditf.dat et hereditf.par (répertoires data et datapar). Ce sont des données réelles ; elles concernent 90 jeunes filles, leurs pères et leurs mères. On distingue trois groupes de variables :

·     la taille, le poids et la pointure des jeunes filles elles-mêmes ;

·     la taille, le poids et la pointure de leurs pères ;

·     la taille, le poids et la pointure de leurs mères.

On note la particularité de la pointure parmi ces variables, qui est donnée en nombre entier.

L’approche que nous proposons dans l’étude de cas « analyse de l’hérédité par l’analyse canonique » consiste à analyser les relations entre la taille, le poids et la pointure des jeunes filles et les mêmes variables concernant leurs parents ; ici, on ne cherche à étudier que le facteur héréditaire dans la taille des étudiantes, qui est donc la variable expliquée. Les six variables explicatives sont alors la taille, le poids et la pointure de leurs parents.

Toutes les analyses concernant ces données peuvent être effectuées sur les données analogues concernant des jeunes de 20 ans de sexe masculin et figurant sur les fichiers hereditm.dat et hereditm.par. Mais le plus petit nombre d’observations (63) est un peu gênant et limite les conclusions auxquelles on aboutit .

La première démarche indispensable consiste à examiner les données. Les résultats statistiques élémentaires sont donnés ci-dessous :

 

Tableau 1 : Moyennes variances et corrélations

de la taille, du poids et de la pointure des étudiantes, de leurs pères et de leurs mères

Effectif considéré : 90

 

 

Minimum

Maximum

Moyenne

Variance

Ecart-type

Étudiantes

Taille

148

175

163.978

32.200

5.674

 

Taille

160

180

169.789

29.300

5.413

Pères

Poids

50

92

71.767

57.423

7.578

 

Poids

38

45

41.639

2.095

1.447

 

Taille

146

175

160.467

33.560

5.793

Mères

Poids

40

80

57.856

51.612

7.184

 

Pointure

35

42

38.217

2.167

1.472

 


Tableau 2 : Matrice des corrélations de la taille des étudiantes,

de la taille, du poids et de la pointure de leurs pères et de leurs mères

 

 

J.F.

 

Pères

 

 

Mères

 

 

 

Taille

Taille

Poids

Pointure

Taille

Poids

Pointure

J.F.

taille

1.000

 

 

 

 

 

 

 

Taille

0.438

1.000

 

 

 

 

 

Pères

Poids

0.168

0.448

1.000

 

 

 

 

 

Pointure

0.288

0.474

0.370

1.000

 

 

 

 

Taille

0.427

0.208

0.097

0.126

1.000

 

 

Mères

Poids

0.116

-0.187

-0.012

-0.046

0.286

1.000

 

 

Pointure

0.173

-0.105

-0.095

-0.232

0.515

0.376

1.000

On peut effectuer les représentations graphiques des couples d’observations comme (Taille, Poids) pour détecter les unités statistiques aberrantes, mais cela nécessite beaucoup de graphiques (21 en tout) ; le mieux est d’effectuer l’analyse en composantes principales des données constituées des variables explicatives (ici, la taille, le poids et la pointure des parents) et de la variable expliquée (la taille de l’étudiante) ; les plans principaux donnés par cette méthode sont en effet des représentations graphiques des unités statistiques, prennent en compte toutes les variables, et conservent assez bien les distances. On pourra donc distinguer sur ces plans les unités statistiques particulièrement différentes des autres. Nous laissons au lecteur le soin d’effectuer cette ACP très classique qu’il trouvera

On peut utiliser aussi l’analyse en composantes principales pour calculer la courbe de régression de la taille Y des étudiantes par les variables explicatives : on calcule ici les composantes principales des six variables explicatives, puis la courbe de régression de Y par chaque composante principale.

Nous avons effectué ces calculs en regroupant les observations suivant 5 intervalles de même amplitude définis sur la première composante principale. On lit dans le tableau ci-dessous qu’il y a 6 observations dont la première composante principale est dans la première classe, 25 dans la deuxième classe, 35 dans la troisième etc...On calcule ensuite la moyenne et l’écart-type de la variable expliquée Y sur ces 6 observations, puis sur les 25, les 35 etc.... La taille moyenne et la composante principale varient en sens inverse l’une de l’autre :

 

Tableau 2 : courbe de régression de la taille

par la première composante principale

 

Classe

Effectif

Moyenne

Écart-type

1

[-3.448, -2.050[

6

167.67

4.78

2

[-2.050, -0.651[

25

165.20

5.59

3

[-0.651, 0.748[

35

163.37

5.90

4

[0.748, 2.146[

15

162.93

5.31

5

[2.146, 3.545[

9

162.22

4.24

Le rapport de corrélation est défini par le rapport de la variance pondérée des moyennes à la variance totale. Il est ici égal à 0.0608. Le coefficient de corrélation de la variable expliquée et de la première composante principale est égal à -0.262, et son carré (0.0686) est très voisin du rapport de corrélation, ce qui laisse penser que la liaison est linéaire (le test du lack of fit pour vérifier l’hypothèse de linéarité consiste à comparer ces deux valeurs. Il n’est pas expliqué dans le cours et nous ne l’avons pas effectué).

Les moyennes sont régulièrement décroissantes. La courbe de régression (figure 1) est constituée de points relativement bien alignés. L’analyse graphique aboutit donc à la même conclusion.

Figure 1 : courbe de régression de la taille des étudiantes

par la première composante principale des variables explicatives

 

Pour effectuer une régression linéaire simple, on choisit de préférence comme variable explicative celle dont le coefficient de corrélation avec la variable expliquée est le plus élevé en valeur absolue. Un algorithme effectuerait un choix purement numérique, et proposerait la taille du père et non celle de la mère. En examinant la matrice, on constate qu’il n’y a en réalité aucune raison objective, les deux coefficients de corrélation étant très proches l’un de l’autre (0.44 et 0.43). Par contre, le coefficient de corrélation entre la taille du père et celle de la mère est assez faible (0.21) : ces deux variables apportent des informations complémentaires, et nous y reviendrons.

Choisissons comme première variable explicative la taille du père et calculons les coefficients de corrélation partielle.

Les résultats (tableau ) montrent les conséquences de l’introduction de la taille du père comme variable explicative :

·     le coefficient de corrélation entre la taille du père et celle de la jeune fille est hautement significatif (la probabilité critique est numériquement nulle : R² = 0.192, F(1, 88 ) = 20.923, P(F>20.923) = 0).

·     le coefficient de corrélation partielle entre la taille de la mère et celle de la jeune fille (0.382) est aussi hautement significatif. Cela correspond à l’intuition que nous en avions en examinant la matrice des corrélations (cf. supra).

·     Les coefficients de corrélation partielle entre la taille de la jeune fille et le poids ou la pointure de son père sont faibles (pour le poids, on a F =.11, P(F> 0.11) = 0.7436). L’introduction de la taille du père a pris en compte toute l’hérédité paternelle.

·     Les coefficients de corrélation partielle entre le poids et la pointure de la mère et la taille de sa fille ont augmenté et sont devenus significatifs (pour le poids, on a F = 4.6 et P(F > 4.6) = 0.033). Toutes les variables concernant la mère contribuent à la taille de sa fille.

 


Tableau 3 : Analyse des coefficients de corrélation partielle

conditionnellement à la taille du père

Variables explicatives considérées : taille Père

F( 1, 88 )

Prob.crit.

Variance résiduelle estimée

0.19209

20.9229

0.0000

26.606

Coefficients de détermination de chaque variable par rapport aux variables explicatives :

Pères

Mères

poids

pointure.

taille

poids

pointure

0.200

0.225

0.043

0.035

0.011

Coefficients de corrélation partielle avec la taille de la J.F.:

Pères

Mères

poids

pointure.

taille

poids

pointure

-0.035

0.101

0.382

0.224

0.246

Test sur le coefficient de corrélation partielle maximal (taille Mères)

Coefficient

Probabilité critique

0.382

0.00

Pour choisir une deuxième variable explicative, on considère celles dont les coefficients de corrélation partielle sont les plus grands en valeur absolue, et, parmi elles, on élimine celles dont le coefficient de détermination avec les variables explicatives déjà introduites est très élevé. Il n’existe aucune difficulté ici : on introduit la taille de la mère comme deuxième variable explicative. On calcule ensuite les nouveaux coefficients de corrélation partielle, conditionnellement à la taille du père et à celle de la mère :

 

Tableau 4 : Analyse des coefficients de corrélation partielle

conditionnellement à la taille du père et à celle de la mère

Variables explicatives considérées : taille Père, taille Mère

F( 1, 88 )

Prob.crit.

Variance résiduelle estimée

0.31014

19.5563

0.0000

22.979

Coefficients de détermination de chaque variable par rapport aux variables explicatives :

Pères

Mères

poids

pointure.

poids

pointure

0.200

0.225

0.145

0.312

Coefficients de corrélation partielle avec la taille de la J.F.:

Pères

Mères

poids

pointure.

poids

pointure

-0.040

0.096

0.109

0.045

Test sur le coefficient de corrélation partielle maximal (poids Mères)

Coefficient

Probabilité critique

0.109

0.3116

Les résultats ci-dessus sont assez clairs : aucun coefficient de corrélation partielle n’est plus significatif, et il n’y a pas lieu d’introduire une nouvelle variable explicative. L’introduction de la taille de la mère comme variable explicative prend en compte toute l’hérédité maternelle, comme cela s’est produit pour le père.

En fait, nous avons effectué à la main l’algorithme de régression ascendant en contrôlant la colinéarité à l’aide du coefficient de détermination des variables par rapport aux variables explicatives déjà introduites et constaté qu’il ne cache aucune propriété particulière due au critère numérique utilisé.

 

Le choix des variables explicatives est donc terminé : il montre l’existence, concernant la taille des jeunes filles, de deux facteurs héréditaires, caractérisés par la taille de son père et par celle de sa mère. On notera que tous les tests précédents ne sont jutifiés que si les résidus sont distribués suivant la loi normale, hypothèse qu’il sera donc indispensable de vérifier lorsqu’ils auront été calculés. Le modèle de régression est le suivant :

Taille J.F. » 0.3829 Taille Père + 0.3441 Taille Mère + 43.7568

Nous donnons dans le tableau 5 les résultats statistiques complets de la régression. Tous les coefficients de régression sont très significatifs, puisque le T de Student est largement au-dessus de la valeur critique 2 (exactement 1.96 puisque pour 90 observations, la loi de Student est confondue avec la loi normale centrée réduite) ; la valeur 0 n’appartient d’ailleurs pas aux intervalles de confiance. Le modèle de régression est donc a priori satisfaisant.

Tableau 5 : Résultats numériques de la régression linéaire

Variable

Estimation

Ecart-type

T de Student

Intervalle de confiance

taille Père

0.3829

0.0954

.012

[0.1959, 0.5699]

Taille Mère

0.3441

0.0892

3.858

[0.1693, 0.5189]

Constante

43.7568

 

 

 

On observe que plus l’un des parents est grand, plus sa fille est grande, et ces deux effets s’ajoutent dans les mêmes proportions puisque les coefficients de régression sont presqu’égaux. Mais le fait que leur somme soit inférieure à 1 montre que l’écart à la moyenne a tendance à diminuer d’une génération à la suivante : la taille est un caractère héréditaire récessif. Donnons un exemple concret pour expliquer ce que cela signifie : lorsque les parents mesurent dix centimètres de plus que la moyenne des personnes de leur âge, leur fille aura tendance à mesurer un peu plus de sept centimètres de plus que celles de son âge (0.3829 x 10 + 0.3441 x 10 cm).

 

Le tableau ci-dessous donne les paramètres statistiques habituellement regroupés sous le nom d’analyse de variance.

Tableau 6 : Analyse de variance

 

Degrés

Somme des

Variance

Pourcentage de

 

de liberté

Carrés

Estimée

de variance totale

Totale

89

2897.956

32.5613

1.0000

Expliquée

3

898.774

9.5822

0.3101

Résiduelle

87

1999.200

22.9800

0.6899

R2

2,87

R2 = 0.3101

F(2,87) = 19.556

P(F>19.556)=0.000

Le coefficient de détermination est très significatif, à peine inférieur au coefficient de détermination obtenu par le modèle complet constitué des six variables taille, poids et pointure des deux parents (0.329). La variance résiduelle estimée est légèrement inférieure (22.98 au lieu de 23.43). Le plus gros avantage est que ce modèle incomplet comporte beaucoup moins de variables explicatives (2 au lieu de 6).

 

Pour valider le modèle et en particulier justifier tous les tests sur les coefficients de corrélation ou les T de Student, et les intervalles de confiance, il reste à examiner les résidus et à vérifier qu’ils suivent approximativement la loi normale.

Parmi les résidus réduits, 3 d’entre eux seulement sont supérieurs en valeur absolue à 1.96, et tous sont inférieurs à 3 : cela correspond à la normalité de la distribution. Les distances de Cook calculées par le logiciel sont très faibles, inférieures à 0.11, et il n’apparaît donc pas d’unité statistique qui perturberait les estimations.

Nous donnons ci-dessous, en figure 2, l’histogramme des résidus réduits répartis en 5 classes de même amplitude.

Figure 2 : Histogramme des résidus observés (5 classes de même amplitude)

et densité de la loi normale de mêmes paramètres

La courbe superposée à l’histogramme est la densité de la loi normale centrée réduite : elle lui est visiblement très proche et la normalité de la variable résiduelle est assez évidente (un test d’ajustement du c2 ou un test de Kolmogorov donnent comme décision l’acceptation de l’hypothèse d’une loi normale centrée réduite avec des probabilités critiques de l’ordre de 0.85 et 0.55 respectivement. Ces tests ne sont qu’approximatifs).

En outre, les distributions de la taille du père et de la taille de la mère sont elles-mêmes normales, et l’hypothèse d’un modèle multinormal, qui justifie théoriquement l’hypothèse de normalité des résidus, est très vraisemblable.

 

Ce modèle permet donc d’effectuer des prévisions dans de bonnes conditions ; nous en donnons ci-dessous quelques exemples commentés.

Considérons tout d’abord la taille des jeunes filles dont le père mesure 1.75m et la mère 1.65m :le logiciel StatpC donne les résultats suivants :

 


Tableau 7 : Première prévision

Variable

Moyenne

écart-type

valeur

TailP

169.788889

5.412936

? 175

TailM

160.466667

5.793099

? 165

 

Prévision

Ecart-type

Interv. de conf. (95%)

Taille

167.532805

0.763192

166.006420, 169.059189

 

 

 

157.824754, 177.240856

Les parents de la jeune fille sont donc plus grands que la moyenne, et l’écart est de l’ordre de l’écart-type. Les résultats signifient que :

·        Les jeunes filles dont le père mesure 1.75m et la mère 1.65m mesurent en moyenne 1.675m. Plus précisément, cette moyenne est comprise entre 1.66 et 1.69m.

·        La plupart –environ 95%- mesurent entre 1.58m et 1.77m .

Une réaction courante des utilisateurs débutants de la régression est de penser que finalement, la méthode n’apporte guère d’information précise sur la taille des jeunes filles, compte tenu du dernier intervalle de confiance. Ils oublient simplement que la taille d’une jeune fille est loin d’être déterminée totalement par celles de ses parents.

 

Tableau 8 : Deuxième prévision

Variable

moyenne

Écart-type

valeur

TailP

169.788889

5.412936

? 180

TailM

160.466667

5.793099

? 170

 

Prévision

Ecart-type

Interv. de conf. (95%)

Taille

171.167568

1.258228

168.651113, 173.684023

 

 

 

161.255507, 181.079629

La deuxième prévision que nous avons effectuée concerne les jeunes filles dont les parents mesurent 10 cm de plus que la moyenne. Leur taille moyenne est de 1.71m, environ 7cm de plus que la moyenne, conformément à ce que nous avons dit précédemment, et se rapproche de la taille moyenne 1.64m. On constate en outre que l’écart-type de la prévision est supérieur au précédent. C’est une propriété générale : plus les valeurs des variables explicatives s’écartent des moyennes, moins la prévision est précise. 

 

Tableau 9 : Troisième prévision

Variable

Moyenne

Écart-type

valeur

TailP

169.788889

5.412936

? 160

TailM

160.466667

5.793099

? 150

 

Prévision

Ecart-type

Interv. de conf. (95%)

Taille

156.628515

1.279284

154.069946, 159.187084

 

 

 

146.705679, 166.551351

Cette troisième prévision montre que le caractère récessif de la taille joue aussi dans l’autre sens : les parents mesurent 10 cm de moins que la moyenne, mais leur fille 7.36 cm de moins.

 

L’intérêt de cette étude de cas est en un certain sens la confiance qu’elle donne à l’utilisateur dans l’analyse statistique des données : il est rassurant en effet de vérifier qu’elle met en évidence des propriétés qui sont bien connues des spécialistes. On aurait pu poursuivre l’analyse en effectuant des tests sur les coefficients de régression, en vérifiant par un test statistique que leur somme est inférieure à 1, et donc que la taille est un caractère récessif indépendamment des données observées, ou encore qu’ils sont égaux, et donc que l’hérédité maternelle intervient autant que l’hérédité paternelle. Les procédures deviennent trop compliquées pour qu’on puisse les développer ici.

 

On pourra enfin utiliser ces donnéer pour appliquer d’autres méthodes de régression, en particulier la régression sur composantes principales et la régression pas à pas.