Exercices sur le chapitre 3

1. Relation fonctionnelLe et corrélation nulle.

1) On considère la série suivante :

(-5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5)

Montrer que le coefficient de corrélation linéaire entre la série (xi) et la série (yi) définie par yi = a xi2, est égal à 0 quelle que soit la constante a. Représenter graphiquement les couples (xi, yi) i = 1, …,  11.

2) On considère maintenant une série statistique (xi) i =1, …, n telle que :

1

n

 

1

n

 

____

S

xi = 0

____

S

xi2 = 1

n

i = 1

 

n

i = 1

 

On pose  quel que soit i de 1 à n :

yi = a xi2 + b xi + c

Soit cas le coefficient d’asymétrie de la série xi i = 1, …, n. Déterminer une relation entre a et b de façon que :

1

n

 

_____

S

xi yi = 0

n

i = 1

 

En déduire que, lorsque cette relation est vérifiée, le coefficient de corrélation linéaire de la série de couples (xi, yi) i= 1, …n  est nul.

3) On considère une série statistique (xi) i = 1, …, n quelconque. Expliquer comment calculer des paramètres a et b tels que le coefficient de corrélation entre les série (xi) et (yi) soit nul, avec :

quel que soit i de 1 à n

yi = a xi2 + b xi + c

2. Données individuelles. points aberrants.

Une banque veut étudier les relations entre l’âge, le revenu, le patrimoine et les emprunts dans sa clientèle particuliers. On se limite ici à 10 clients tirés au hasard dans le fichier :

 

âge

revenu

patrimoine

emprunt

 

âge

revenu

patrimoine

emprunt

1

45

250

1300

600

6

39

170

1400

120

2

47

160

1150

450

7

27

120

1400

160

3

38

165

850

370

8

51

160

1300

320

4

36

175

770

250

9

32

155

1500

350

5

29

99

450

400

10

35

170

1400

180

1) Calculer la moyenne et la variance de chacune des quatre variables en utilisant les tableaux donnés en annexe.

2) Effectuer les représentations graphiques des couples (âge, revenu) et (patrimoine, emprunt). Donner en examinant les représentations graphiques une approximation des coefficients de corrélation.

3) Calculer les coefficients de corrélation entre l’âge et le revenu, entre le revenu et l’emprunt, et entre le patrimoin eet l’emprunt. On complétera la matrice de corrélation donnée ci-dessous.

 

âge

revenu

patrimoine

emprunt

âge

1

 

 

 

revenu

 

1

 

 

patrimoine

0.193

0.345

1

 

emprunt

0.419

 

 

1

4) Construire et commenter la représentation graphique des couples (revenu, emprunt). Recalculer le coefficient de corrélation entre le revenu et l’emprunt en enlevant le client de rang 1 des données.

ANNEXE

 

x

y

xy

(x-mx

(y-my

(x-mx)(y-my)

1

45

250

2025

62500

11250

50.41

7673.7598

621.96

2

47

160

2209

25600

7520

82.81

5.76

-21.84

3

38

165

1444

27225

6270

0.01

6.76

0.26

4

36

175

1296

30625

6300

3.61

158.76

-23.94

5

29

99

841

9801

2871

79.21

4019.5601

564.26

6

39

170

1521

28900

6630

1.21

57.76

8.36

7

27

120

729

14400

3240

118.81

1797.76

462.16

8

51

160

2601

25600

8160

171.61

5.76

-31.44

9

32

155

1024

24025

4960

34.81

54.76

43.66

10

35

170

1225

28900

5950

8.41

57.76

-22.0400

Tableau 1 : calculs relatifs à l'âge x et au revenu y

x

y

xy

(x-mx

(y-my

(x-mx)(y-my)

1

250

600

62500

360000

150000

7673.7598

78400

24528

2

160

450

25600

202500

72000

5.7600

16900

-312

3

165

370

27225

136900

61050

6.7600

2500

130

4

175

250

30625

62500

43750

158.7600

4900

-882

5

99

400

9801

160000

39600

4019.5601

6400

-5072

6

170

120

28900

14400

20400

57.7600

40000

-1520

7

120

160

14400

25600

19200

1797.7600

25600

6784

8

160

320

25600

102400

51200

5.7600

0

0

9

155

350

24025

122500

54250

54.7600

900

-222

10

170

180

28900

32400

30600

57.7600

19600

-1064

Tableau 2 : calculs relatifs au revenu x et à l’emprunt y

x

y

xy

(x-mx

(y-my

(x-mx)(y-my)

1

1300

600

1690000

360000

780000

21904

78400

41440

2

1150

450

1322500

202500

517500

4

16900

-260

3

850

370

722500

136900

314500

91204

2500

-15100

4

770

250

592900

62500

192500

145924

4900

26740

5

450

400

202500

160000

180000

492804

6400

-56160

6

1400

120

1960000

14400

168000

61504

40000

-49600

7

1400

160

1960000

25600

224000

61504

25600

-39680

8

1300

320

1690000

102400

416000

21904

0

0

9

1500

350

2250000

122500

525000

121104

900

10440

10

1400

180

1960000

32400

252000

61504

19600

-34720

Tableau 3 : calculs relatifs au patrimoine x et à l’emprunt y

3. Corrélation entre données groupées.

Notre objectif est de comparer les paramètres statistiques suivant qu’ils sont calculés sur les données individuelles ou après regroupement.

Le tableau ci-dessous donne la qualité générale et le coût global des voitures par segments (cf. exercice 2 du chapitre 1, exercice 5 du chapitre 2). Les valeurs numériques ont été arrondies à la seconde décimale pour faciliter les calculs.

 

Groupe

effectif

qualité générale

coût global

1

petites

5

14.49

14.45

2

petites familiales

8

14.55

13.56

3

petites  familiales diesel

5

14.44

15.15

4

petites familiales turbodiesel

5

15.31

13.95

5

familiales

5

15.71

12.60

6

familiales turbodiesel

8

15.35

13.63

7

routières

5

15.69

10.95

8

routières turbodiesel

8

16.01

12.75

9

breaks

5

13.65

14.15

10

monospaces

8

14.50

13.09

11

prestige

5

16.93

6.10

1) Calculer la moyenne et la variance des notes de qualité générale et de coût global (attention, il s’agit de la moyenne et de la variance de données classées). Comparer aux valeurs calculées sur les données individuelles que nous donnons ci-dessous :

 

moyenne

variance

Qualité générale :

15.14

1.25

Coût global :

12.85

5.56

2) Construire la représentation graphique des couples (qualité générale, coût global). On représentera chaque couple par un disque dont l’aire est proportionnelle à l’effectif (un exemple est donné en figure 3 du chapitre 3). 

3) Calculer le coefficient de corrélation sur les données groupées et le comparer à la valeur calculée sur les données individuelles (égale à -0.627).

4. Corrélation, causalité, prévisions.

1) Que peut-on penser intuitivement de l’effet de l’augmentation du trafic automobile sur les routes et autoroutes sur le nombre d’accidents ? Que peut-on en déduire a priori sur le coeficient de corrélation linéaire ?

2) Calculer le coefficient de corrélation du nombre d’accidents (NA) et du trafic véhicules sur route (TVéR) à paertir des données figurant ci-dessous. Sa valeur est-elle conforme à l’intuition précédente ? Expliquer pourquoi.

3) Effectuer la régression linéaire du trafic véhicules sur route (TVéR) par l’année numérotée de 85 à 97. A combien peut-on l'estimer pour l’an 2000 ? Calculer le coefficient de corrélation linéaire, la moyenne et la variance des résidus.

4) Quelle est l’augmentation moyenne annuelle du trafic véhicules sur route ? Calculer les approximations données par cette augmentation moyenne pour 1990, 1995, 1996 et 1997 connaissant la valeur 1985. Comparer les erreurs commises aux  résidus précédents.

5) Effectuer la régression du nombre d’accidents (NA) par l’année. En déduire une prévision pour l’an 2000.

6) Effectuer la régression du nombre d’accidents (NA) par le trafic véhicules sur route (TVéR). Que peut-on en conclure ?

On donne ci-dessous des statistiques sur le transport routier en France :

année

TvéR

NA

85

650.9

191.1

90

774.3

162.6

95

829.1

132.9

96

841.1

125.4

97

863.3

125.2

avec les conventions suivantes :

·        TVéR (Trafic Véhicules sur Route) : nombre de véhicules x km sur route (en centaines de millions)

·        NA : nombre d’accidents (en milliers)

5. Ajustement exponentiel

On donne ci-dessous des statistiques sur la sécurité routière en France :

année

NT

NB

NA

85

10.4

270.8

191.1

90

10.3

225.9

162.6

95

8.4

181.4

132.9

96

8.13

170.1

125.4

97

8.0

169.6

125.2

avec les conventions suivantes :

·        NT : nombre de tués (en milliers)

·        NB : nombre de blessés (en milliers)

·        NA : : nombre d’accidents (en milliers)

1) Quelle est la nature de la liaison entre l’année et le nombre d’accidents ? On considère comme variable expliquée le nombre d’accidents, et l’année comme variable explicative. Effectuer la régression linéaire et en déduire la prévision du nombre d’accidents pour l’an 2000 . Calculer les erreurs commises en chaque point (en effectifs), leur moyenne et leur variance.

2) On considère comme variable expliquée le logarithme décimal du nombre d’accidents, et l’année comme variable explicative. Effectuer la régression linéaire et en déduire la prévision du nombre d’accidents pour l’an 2000 . Que peut-on dire de la somme des carrés des erreurs commises en chaque point (en effectifs) et de leur moyenne ?

6. Calcul numérique de la droite de régression

On considère le tableau ci-dessous :

x

y

(x-mx

(y-my

(x-mx)(y-my)

1

-0.0607

0.3266

0.0037

0.2220

-0.0286

2

0.7546

-0.9338

0.5694

0.6228

-0.5955

3

-0.9648

-0.6911

0.9308

0.2987

0.5273

4

0.1275

-1.3859

0.0163

1.5408

-0.1583

5

-0.2533

0.8419

0.0642

0.9732

-0.2499

6

0.2805

0.3406

0.0787

0.2354

0.1361

7

0.2643

1.1344

0.0698

1.6358

0.3380

8

-0.1792

0.1108

0.0321

0.0652

-0.0458

9

-0.2144

-0.7920

0.0460

0.4191

0.1388

10

0.2455

-0.3975

0.0603

0.0640

-0.0621

1) Représenter graphiquement ces couples (x(i), y(i)) i=1, …, 10.

2) Calculer les sommes des observations, la somme des carrés des écarts et la somme des produits des écarts. En déduire les moyennes, variances, et le coefficient de corrélation linéaire.

3) Calculer l’équation de la droite de régression, et représenter cette dernière sur le graphique demandé en première question.

4) Quelle est l’unité statistique dont l’élimination modifierait le plus l’écart type des x(i) ? des y(i) ? la moyenne des x(i) ? Des y(i) ? La covariance ?

5) On décide d’éliminer des données l’unité statistique de rang 3. Calculer le coefficient de corrélation sur les 9 u.s. restantes et l’équation de la droite de régression.

7. régression linéaire et relation non linéaire

On considère le tableau de données ci-dessous :

x

y

x

y

1

1.65

6

20.09

2

2.72

7

33.12

3

4.48

8

54.6

4

7.39

9

90.02

5

12.18

10

148.41

1) Représenter graphiquement les couples (xi, yi) i = 1, …, 10.

2) Montrer que le coefficient directeur b de la droite de régression y = b x + a et le coefficient de corrélation r des couples (xi, yi) sont liés par la relation :

 

 

 

sy

b

=

r

____

 

 

 

sx

sx et sy étant les écarts types des séries (xi) i = 1, …, n et (yi) i = 1, …, n.

3) Effectuer la régression linéaire de Y par X à l’aide des résultats fournis ci-dessous.

Sommes

 

des observations x:

55

des observations y:

374.66

des carrés x²:

385

des carrés y²:

34843.99

des produits xy:

3194.45

4) On prendra pour valeurs b = 13.74 et a = -38.12 dans la droite de régression
y = b x + a. Calculer la valeur estimée de Y pour x = 5 et x = 12. Représenter la droite sur le graphique.

5) Calculer les résidus et leur variance. Que peut-on en dire ?

8. Régression et prévision

On considère dans cet exercice un couple de variable (X, Y) dont on dipose de 150 observations (xi, yi), i = 1, …, 150.

 

xi

yi

somme des observations

1503.11

1527.24

somme des carrés

15374.69

16312.51

somme des produits

15012.36

1) Les coefficients d’asymétrie et d’aplatissement sont les suivants :

 

xi

yi

asymétrie

0.19

0.60

aplatissement

3.21

3.53

Que peut-on dire des répartitions des variables X et Y ?

2) Calculer les moyennes, les variances. Calculer la covariance des couples (xi, yi) et le coefficient de corrélation.  Ce dernier est-il très différent de 0 ?

3) Effectuer la régression de la variable Y par la variable X. Quelle est la valeur estimée de Y pour x = 10 ?

9. montant des achats et nombre d’enfants.

Effectuer la régression du montant des achats des clients d’Euromarket (y) par le nombre d'enfants (x) dans la clientèle d'Euromarket. Critiquer les résultats de cette régression.

On donne les résultats suivants :

Sommes

 

des observations x:

91

des observations y:

15847.25

des carrés x²:

219

des carrés y²:

7167830

des produits xy:

35544.79

des produits (x-mx)(y-my):

6702.795

Liste des résidus :

1

-314.9647

2

-166.4272

3

-250.6372

4

-148.8796

5

-174.0796

6

-113.9647

7

13.6853

8

405.7828

9

376.3853

10

-35.5822

11

167.0153

12

247.1053

13

40.1504

14

87.5404

15

80.6028

16

-49.6472

17

-88.4072

18

-23.3296

19

-123.6972

20

-48.5396

21

-164.9972

22

-78.6496

23

-184.8872

24

-65.3972

25

204.7079

26

-150.8647

27

360.4778

28

-25.1921

29

-118.7596

30

11.4879

31

16.1579

32

364.3379

33

-148.8672

34

-119.1872

35

-88.8872

36

-88.6772

37

125.0253

38

-38.2972

39

145.7853

40

-88.6396

41

-98.6472

42

-48.7972

43

153.3679

44

-33.6472

45

55.3353

46

25.5153

47

-129.2172

48

136.4604

49

106.9204

50

85.9204

 

 

 

 

10. Session au BTS Commerce International (1983)

Observations :

·                    Les résultats seront justifiés par le détail des calculs nécessaires;

·                    Il sera tenu compte de la qualité de la présentation.

L'équipe dont vous faites partie réalise une étude sur une grande surface implantée dans la banlieue résidentielle d'une grande ville de l'Ouest.

Vous avez recensé les renseignements suivants (valeurs exprimées en dizaine de milliers de francs courants) :

Années

1976

1977

1978

1979

1980

1981

Ventes

4500

4800

4950

5100

5250

5400

Dépenses publicitaires

26

27

29

31

32

35

 

1) Calculez le pourcentage d'accroissement du chiffre d'affaires de chaque année par rapport à celui de 1976 (présentez vos résultats sous forme de tableau).

Les indices des prix de détail à la consommation sont les suivants (base 100 en 1962) :

1976 : 229.8

1977 : 251.4

1978 : 274.1

1979 : 303.6

1980 : 344.8

1981 : 391.0

Quel commentaire appellent ces résultats compte tenu de l'évolution générale des prix pendant ces périodes ?

2) Vous estimez qu'il existe un rapport entre dépenses publicitaires et ventes réalisées au cours de la même année. Pour tester cette hypothèse, calculez le coefficient de corrélation entre ces deux variables (présentez le détail des calculs dans un tableau).

3) Commentez le résultat obtenu.

4) Le coefficient que vous venez de calculer vous permet de poursuivre votre analyse; le budget publicité pour l'année 1982 est de 37 (dizaines de milliers de francs), déterminez le chiffre d'affaires prévisionnel correspondant.