Exercices
sur le chapitre 3
1) On considère la série suivante :
(-5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5)
Montrer que le coefficient de corrélation linéaire entre la série (xi) et la série (yi) définie par yi = a xi2, est égal à 0 quelle que soit la constante a. Représenter graphiquement les couples (xi, yi) i = 1, …, 11.
2) On considère maintenant une série statistique (xi) i =1, …, n telle que :
1 |
n |
|
1 |
n |
|
____ |
S |
xi = 0 |
____ |
S |
xi2 = 1 |
n |
i = 1 |
|
n |
i = 1 |
|
On pose quel que soit i de 1 à n :
yi = a xi2
+ b xi + c
Soit cas le coefficient d’asymétrie de la série xi i = 1, …, n. Déterminer une relation entre a et b de façon que :
1 |
n |
|
_____ |
S |
xi yi
= 0 |
n |
i = 1 |
|
En déduire que, lorsque cette relation est vérifiée, le coefficient de corrélation linéaire de la série de couples (xi, yi) i= 1, …n est nul.
3) On considère une série statistique (xi) i = 1, …, n quelconque. Expliquer comment calculer des paramètres a et b tels que le coefficient de corrélation entre les série (xi) et (yi) soit nul, avec :
quel que soit i de 1 à n |
yi
= a xi2 + b xi + c |
Une banque veut étudier les relations entre l’âge, le revenu, le patrimoine et les emprunts dans sa clientèle particuliers. On se limite ici à 10 clients tirés au hasard dans le fichier :
|
âge |
revenu |
emprunt |
|
âge |
revenu |
patrimoine |
emprunt |
|
1 |
45 |
250 |
1300 |
600 |
6 |
39 |
170 |
1400 |
120 |
2 |
47 |
160 |
1150 |
450 |
7 |
27 |
120 |
1400 |
160 |
3 |
38 |
165 |
850 |
370 |
8 |
51 |
160 |
1300 |
320 |
4 |
36 |
175 |
770 |
250 |
9 |
32 |
155 |
1500 |
350 |
5 |
29 |
99 |
450 |
400 |
10 |
35 |
170 |
1400 |
180 |
1) Calculer la moyenne et la variance de chacune des quatre variables en utilisant les tableaux donnés en annexe.
2) Effectuer les représentations graphiques des couples (âge, revenu) et (patrimoine, emprunt). Donner en examinant les représentations graphiques une approximation des coefficients de corrélation.
3) Calculer les coefficients de corrélation entre l’âge et le revenu, entre le revenu et l’emprunt, et entre le patrimoin eet l’emprunt. On complétera la matrice de corrélation donnée ci-dessous.
|
âge |
revenu |
patrimoine |
emprunt |
âge |
1 |
|
|
|
revenu |
|
1 |
|
|
patrimoine |
0.193 |
0.345 |
1 |
|
emprunt |
0.419 |
|
|
1 |
4) Construire et commenter la représentation graphique des couples (revenu, emprunt). Recalculer le coefficient de corrélation entre le revenu et l’emprunt en enlevant le client de rang 1 des données.
ANNEXE
n° |
x |
y |
x² |
y² |
xy |
(x-mx)² |
(y-my)² |
(x-mx)(y-my) |
1 |
45 |
250 |
2025 |
62500 |
11250 |
50.41 |
7673.7598 |
621.96 |
2 |
47 |
160 |
2209 |
25600 |
7520 |
82.81 |
5.76 |
-21.84 |
3 |
38 |
165 |
1444 |
27225 |
6270 |
0.01 |
6.76 |
0.26 |
4 |
36 |
175 |
1296 |
30625 |
6300 |
3.61 |
158.76 |
-23.94 |
5 |
29 |
99 |
841 |
9801 |
2871 |
79.21 |
4019.5601 |
564.26 |
6 |
39 |
170 |
1521 |
28900 |
6630 |
1.21 |
57.76 |
8.36 |
7 |
27 |
120 |
729 |
14400 |
3240 |
118.81 |
1797.76 |
462.16 |
8 |
51 |
160 |
2601 |
25600 |
8160 |
171.61 |
5.76 |
-31.44 |
9 |
32 |
155 |
1024 |
24025 |
4960 |
34.81 |
54.76 |
43.66 |
10 |
35 |
170 |
1225 |
28900 |
5950 |
8.41 |
57.76 |
-22.0400 |
Tableau 1 : calculs relatifs à l'âge x et au revenu y
n° |
x |
y |
x² |
y² |
xy |
(x-mx)² |
(y-my)² |
(x-mx)(y-my) |
1 |
250 |
600 |
62500 |
360000 |
150000 |
7673.7598 |
78400 |
24528 |
2 |
160 |
450 |
25600 |
202500 |
72000 |
5.7600 |
16900 |
-312 |
3 |
165 |
370 |
27225 |
136900 |
61050 |
6.7600 |
2500 |
130 |
4 |
175 |
250 |
30625 |
62500 |
43750 |
158.7600 |
4900 |
-882 |
5 |
99 |
400 |
9801 |
160000 |
39600 |
4019.5601 |
6400 |
-5072 |
6 |
170 |
120 |
28900 |
14400 |
20400 |
57.7600 |
40000 |
-1520 |
7 |
120 |
160 |
14400 |
25600 |
19200 |
1797.7600 |
25600 |
6784 |
8 |
160 |
320 |
25600 |
102400 |
51200 |
5.7600 |
0 |
0 |
9 |
155 |
350 |
24025 |
122500 |
54250 |
54.7600 |
900 |
-222 |
10 |
170 |
180 |
28900 |
32400 |
30600 |
57.7600 |
19600 |
-1064 |
Tableau 2 : calculs relatifs au revenu x et à l’emprunt y
n° |
x |
y |
x² |
y² |
xy |
(x-mx)² |
(y-my)² |
(x-mx)(y-my) |
1 |
1300 |
600 |
1690000 |
360000 |
780000 |
21904 |
78400 |
41440 |
2 |
1150 |
450 |
1322500 |
202500 |
517500 |
4 |
16900 |
-260 |
3 |
850 |
370 |
722500 |
136900 |
314500 |
91204 |
2500 |
-15100 |
4 |
770 |
250 |
592900 |
62500 |
192500 |
145924 |
4900 |
26740 |
5 |
450 |
400 |
202500 |
160000 |
180000 |
492804 |
6400 |
-56160 |
6 |
1400 |
120 |
1960000 |
14400 |
168000 |
61504 |
40000 |
-49600 |
7 |
1400 |
160 |
1960000 |
25600 |
224000 |
61504 |
25600 |
-39680 |
8 |
1300 |
320 |
1690000 |
102400 |
416000 |
21904 |
0 |
0 |
9 |
1500 |
350 |
2250000 |
122500 |
525000 |
121104 |
900 |
10440 |
10 |
1400 |
180 |
1960000 |
32400 |
252000 |
61504 |
19600 |
-34720 |
Tableau 3 : calculs relatifs au patrimoine x et à l’emprunt y
Notre objectif est de comparer les paramètres statistiques suivant qu’ils sont calculés sur les données individuelles ou après regroupement.
Le tableau ci-dessous donne la qualité générale et le coût global des voitures par segments (cf. exercice 2 du chapitre 1, exercice 5 du chapitre 2). Les valeurs numériques ont été arrondies à la seconde décimale pour faciliter les calculs.
|
Groupe |
effectif |
qualité générale |
coût global |
1 |
petites |
5 |
14.49 |
14.45 |
2 |
petites familiales |
8 |
14.55 |
13.56 |
3 |
petites familiales diesel |
5 |
14.44 |
15.15 |
4 |
petites familiales turbodiesel |
5 |
15.31 |
13.95 |
5 |
familiales |
5 |
15.71 |
12.60 |
6 |
familiales turbodiesel |
8 |
15.35 |
13.63 |
7 |
routières |
5 |
15.69 |
10.95 |
8 |
routières turbodiesel |
8 |
16.01 |
12.75 |
9 |
breaks |
5 |
13.65 |
14.15 |
10 |
monospaces |
8 |
14.50 |
13.09 |
11 |
prestige |
5 |
16.93 |
6.10 |
1) Calculer la moyenne et la variance des notes de qualité générale et de coût global (attention, il s’agit de la moyenne et de la variance de données classées). Comparer aux valeurs calculées sur les données individuelles que nous donnons ci-dessous :
|
moyenne |
variance |
Qualité générale : |
15.14 |
1.25 |
Coût global : |
12.85 |
5.56 |
2) Construire la représentation graphique des couples (qualité générale, coût global). On représentera chaque couple par un disque dont l’aire est proportionnelle à l’effectif (un exemple est donné en figure 3 du chapitre 3).
3) Calculer le coefficient de corrélation sur les données groupées et le comparer à la valeur calculée sur les données individuelles (égale à -0.627).
1) Que peut-on penser intuitivement de l’effet de l’augmentation du trafic automobile sur les routes et autoroutes sur le nombre d’accidents ? Que peut-on en déduire a priori sur le coeficient de corrélation linéaire ?
2) Calculer le coefficient de corrélation du nombre d’accidents (NA) et du trafic véhicules sur route (TVéR) à paertir des données figurant ci-dessous. Sa valeur est-elle conforme à l’intuition précédente ? Expliquer pourquoi.
3) Effectuer la régression linéaire du trafic véhicules sur route (TVéR) par l’année numérotée de 85 à 97. A combien peut-on l'estimer pour l’an 2000 ? Calculer le coefficient de corrélation linéaire, la moyenne et la variance des résidus.
4) Quelle est l’augmentation moyenne annuelle du trafic véhicules sur route ? Calculer les approximations données par cette augmentation moyenne pour 1990, 1995, 1996 et 1997 connaissant la valeur 1985. Comparer les erreurs commises aux résidus précédents.
5) Effectuer la régression du nombre d’accidents (NA) par l’année. En déduire une prévision pour l’an 2000.
6) Effectuer la régression du nombre d’accidents (NA) par le trafic véhicules sur route (TVéR). Que peut-on en conclure ?
On donne ci-dessous des statistiques sur le transport routier en France :
année |
TvéR |
NA |
85 |
650.9 |
191.1 |
90 |
774.3 |
162.6 |
95 |
829.1 |
132.9 |
96 |
841.1 |
125.4 |
97 |
863.3 |
125.2 |
avec les conventions suivantes :
· TVéR (Trafic Véhicules sur Route) : nombre de véhicules x km sur route (en centaines de millions)
· NA : nombre d’accidents (en milliers)
On donne ci-dessous des statistiques sur la sécurité routière en France :
année |
NT |
NB |
NA |
85 |
10.4 |
270.8 |
191.1 |
90 |
10.3 |
225.9 |
162.6 |
95 |
8.4 |
181.4 |
132.9 |
96 |
8.13 |
170.1 |
125.4 |
97 |
8.0 |
169.6 |
125.2 |
avec les conventions suivantes :
· NT : nombre de tués (en milliers)
· NB : nombre de blessés (en milliers)
· NA : : nombre d’accidents (en milliers)
1) Quelle est la nature de la liaison entre l’année et le nombre d’accidents ? On considère comme variable expliquée le nombre d’accidents, et l’année comme variable explicative. Effectuer la régression linéaire et en déduire la prévision du nombre d’accidents pour l’an 2000 . Calculer les erreurs commises en chaque point (en effectifs), leur moyenne et leur variance.
2) On considère comme variable expliquée le logarithme décimal du nombre d’accidents, et l’année comme variable explicative. Effectuer la régression linéaire et en déduire la prévision du nombre d’accidents pour l’an 2000 . Que peut-on dire de la somme des carrés des erreurs commises en chaque point (en effectifs) et de leur moyenne ?
On considère le tableau ci-dessous :
n° |
x |
y |
(x-mx)² |
(y-my)² |
(x-mx)(y-my) |
1 |
-0.0607 |
0.3266 |
0.0037 |
0.2220 |
-0.0286 |
2 |
0.7546 |
-0.9338 |
0.5694 |
0.6228 |
-0.5955 |
3 |
-0.9648 |
-0.6911 |
0.9308 |
0.2987 |
0.5273 |
4 |
0.1275 |
-1.3859 |
0.0163 |
1.5408 |
-0.1583 |
5 |
-0.2533 |
0.8419 |
0.0642 |
0.9732 |
-0.2499 |
6 |
0.2805 |
0.3406 |
0.0787 |
0.2354 |
0.1361 |
7 |
0.2643 |
1.1344 |
0.0698 |
1.6358 |
0.3380 |
8 |
-0.1792 |
0.1108 |
0.0321 |
0.0652 |
-0.0458 |
9 |
-0.2144 |
-0.7920 |
0.0460 |
0.4191 |
0.1388 |
10 |
0.2455 |
-0.3975 |
0.0603 |
0.0640 |
-0.0621 |
1) Représenter graphiquement ces couples (x(i), y(i)) i=1, …, 10.
2) Calculer les sommes des observations, la somme des carrés des écarts et la somme des produits des écarts. En déduire les moyennes, variances, et le coefficient de corrélation linéaire.
3) Calculer l’équation de la droite de régression, et représenter cette dernière sur le graphique demandé en première question.
4) Quelle est l’unité statistique dont l’élimination modifierait le plus l’écart type des x(i) ? des y(i) ? la moyenne des x(i) ? Des y(i) ? La covariance ?
5) On décide d’éliminer des données l’unité statistique de rang 3. Calculer le coefficient de corrélation sur les 9 u.s. restantes et l’équation de la droite de régression.
On considère le tableau de données ci-dessous :
x |
y |
x |
y |
1 |
1.65 |
6 |
20.09 |
2 |
2.72 |
7 |
33.12 |
3 |
4.48 |
8 |
54.6 |
4 |
7.39 |
9 |
90.02 |
5 |
12.18 |
10 |
148.41 |
1) Représenter graphiquement les couples (xi, yi) i = 1, …, 10.
2) Montrer que le coefficient directeur b de la droite de régression y = b x + a et le coefficient de corrélation r des couples (xi, yi) sont liés par la relation :
|
|
|
sy |
b |
= |
r |
____ |
|
|
|
sx |
sx et sy étant les écarts types des séries (xi) i = 1, …, n et (yi) i = 1, …, n.
3) Effectuer la régression linéaire de Y par X à l’aide des résultats fournis ci-dessous.
Sommes |
|
des observations x: |
55 |
des observations y: |
374.66 |
des carrés x²: |
385 |
des carrés y²: |
34843.99 |
des produits xy: |
3194.45 |
4)
On prendra pour valeurs b = 13.74 et a = -38.12 dans la droite de régression
y = b x + a. Calculer la valeur estimée de Y pour x = 5 et x = 12. Représenter la
droite sur le graphique.
5) Calculer les résidus et leur variance. Que peut-on en dire ?
On considère dans cet exercice un couple de variable (X, Y) dont on dipose de 150 observations (xi, yi), i = 1, …, 150.
|
xi |
yi |
somme des observations |
1503.11 |
1527.24 |
somme des carrés |
15374.69 |
16312.51 |
somme des produits |
15012.36 |
1) Les coefficients d’asymétrie et d’aplatissement sont les suivants :
|
xi |
yi |
asymétrie |
0.19 |
0.60 |
aplatissement |
3.21 |
3.53 |
Que peut-on dire des répartitions des variables X et Y ?
2) Calculer les moyennes, les variances. Calculer la covariance des couples (xi, yi) et le coefficient de corrélation. Ce dernier est-il très différent de 0 ?
3) Effectuer la régression de la variable Y par la variable X. Quelle est la valeur estimée de Y pour x = 10 ?
Effectuer la régression du montant des achats des clients d’Euromarket (y) par le nombre d'enfants (x) dans la clientèle d'Euromarket. Critiquer les résultats de cette régression.
On donne les résultats suivants :
Sommes |
|
des observations x: |
91 |
des observations y: |
15847.25 |
des carrés x²: |
219 |
des carrés y²: |
7167830 |
des produits xy: |
35544.79 |
des produits (x-mx)(y-my): |
6702.795 |
Liste des résidus :
1 |
-314.9647 |
2 |
-166.4272 |
3 |
-250.6372 |
4 |
-148.8796 |
5 |
-174.0796 |
6 |
-113.9647 |
7 |
13.6853 |
8 |
405.7828 |
9 |
376.3853 |
10 |
-35.5822 |
11 |
167.0153 |
12 |
247.1053 |
13 |
40.1504 |
14 |
87.5404 |
15 |
80.6028 |
16 |
-49.6472 |
17 |
-88.4072 |
18 |
-23.3296 |
19 |
-123.6972 |
20 |
-48.5396 |
21 |
-164.9972 |
22 |
-78.6496 |
23 |
-184.8872 |
24 |
-65.3972 |
25 |
204.7079 |
26 |
-150.8647 |
27 |
360.4778 |
28 |
-25.1921 |
29 |
-118.7596 |
30 |
11.4879 |
31 |
16.1579 |
32 |
364.3379 |
33 |
-148.8672 |
34 |
-119.1872 |
35 |
-88.8872 |
36 |
-88.6772 |
37 |
125.0253 |
38 |
-38.2972 |
39 |
145.7853 |
40 |
-88.6396 |
41 |
-98.6472 |
42 |
-48.7972 |
43 |
153.3679 |
44 |
-33.6472 |
45 |
55.3353 |
46 |
25.5153 |
47 |
-129.2172 |
48 |
136.4604 |
49 |
106.9204 |
50 |
85.9204 |
|
|
|
|
Observations
:
·
Les résultats seront
justifiés par le détail des calculs nécessaires;
·
Il sera tenu compte de la
qualité de la présentation.
L'équipe
dont vous faites partie réalise une étude sur une grande surface implantée dans
la banlieue résidentielle d'une grande ville de l'Ouest.
Vous avez
recensé les renseignements suivants (valeurs exprimées en dizaine de milliers
de francs courants) :
Années |
1976 |
1977 |
1978 |
1979 |
1980 |
1981 |
Ventes |
4500 |
4800 |
4950 |
5100 |
5250 |
5400 |
Dépenses publicitaires |
26 |
27 |
29 |
31 |
32 |
35 |
1) Calculez le pourcentage d'accroissement du chiffre
d'affaires de chaque année par rapport à celui de 1976 (présentez vos résultats
sous forme de tableau).
Les indices
des prix de détail à la consommation sont les suivants (base 100 en 1962) :
1976 : 229.8 |
1977 : 251.4 |
1978 : 274.1 |
1979 : 303.6 |
1980 : 344.8 |
1981 : 391.0 |
Quel commentaire appellent ces
résultats compte tenu de l'évolution générale des prix pendant ces périodes ?
2) Vous estimez
qu'il existe un rapport entre dépenses publicitaires et ventes réalisées au
cours de la même année. Pour tester cette hypothèse, calculez le coefficient de
corrélation entre ces deux variables (présentez le détail des calculs dans un
tableau).
3) Commentez
le résultat obtenu.
4) Le
coefficient que vous venez de calculer vous permet de poursuivre votre analyse;
le budget publicité pour l'année 1982 est de 37 (dizaines de milliers de
francs), déterminez le chiffre d'affaires prévisionnel correspondant.