close

Se connecter

Se connecter avec OpenID

Chapitre 1 : Le modèle linéaire multiple

IntégréTéléchargement
Le modèle linéaire multiple
Un exemple pratique
Chapitre 1 : Le modèle linéaire multiple
Léonard Moulin
Université Paris 13, Sorbonne Paris Cité
M1 EEM – Économétrie appliquée
2015/2016
1 / 36
Le modèle linéaire multiple
Un exemple pratique
1
Le modèle linéaire multiple
2
Un exemple pratique
2 / 36
Le modèle linéaire multiple
Un exemple pratique
Présentation du modèle
Les hypothèses du modèle linéaire multiple
L’estimateur des moindres carrés ordinaires
Propriétés
Tests usuels sur le modèle linéaire
Modèle linéaire multiple
On écrit de la manière suivante le modèle linéaire multiple :
yi = b1 x1,i + b2 x2,i + · · · + bk −1 xk −1,i + bk + i
avec :
yi est la réalisation observée pour le ième individu de la variable
expliquée ;
x1,i , x2,i , . . . , xk −1,i sont les réalisation observées pour le ième
individu des k − 1 variables explicatives ;
i est la réalisation (non observée) pour le ième individu de la
perturbation (qu’on appellera terme d’erreur) ;
b1 , b2 , . . . , bk sont les paramètres dont on cherche à connaitre les
valeurs.
3 / 36
Le modèle linéaire multiple
Un exemple pratique
Présentation du modèle
Les hypothèses du modèle linéaire multiple
L’estimateur des moindres carrés ordinaires
Propriétés
Tests usuels sur le modèle linéaire
En empilant les n observations, on peut réécrire le modèle précédent
sous forme matricielle :

y1 = b1 x1,1 + · · · + bk −1 xk −1,1 + bk + 1



 y2 = b2 x1,2 + · · · + bk −1 xk −1,2 + bk + 1
..

.



yn = bn x1,n + · · · + bk −1 xk −1,n + bk + 1
Le modèle peut donc



x1,1
y1
 x1,2
 y2 



 ..  = b1  ..
 .
 . 
yn
x1,n
s’écrire sous la forme :


xk −1,1

 xk −1,2


+· · ·+bk −1 
..


.
xk −1,n






+bk 


1
1
..
.
1
 
 
 
+
 
1
2
..
.





n
4 / 36
Le modèle linéaire multiple
Un exemple pratique
Présentation du modèle
Les hypothèses du modèle linéaire multiple
L’estimateur des moindres carrés ordinaires
Propriétés
Tests usuels sur le modèle linéaire
On a donc :





y1
y2
..
.
yn


 
 
=
 
x1,1
x1,2
..
.
x2,1
x2,2
..
.
...
...
..
.
xk −1,1
xk −1,2
..
.
1
1
..
.
x1,n
x2,n
...
xk −1,n
1





b1
b2
..
.


 
 
+
 
bk
1
2
..
.





n
Modèle linéaire multiple (écriture sous forme matricielle)
Sous forme matricielle, le modèle linéaire multiple s’écrit de la
manière suivante :
y = X b + (n,1)
(n,k )(k ,1)
(n,1)
5 / 36
Le modèle linéaire multiple
Un exemple pratique
Présentation du modèle
Les hypothèses du modèle linéaire multiple
L’estimateur des moindres carrés ordinaires
Propriétés
Tests usuels sur le modèle linéaire
(H1) X est de rang 1 égal à k ; c’est à dire de plein rang colonne.
(n,k )
Cette hypothèse permet de s’assurer que l’on peut calculer les
valeurs des coefficients par la méthode des MCO.
(H2) On fait l’hypothèse que les k vecteurs colonnes qui composent la
matrice X ne sont pas liées 2 . On dit qu’il n’y a pas de
(n,k )
colinéarité entre les variables explicatives.
(H3) E[ | X ] = 0. On dit que l’espérance du terme d’erreur
(n,1) (n,k )
(n,1)
est nulle pour toutes les valeurs de X . Lorsque les variables
(n,k )
explicatives ne sont pas corrélées aux termes d’erreurs on parle
d’exogeneité.
1. Le rang d’une famille de vecteurs est la dimension du sous-espace vectoriel
engendré par cette famillee. Pour une famille de vecteurs linéairement indépendants,
son rang est le nombre de vecteurs.
2. Aucun vecteur ne peut s’écrire comme une combinaison linéaire des vecteurs
colonnes des autres variables explicatives.
6 / 36
Le modèle linéaire multiple
Un exemple pratique
Présentation du modèle
Les hypothèses du modèle linéaire multiple
L’estimateur des moindres carrés ordinaires
Propriétés
Tests usuels sur le modèle linéaire
(H4) Var[ | X ] = σ 2 In , ∀i . La variance conditionnelle du terme
(n,1) (n,k )
d’erreur est la même pour toutes les observations, et ne dépend
pas de X , on parle d’homoscédasticité.
(n,k )
(H5) E[ i , j | X ] = σ 2 In , ∀i 6= j . Les erreurs i sont tirées
(1,1) (1,1) (n,k )
(1,1)
indépendamment les unes des autres, on parle d’absence
d’autocorrélation des termes d’erreur.
(H6) ∼ N 0, σ 2 In . Cette hypothèse signifie que les perturbations
(n,1)
i sont indépendantes entre
elles et identiquement distribuées,
telles que i ∼ N 0, σ 2 , ∀i . On parle alors de normalité des
résidus. En effet, la matrice de variance covariance de est
diagonale : toutes les composantes de sont de covariances nulles.
Puisque dans le cas de lois normales l’absence de corrélation entre
deux variables aléatoires implique leur indépendance, les
composantes de sont indépendantes entre elles.
7 / 36
Présentation du modèle
Les hypothèses du modèle linéaire multiple
L’estimateur des moindres carrés ordinaires
Propriétés
Tests usuels sur le modèle linéaire
Le modèle linéaire multiple
Un exemple pratique
La méthode d’estimation des moindres carrées ordinaires dans le
cadre du modèle linéaire multiple consiste à choisir les valeurs de
b̂1 , b̂2 , . . . , b̂k −1 , b̂k qui sont solutions de :
n
X
min
(b̂1 ,b̂2 ,...,b̂k −1 ,b̂k ) i=1
(yi − b1 x1i − b2 x2i − · · · − bk −1 xk −1,i − bk )
2
ˆ est solution
On peut réecrire le problème sous forme matricielle, (b)
(k ,1)
de :
min
b
n
X
i=1
!0
y − X
(n,1)
!
y − X
b
(n,k )(k ,1)
(n,1)
b
(n,k )(k ,1)
Estimateurs des MCO (modèle linéaire multiple)
L’estimateur des moindres carrés ordinaires b̂ est défini par :
−1
b̂ = (X 0 X )
(k ,1)
(k ,k )
X0 y
(k ,n)(n,1)
8 / 36
Le modèle linéaire multiple
Un exemple pratique
Présentation du modèle
Les hypothèses du modèle linéaire multiple
L’estimateur des moindres carrés ordinaires
Propriétés
Tests usuels sur le modèle linéaire
Théorème de Gauss-Markov
Soit un modèle de régression multiple y = X
(n,1)
b + , avec les
(n,k )(k ,1)
(n,1)
hypothèse (H1), (H2), (H3) et (H4). L’estimateur b̂ est l’estimateur le
plus précis dans l’ensemble des estimateurs linéaires sans biais de b.
9 / 36
Le modèle linéaire multiple
Un exemple pratique
Présentation du modèle
Les hypothèses du modèle linéaire multiple
L’estimateur des moindres carrés ordinaires
Propriétés
Tests usuels sur le modèle linéaire
Quand on étudie si une composante bj de b est égale à 0, on dit
(k ,1)
qu’on teste la significativité du coefficient bj . Si le test conduit à
conclure que bj = 0, on dit que le coefficient bj est non significatif.
Test de significativité individuel
H0 : bj = 0
H1 : bj 6= 0
Dans le cas où H0 est retenue, cela signifierait que la variable xj
(dont bj est le coefficient) n’influence pas significativement y.
Quand on étudie si l’ensemble des coefficients sont nuls, on dit
qu’on teste la significativité globale du modèle.
Test de significativité globale (test de Fisher)
H0 : b1 = b2 = · · · = bk −1 = 0
H1 : il existe au moins un coefficient non nul
Dans le cas où H0 est retenue, cela signifierait qu’aucune des
variables explicatives de notre modèle n’explique le phénomène y.
10 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
Le fichier wages.dta contient des données portant sur 3294
salariés américains en 1987.
Commençons par charger les données dans R :
>
>
>
>
library(foreign)
wages <- read.dta("/data/wages.dta")
wages[1:3,]
attach(wages)
1
2
3
exper male school
wage
9
0
13 6.315296
12
0
12 5.479770
11
0
11 3.642170
Le fichier contient 4 variables :
1
2
3
4
exper : le nombre d’années d’expériences ;
male : 1 s’il s’agit d’un homme, 0 sinon (dummy) ;
school : le nombre d’années d’études ;
wage : le salaire horaire (exprimé en dollars de l’année 1980).
11 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
Nous pouvons maintenant effectuer quelques statistiques
descriptives sur notre échantillon :
> summary(wages)
exper
Min.
: 1.000
1st Qu.: 7.000
Median : 8.000
Mean
: 8.043
3rd Qu.: 9.000
Max.
:18.000
male
Min.
:0.0000
1st Qu.:0.0000
Median :1.0000
Mean
:0.5237
3rd Qu.:1.0000
Max.
:1.0000
school
Min.
: 3.00
1st Qu.:11.00
Median :12.00
Mean
:11.63
3rd Qu.:12.00
Max.
:16.00
wage
Min.
: 0.07656
1st Qu.: 3.62157
Median : 5.20578
Mean
: 5.75759
3rd Qu.: 7.30451
Max.
:39.80892
12 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
On commence par s’intéresser au lien entre salaire et niveau
d’étude.
On teste le modèle suivant :
wagei = b0 + b1 schooli + i
> reg1 <- lm(wage ~
> summary(reg1)
(1)
school, data=wages)
Call:
lm(formula = wage ~ school, data = wages)
Residuals:
Min
1Q Median
-6.744 -2.024 -0.482
3Q
Max
1.443 34.403
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.72251
0.38739 -1.865
0.0623 .
school
0.55716
0.03298 16.896
<2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.137 on 3292 degrees of freedom
Multiple R-squared: 0.0798,
Adjusted R-squared: 0.07952
F-statistic: 285.5 on 1 and 3292 DF, p-value: < 2.2e-16
13 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
> plot(wage ~ school, ylab="wage", xlab="school", pch=20)
> abline(lm(wage ~ school))
14 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
> plot(residuals(reg1))
15 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
On veut maintenant s’avoir si le salaire est lié au sexe de la
personne employée.
On teste le modèle suivant :
wagei = b0 + b1 malei + i
> reg2 <- lm(wage ~
> summary(reg2)
(2)
male, data=wages)
Call:
lm(formula = wage ~ male, data = wages)
Residuals:
Min
1Q Median
-6.160 -2.102 -0.554
3Q
Max
1.487 33.496
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.14692
0.08122
63.37
<2e-16 ***
male
1.16610
0.11224
10.39
<2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.217 on 3292 degrees of freedom
Multiple R-squared: 0.03175,
Adjusted R-squared: 0.03145
F-statistic: 107.9 on 1 and 3292 DF, p-value: < 2.2e-16
16 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
Le premier modèle nous permet de conclure qu’il existe une
différence significative entre le salaire des hommes et des femmes.
Peut-on pour autant parler de discrimination ?
Il est en effet possible que le travail des hommes et que celui des
femmes différent en fonction de leurs caractéristiques, par
exemple le nombre d’années d’école.
Pour vérifier l’hypothèse d’une discrimination sur le marché de
l’emploi, nous allons maintenant estimer le modèle suivant :
wagei = b0 + b1 malei + b2 schooli + b3 experi + i
(3)
17 / 36
Le modèle linéaire multiple
Un exemple pratique
> reg3 <- lm(wage ~
> summary(reg3)
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
male + school + exper, data=wages)
Call:
lm(formula = wage ~ male + school + exper, data = wages)
Residuals:
Min
1Q Median
-7.654 -1.967 -0.457
3Q
Max
1.444 34.194
Coefficients:
Estimate Std. Error t value
(Intercept) -3.38002
0.46498 -7.269
male
1.34437
0.10768 12.485
school
0.63880
0.03280 19.478
exper
0.12483
0.02376
5.253
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01
Pr(>|t|)
4.50e-13
< 2e-16
< 2e-16
1.59e-07
***
***
***
***
‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.046 on 3290 degrees of freedom
Multiple R-squared: 0.1326,
Adjusted R-squared: 0.1318
F-statistic: 167.6 on 3 and 3290 DF, p-value: < 2.2e-16
18 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
Le coefficient b1 mesure maintenant la difference de salaire entre
un homme et une femme, pour des niveaux d’étude et
d’expérience identiques (“toutes choses égales par ailleurs”).
Le coefficient b1 est plus important que dans le modèle précent :
la différence de salaire espéré est de 1,34$ pour un même niveau
d’expérience et d’étude. On peut alors, dans le cadre restricitf de
notre modèle, parler de discrimination.
Estimons maintenant le modèle en semi-élasticité, en tenant
compte des effets non-linéaires de l’âge :
ln wagei = b0 + b1 malei + b2 schooli + b3 experi + b4 experi2 + i (4)
>
>
>
>
>
attach(wages)
expersq <- exper^2
lnwage <- log(wage)
reg4 <- lm(lnwage ~
summary(reg4)
male + school + exper + expersq, data=wages)
19 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
Call:
lm(formula = lnwage ~ male + school + exper + expersq, data = wages)
Residuals:
Min
1Q
-3.9944 -0.2804
Median
0.0463
3Q
0.3646
Max
2.1718
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.321783
0.101972 -3.156 0.00162 **
male
0.242716
0.020452 11.868 < 2e-16 ***
school
0.120759
0.006581 18.349 < 2e-16 ***
exper
0.060269
0.020790
2.899 0.00377 **
expersq
-0.001534
0.001253 -1.225 0.22074
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.5786 on 3289 degrees of freedom
Multiple R-squared: 0.1378,
Adjusted R-squared: 0.1368
F-statistic: 131.4 on 4 and 3289 DF, p-value: < 2.2e-16
20 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
La variable expersq permet d’affiner l’influence de l’expérience
professionnelle proposée dans le modèle. La grandeur lnwage est
une fonction du second degré de l’expérience, graphiquement une
parabole et le terme du second degré, le coefficient de expersq,
étant négatif c’est une parabole à la concavité tournée vers le bas
(phénomène de rendements décroissants).
Selon le modèle spécifié, les coefficients ne s’interprètent pas de la
même manière :
dans un modèle du type yi = a + bxi (en niveau) : une variation
d’une unité de xi entraı̂ne une augmentation de yi de b̂ (valeur
réelle) ;
dans un modèle du type ln yi = a + bxi (semi-log) : une variation
d’une unité de xi entraı̂ne une augmentation de yi de b̂ %
(semi-élasticité) ;
dans un modèle du type ln yi = a + b ln xi (log) : une variation
d’une unité de 1 % de xi entraı̂ne une augmentation de yi de b̂ %
(élasticité).
21 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
On peut également ajouter des effets d’interactions dans la
régression :
ln wagei = b0 + b1 malei + b2 schooli + b3 malei × schooli + i (5)
Sans intéraction, b2 serait intérprété comme l’effet unique de la
variable male sur wage. L’interaction signifie alors que l’effet du
niveau d’éducation sur le salaire est différent en fonction du sexe
des individus.
b2 est maintenant intérprété comme l’unique effet de l’école sur le
salaire lorsque male = 0.
22 / 36
Le modèle linéaire multiple
Un exemple pratique
> reg5 <- lm(lnwage ~
> summary(reg5)
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
male + school + male*school, data=wages)
Call:
lm(formula = lnwage ~ male + school + male * school, data = wages)
Residuals:
Min
1Q
-3.9431 -0.2821
Median
0.0592
3Q
0.3731
Max
2.0431
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.04188
0.11435
0.366 0.71425
male
0.39073
0.14783
2.643 0.00825 **
school
0.12105
0.00958 12.636 < 2e-16 ***
male:school -0.01119
0.01254 -0.892 0.37235
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.5839 on 3290 degrees of freedom
Multiple R-squared: 0.1215,
Adjusted R-squared: 0.1207
F-statistic: 151.7 on 3 and 3290 DF, p-value: < 2.2e-16
23 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
De la même manière on peut vouloir estimer un modèle de la
forme :
ln wagei = b0 malei + b1 (1 − malei ) + i
(6)
Les parenthèses joue le rôle de “as is” (au sens arithmétique).
> reg6 <- lm(lnwage ~
> summary(reg6)
-1 + male + I(1 - male), data=wages)
Call:
lm(formula = lnwage ~ -1 + male + I(1 - male), data = wages)
Residuals:
Min
1Q
-4.0445 -0.3068
Median
0.0575
3Q
0.3850
Max
2.0064
Coefficients:
Estimate Std. Error t value Pr(>|t|)
male
1.68961
0.01477 114.38
<2e-16 ***
I(1 - male) 1.47475
0.01549
95.22
<2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6135 on 3292 degrees of freedom
Multiple R-squared: 0.8706,
Adjusted R-squared: 0.8705
F-statistic: 1.108e+04 on 2 and 3292 DF, p-value: < 2.2e-16
24 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
Comment savoir si l’on a choisi la bonne forme fonctionnelle, i.e.
la bonne spécification, pour notre modèle ?
Il existe une infinité de formes fonctionnelles :
logarithmiques sur les variables expliquées et explicatives ;
quadratiques sur les variables expliquées ;
interactions entre les variables ;
etc.
Deux manières de procéder :
1
2
estimer un modèle empirique en fonction des modèles théoriques ;
construire un modèle en fonction du phénomène économique que
l’on cherche à expliquer (procédures forward ou backward ).
Dans les deux cas, il existe deux manières de vérifier la
spécification du modèle :
1
2
considérer un modèle étendu ;
utiliser le test RESET de Ramsey (1969).
25 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
Supposons que l’on considère un modèle du type :
yi = b0 + b1 x1i + b2 x2i + i
En pratique, rien ne nous assure que cette forme fonctionnelle est
correcte. On peut en revanche la tester en considérant le modèle
étendu de la forme :
2
2
yi = b0 + b1 x1i + b2 x2i + b4 x1i
+ b5 x2i
+ b6 x1i x2i + i
On effectue alors un test de la forme :
H0 : b4 = b5 = b6 = 0
H1 : b4 6= 0, et/ou b5 6= 0, et/ou b6 6= 0
En considèrant différentes transformations des variables ainsi que
d’autres variables, tester la forme fonctionnelle du modèle de
cette manière devient vite compliquée.
26 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
On peut également utiliser le test RESET de Ramsey.
On considère un modèle étendu incluant les puissances ŷi2 , ŷi3 ,
etc. de la valeur prédite ŷi = Xi b̂ :
yi = b0 + b1 x1i + b2 x2i + b4 ŷi2 + b5 ŷi3 + i
On effectue alors un test de la forme :
H0 : b4 = b5 = 0
H1 : b4 6= 0, et/ou b5 6= 0
L’idée de base du test et que si la forme fonctionnelle du modèle
original est incorrecte, les variables ŷi2 , ŷi3 – qui, si on les
développe, apparaissent comme des fonctions polynomiales des
variables du modèle original – devraient améliorer l’ajustement
du modèle, et donc apparaı̂tre comme étant statistiquement
significatives.
27 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
On utilise le fichier housing.dta contenant les prix de 546 maisons
vendues entre les mois de juillet et septembre 1987 (Anglin and
Gençay, 1996).
Le fichier contient 12 variables :
1
2
3
4
5
6
7
8
9
10
11
12
price : le prix du logement en dollars ;
lotsize : la taille de la propriété en pieds carrés ;
bedrooms : le nombre de chambre ;
bathrms : le nombre de salle de bains ;
stories : le nombre de fois où la maison à changé de propriétaire ;
driveway : la présence d’une allée (dummy) ;
recroom : la présence d’une salle de loisir (dummy) ;
fullbase : la présence d’un sous-sol (dummy) ;
gashw : la présence de gaz dans l’appartement (dummy) ;
airco : la présence d’un système de climatisation (dummy) ;
garagepl : le nombre de place de parking ;
preferarea : le fait d’être situé dans un zone privilégiée (dummy).
28 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
Commencons par charger les données dans R :
> library(foreign)
> housing <- read.dta("/data/housing.dta")
> attach(housing)
Effectuons quelques statistiques descriptives :
> summary(housing)
price
Min.
: 25000
1st Qu.: 49125
Median : 62000
Mean
: 68122
3rd Qu.: 82000
Max.
:190000
recroom
Min.
:0.0000
1st Qu.:0.0000
Median :0.0000
Mean
:0.1777
3rd Qu.:0.0000
Max.
:1.0000
lotsize
bedrooms
bathrms
stories
driveway
Min.
: 1650
Min.
:1.000
Min.
:1.000
Min.
:1.000
Min.
:0.000
1st Qu.: 3600
1st Qu.:2.000
1st Qu.:1.000
1st Qu.:1.000
1st Qu.:1.000
Median : 4600
Median :3.000
Median :1.000
Median :2.000
Median :1.000
Mean
: 5150
Mean
:2.965
Mean
:1.286
Mean
:1.808
Mean
:0.859
3rd Qu.: 6360
3rd Qu.:3.000
3rd Qu.:2.000
3rd Qu.:2.000
3rd Qu.:1.000
Max.
:16200
Max.
:6.000
Max.
:4.000
Max.
:4.000
Max.
:1.000
fullbase
gashw
airco
garagepl
prefarea
Min.
:0.0000
Min.
:0.00000
Min.
:0.0000
Min.
:0.0000
Min.
:0.0000
1st Qu.:0.0000
1st Qu.:0.00000
1st Qu.:0.0000
1st Qu.:0.0000
1st Qu.:0.0000
Median :0.0000
Median :0.00000
Median :0.0000
Median :0.0000
Median :0.0000
Mean
:0.3498
Mean
:0.04579
Mean
:0.3168
Mean
:0.6923
Mean
:0.2344
3rd Qu.:1.0000
3rd Qu.:0.00000
3rd Qu.:1.0000
3rd Qu.:1.0000
3rd Qu.:0.0000
Max.
:1.0000
Max.
:1.00000
Max.
:1.0000
Max.
:3.0000
Max.
:1.0000
On utilise un modèles hedoniste de formation des prix (Rosen,
1974).
Le prix de vente est alors fonction des caractéristiques du bien
proposé :
ln pricei = b0 +b1 log(sizei )+bedroomsi +bathrmsi +aircoi +i (7)
29 / 36
Le modèle linéaire multiple
Un exemple pratique
> reg7 <- lm(log(price) ~
> summary(reg7)
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
log(lotsize) + bedrooms + bathrms + airco, data=housing)
Call:
lm(formula = log(price) ~ log(lotsize) + bedrooms + bathrms +
airco, data = housing)
Residuals:
Min
1Q
-0.81782 -0.15562
Median
0.00778
3Q
0.16468
Max
0.84143
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
7.09378
0.23155 30.636 < 2e-16 ***
log(lotsize) 0.40042
0.02781 14.397 < 2e-16 ***
bedrooms
0.07770
0.01549
5.017 7.11e-07 ***
bathrms
0.21583
0.02300
9.386 < 2e-16 ***
airco
0.21167
0.02372
8.923 < 2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2456 on 541 degrees of freedom
Multiple R-squared: 0.5674,
Adjusted R-squared: 0.5642
F-statistic: 177.4 on 4 and 541 DF, p-value: < 2.2e-16
30 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
Testons maintenant la forme fonctionnelle de notre modèle en
utilisant le test RESET.
Commençons par générer la variable prédite par le modèle :
> pricehat <- predict(reg7)
On estime ensuite le modèle de la forme :
ln pricei
=
b0 + b1 ln(sizei ) + bedroomsi + bathrmsi + aircoi
+(ln pricei )2 + ln(pricei )3 + i
> reg8 <- lm(log(price) ~ log(lotsize) + bedrooms + bathrms
+ I(pricehat^2) + I(pricehat^3), data=housing)
> summary(reg8)
(8)
+ airco
31 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
Call:
lm(formula = log(price) ~ log(lotsize) + bedrooms + bathrms +
airco + I(pricehat^2) + I(pricehat^3), data = housing)
Residuals:
Min
1Q
-0.81241 -0.15526
Median
0.00843
3Q
0.15948
Max
0.84892
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
-274.5008
300.6983 -0.913
0.362
log(lotsize)
-33.4090
35.8094 -0.933
0.351
bedrooms
-6.4829
6.9490 -0.933
0.351
bathrms
-18.0151
19.3038 -0.933
0.351
airco
-17.6684
18.9363 -0.933
0.351
I(pricehat^2)
7.4812
7.9835
0.937
0.349
I(pricehat^3)
-0.2207
0.2375 -0.930
0.353
Residual standard error: 0.2458 on 539 degrees of freedom
Multiple R-squared: 0.5683,
Adjusted R-squared: 0.5635
F-statistic: 118.3 on 6 and 539 DF, p-value: < 2.2e-16
⇒ Il n’y a pas de preuve nous permettant de conclure à une
mauvaise spécification de notre modèle.
32 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
On considère maintenant le modèle complet de la forme :
ln pricei
=
b0 + b1 ln(sizei ) + bedroomsi + bathrmsi + aircoi
+drivewayi + recroomi + fullbasei + gashwi
+garagepli + prefareai + storiesi + i
>
+
+
>
(9)
reg9 <- lm(log(price) ~ log(lotsize) + bedrooms + bathrms + airco
driveway +recroom + fullbase + gashw + garagepl + prefarea
stories, data=housing)
summary(reg9)
Ainsi que le même modèle augmenté du carré et du cube de la
variable prédite par le modèle :
ln pricei
= b0 + b1 ln(sizei ) + bedroomsi + bathrmsi + aircoi +
drivewayi + recroomi + fullbasei + gashwi + garagepli +
prefareai + storiesi + (ln pricei )2 + (ln pricei )3 + i (10)
>
>
+
+
>
pricehat <- predict(reg9)
reg10 <- lm(log(price) ~ log(lotsize) + bedrooms + bathrms + airco
driveway +recroom + fullbase + gashw + garagepl + prefarea
stories + I(pricehat^2) + I(pricehat^3), data=housing)
summary(reg10)
33 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
Call:
lm(formula = log(price) ~ log(lotsize) + bedrooms + bathrms +
airco + driveway + recroom + fullbase + gashw + garagepl +
prefarea + stories, data = housing)
Residuals:
Min
1Q
-0.68355 -0.12247
Median
0.00802
3Q
0.12780
Max
0.67564
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
7.74509
0.21634 35.801 < 2e-16 ***
log(lotsize) 0.30313
0.02669 11.356 < 2e-16 ***
bedrooms
0.03440
0.01427
2.410 0.016294 *
bathrms
0.16576
0.02033
8.154 2.52e-15 ***
airco
0.16642
0.02134
7.799 3.29e-14 ***
driveway
0.11020
0.02823
3.904 0.000107 ***
recroom
0.05797
0.02605
2.225 0.026482 *
fullbase
0.10449
0.02169
4.817 1.90e-06 ***
gashw
0.17902
0.04389
4.079 5.22e-05 ***
garagepl
0.04795
0.01148
4.178 3.43e-05 ***
prefarea
0.13185
0.02267
5.816 1.04e-08 ***
stories
0.09169
0.01261
7.268 1.30e-12 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2104 on 534 degrees of freedom
Multiple R-squared: 0.6865,
Adjusted R-squared: 0.6801
F-statistic: 106.3 on 11 and 534 DF, p-value: < 2.2e-16
34 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
Call:
lm(formula = log(price) ~ log(lotsize) + bedrooms + bathrms +
airco + driveway + recroom + fullbase + gashw + garagepl +
prefarea + stories + I(pricehat^2) + I(pricehat^3), data = housing)
Residuals:
Min
1Q
-0.68470 -0.12214
Median
0.00843
3Q
0.12850
Max
0.67478
Coefficients:
(Intercept)
log(lotsize)
bedrooms
bathrms
airco
driveway
recroom
fullbase
gashw
garagepl
prefarea
stories
I(pricehat^2)
I(pricehat^3)
Estimate Std. Error t value Pr(>|t|)
85.73676 285.93436
0.300
0.764
6.15703
21.52762
0.286
0.775
0.69862
2.44211
0.286
0.775
3.36606
11.77060
0.286
0.775
3.38064
11.82046
0.286
0.775
2.23679
7.81844
0.286
0.775
1.17811
4.11964
0.286
0.775
2.12233
7.41977
0.286
0.775
3.63678
12.71552
0.286
0.775
0.97384
3.40519
0.286
0.775
2.67821
9.36507
0.286
0.775
1.86197
6.51060
0.286
0.775
-1.73577
6.36183 -0.273
0.785
0.05198
0.18990
0.274
0.784
Residual standard error: 0.2108 on 532 degrees of freedom
Multiple R-squared: 0.6866,
Adjusted R-squared: 0.6789
F-statistic: 89.65 on 13 and 532 DF, p-value: < 2.2e-16
35 / 36
Le modèle linéaire multiple
Un exemple pratique
Les données
La régression linéaire simple
La régression linéaire multiple
La spécification du modèle
Pour comparer les deux modèles on peut faire une ANOVA :
> anova(reg7,reg9)
Analysis of Variance Table
Model 1: log(price) ~ log(lotsize) + bedrooms + bathrms + airco
Model 2: log(price) ~ log(lotsize) + bedrooms + bathrms + airco + driveway
+ recroom + fullbase + gashw + garagepl + prefarea + stories
Res.Df
RSS Df Sum of Sq
F
Pr(>F)
1
541 32.622
2
534 23.638 7
8.9839 28.993 < 2.2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
De la même manière, on pourrait continuer en essayant de
nouvelles formes fonctionnelles et en essayant de voir si celles-ci
sont correctement spécifiées avant de les comparer.
D’autres approches possibles :
1
2
Minzon et Richard (1986) : on estime un modèle complet qui
inclue toutes les formes fonctionnelles des variables explicatives et
on effectue des tests de significativité.
Davidson et MacKinnon (1981) : on estime un modèle contenant
deux formes fonctionnelles, si la variable expliquée utilisée comme
variable explicative du premier modèle n’est pas significative alors
36 / 36
le modèle qui imbrique est le bon.
Auteur
Документ
Catégorie
Без категории
Affichages
6
Taille du fichier
378 Кб
Étiquettes
1/--Pages
signaler