Enlarging of the sample to address multicollinearity

El pasado 16 de abril (de 2025) se publicó nuestro trabajo titulado Enlarging of the sample to address multicollinearity en Computational Economics. Destacar que el artículo ha sido publicado en acceso abierto.

En dicho trabajo analizamos la solución universalmente propuesta de aumentar el tamaño de la muestra para mitigar el problema de multicolinealidad en un modelo de regresión lineal múltiple. Por tanto, consideramos que puede ser de gran interés para los docentes en Econometría que proponen esta opción para hacer frente a la multicolinealidad preocupante.

En el trabajo se abordan las implicaciones que puede tener el aumento de la muestra tanto en el análisis estadístico (inferencia individual de los coeficientes) como numérico (estabilidad de las estimaciones de los coeficientes) del modelo de regresión lineal múltiple, a continuación ilustraremos algunos de los resultados obtenidos.

Se consideran los mismos datos usados en la redefinición del factor de inflación de la varianza o la regresión alzada. Concretamente, se generan tres variables \(\mathbf{z}\), \(\mathbf{v}\) y \(\mathbf{w}\) tales que la primera está fuertemente relacionada con la constante y la segunda y tercera están fuertemente relacionadas (linealmente) entre sí.

rm(list=ls())
set.seed(2024)
obs = 50
cte = rep(1, obs)
z = rnorm(obs, 5, 0.1)
v = rnorm(obs, -3, 4)
w = v + rnorm(obs, 1, 0.5)

En este caso se genera una variable dependiente como \(\mathbf{y} = 3 + 4 \cdot \mathbf{z} - 5 \cdot \mathbf{v} - 2 \cdot \mathbf{w} + \mathbf{u}\), donde \(\mathbf{u}\) se distribuye según una normal de media 0 y varianza 2. El realizar la correspondiente estimación por Mínimos Cuadrados Ordinarios del modelo planteado se obtiene que las estimaciones de las variables \(\mathbf{v}\) y \(\mathbf{w}\) son muy próximas a las verdaderas (y significativamente distintas de cero) pero las de la constante y la variable \(\mathbf{z}\) difieren mucho de la realidad (incluso la estimación de la constante es significativamente distinta de cero):

u = rnorm(obs, 0, 2)
y = 3 + 4*z - 5*v - 2*w + u
reg = lm(y~z+v+w)
summary(reg)


Call:
lm(formula = y ~ z + v + w)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.5621 -1.2720 -0.0077  1.2600  4.5086 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  35.2603    14.0770   2.505  0.01586 *  
z            -2.4029     2.8337  -0.848  0.40085    
v            -5.1658     0.6240  -8.279 1.15e-10 ***
w            -1.8400     0.6417  -2.867  0.00623 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.081 on 46 degrees of freedom
Multiple R-squared:  0.9947,    Adjusted R-squared:  0.9943 
F-statistic:  2865 on 3 and 46 DF,  p-value: < 2.2e-16

Si se calcula el número de condición para cuantificar el grado de multicolinealidad existente se obtiene que éste es superior a los umbrales establecidos como preocupantes:

library(multiColl)
cte = rep(1, length(y))
X = cbind(cte, z, v, w)
CN(X)

[1] 120.7897

Supongamos que cuadruplicamos la muestra inicial repitiendo el patrón de simulación inicial y volvemos a estimar el modelo:

obs = 150
z = c(z, rnorm(obs, 5, 0.1))
v_aux = rnorm(obs, -3, 4)
w_aux = v_aux + rnorm(obs, 1, 0.5)
v = c(v, v_aux)
w = c(w, w_aux)
u = c(u, rnorm(obs, 0, 2))

y = 3 + 4*z - 5*v - 2*w + u
reg = lm(y~z+v+w)
summary(reg)


Call:
lm(formula = y ~ z + v + w)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.8764 -1.2601 -0.1083  1.2137  6.6070 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  20.8545     6.9812   2.987  0.00317 ** 
z             0.4221     1.3913   0.303  0.76192    
v            -5.0889     0.2731 -18.636  < 2e-16 ***
w            -1.9594     0.2714  -7.221 1.12e-11 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.94 on 196 degrees of freedom
Multiple R-squared:  0.9946,    Adjusted R-squared:  0.9945 
F-statistic: 1.21e+04 on 3 and 196 DF,  p-value: < 2.2e-16

Se observa que el aumento de la muestra ha hecho disminuir la desviación típica estimada de los coeficientes estimados, lo cual puede implicar (si la estimación del coeficiente no varía demasiado) un aumento en el valor experimental del contraste de significación individual de cada coeficiente y, en consecuencia, pasar a no rechazar la hipótesis nula de nulidad del coeficiente.

Sin embargo, observamos que las estimaciones de los coeficientes de \(\mathbf{v}\) y \(\mathbf{w}\) siguen siendo muy parecidas, mientras que la del resto de variables (aunque han cambiado sustancialmente) siguen estando lejos de las verdaderas (especialmente en el caso de la constante). Es decir, en este caso, el aumento de la muestra mitiga los efectos de la multicolinealdiad sobre el análisis estadístico del modelo pero no sobre el numérico.

Si se vuelve a calcular el número de condición se obtiene que sigue siendo elevado, lo cual es indicativo de que algo sigue pasando:

cte = rep(1, length(y))
X = cbind(cte, z, v, w)
CN(X)

[1] 125.8428

¡Esto y mucho más es lo que puedes encontrar en nuestro trabajo! Esperamos haber despertado vuestro interés…