| x0 | x1 | x2 | x3 |
|---|---|---|---|
| 1 | 5.098197 | -3.5924430 | -6.1989682 |
| 1 | 5.046871 | -6.7197549 | -0.6266749 |
| 1 | 4.989203 | -1.1831426 | -1.5264044 |
| 1 | 4.978712 | -9.4244290 | 7.0212452 |
| 1 | 5.115810 | -11.0458853 | -1.4948945 |
| 1 | 5.129236 | 1.5599065 | 2.9479774 |
| 1 | 5.053465 | -1.7371882 | 2.6866594 |
| 1 | 4.987297 | 1.1707444 | -1.4463078 |
| 1 | 4.877512 | -3.8519300 | -1.8538553 |
| 1 | 4.887865 | -1.4115985 | 3.1418203 |
| 1 | 4.832808 | -9.1746100 | -3.3623092 |
| 1 | 5.046892 | -3.4727988 | 0.9765449 |
| 1 | 5.083219 | -0.2612085 | 3.4768757 |
| 1 | 5.029302 | -11.2228893 | 10.8640934 |
| 1 | 4.672571 | -3.4376960 | -4.9843106 |
Introducción
A continuación se realiza una breve reflexión sobre el problema de multicolinealidad en el modelo de regresión lineal que finaliza con la presentación de un test para detectar multicolinealidad preocupante.
Así, bajo nuestro punto de vista, cuando cualquier docente en Econometría explica los contenidos referentes a la multicolinealidad, debería dejar claras un par de ideas:
Por un lado, cuando se trabaja con datos reales, siempre existirá cierto grado de multicolinealidad (que habrá que determinar si es preocupante) y nunca habrán relaciones lineales perfectas entre las variables independientes del modelo (a no ser que se meta la pata especificando el modelo). Luego cuando se hable de multicolinealidad debemos de entender que se hace referencia a la aproximada.
Por otro, no se cuentan con pruebas estadísticas (como sí ocurre cuando se trabaja con la heterocedasticidad o autocorrelación) que permitan rechazar (o no) una hipótesis nula que haga referencia a que la multicolinealidad existente es preocupante, sino que se cuentan con unos umbrales que determinan la clasificación de la multicolinealidad existente en preocupante o no preocupante.
Bueno, realmente sí existe un contraste sobre multicolinealidad, el de Farrar y Glauber, pero ha recibido fuertes críticas (que compartimos) desde su publicación en 1967. Básicamente, este contraste determina si las variables no son ortogonales sin dar información sobre si el grado de multicolinealidad existente es problemático.
En definitiva, desarrollar una prueba estadística que determine si la multicolinealidad (que sabemos que siempre existe) es preocupante es un gap relevante en la literatura .
Esta es la motivación de nuestro último trabajo publicado bajo el título “rvif: a Decision Rule to Detect Troubling Statistical Multicollinearity Based on Redefined VIF” (https://journal.r-project.org/articles/RJ-2025-040/) publicado en The R Journal.
Pero antes de profundizar en esta publicación, empecemos por el principio.
¿Cuándo es preocupante la multicolinealidad?
La multicolinealidad es un problema porque puede afectar al análisis del modelo, así está ampliamente aceptado que cuando el grado de las relaciones lineales entre las variables independientes del modelo lineal son altas:
Las estimaciones de los coeficientes asociados a las variables independiente pueden ser sensibles a pequeños cambios en los datos obteniéndose, por ejemplo, estimaciones con signos no esperados (efectos nocivos sobre el análisis numérico del modelo).
Al efectuar los contrastes de significación individual puede no rechazarse la hipótesis nula, mientras que al realizar el contraste de significación conjunta sí; lo cual supone una contradicción (efectos nocivos sobre el análisis estadístico del modelo).
Para determinar si existe multicolinealidad preocupante, es universal el uso del factor de inflación de la varianza (FIV) o el número de condición (NC), de forma que está aceptado en la literatura que valores en el primero mayores a 10 o del segundo mayores a 20 hacen encender todas las alarmas.
Pero, ¿cómo conectan estas medidas de detección con los efectos nocivos comentados?
Inciso
Antes de continuar, hagamos un alto en el camino y distingamos los dos siguientes tipos de multicolinealidad:
- No esencial: relación lineal entre el término independiente del modelo y al menos una de las restantes variables independientes (que, a todas luces, ha de ser prácticamente constante).
- Esencial: relación lineal entre al menos dos variables independientes del modelo excluido el término independiente.
Para más detalles ver, por ejemplo, Salmerón, Rodríguez y García (2020).
Hacer esta distinción permite responder con solvencia a la situación producida, por ejemplo, al analizar el grado de relaciones lineales existente en el siguiente conjunto de datos:
A partir del FIV se concluiría que el grado de multicolinealidad existente es muy bajo ya que se obtienen valores muy próximos a su mínimo valor:
x1 x2 x3
1.125083 1.065845 1.175272
Mientras que el NC estaría indicando que el grado de multicolinealidad existente es preocupante:
[1] 102.2845
¿A quién le hacemos caso? ¿Qué está ocurriendo?
¿Hay algo que detecte el NC que no lo detecte el FIV? Por lo pronto, Berk (1977) establece que el cuadrado del NC es siempre mayor o igual que el máximo FIV.
Un segundo ejemplo un poquito más complejo
A continuación se generan tres variables \(\mathbf{z}\), \(\mathbf{v}\) y \(\mathbf{w}\) tales que la primera está fuertemente relacionada con la constante (multicolinealidad no esencial) y la segunda y tercera están fuertemente relacionadas linealmente entre sí (esencial):
set.seed(2024)
obs = 50
z = rnorm(obs, 5, 0.1)
v = rnorm(obs, -3, 4)
w = v + rnorm(obs, 1, 0.5)También se genera una variable dependiente como \(\mathbf{y} = 3 + 4 \cdot \mathbf{z} - 5 \cdot \mathbf{v} - 2 \cdot \mathbf{w} + \mathbf{u}\), donde \(\mathbf{u}\) se distribuye según una normal de media 0 y varianza 4.
u = rnorm(obs, 0, 2)
y = 3 + 4*z - 5*v - 2*w + uAl realizar la correspondiente estimación del modelo planteado se obtienen los siguientes resultados:
reg = lm(y~z+v+w)
summary(reg)
Call:
lm(formula = y ~ z + v + w)
Residuals:
Min 1Q Median 3Q Max
-5.5621 -1.2720 -0.0077 1.2600 4.5086
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 35.2603 14.0770 2.505 0.01586 *
z -2.4029 2.8337 -0.848 0.40085
v -5.1658 0.6240 -8.279 1.15e-10 ***
w -1.8400 0.6417 -2.867 0.00623 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.081 on 46 degrees of freedom
Multiple R-squared: 0.9947, Adjusted R-squared: 0.9943
F-statistic: 2865 on 3 and 46 DF, p-value: < 2.2e-16
Se observa que las estimaciones de las variables \(\mathbf{v}\) y \(\mathbf{w}\) son razonablemente próximas a las verdaderas (y significativamente distintas de cero) pero las de la constante y la variable \(\mathbf{z}\) difieren mucho de la realidad (incluso la estimación de la constante es significativamente distinta de cero).
El último punto nos hace pensar que la multicolinealidad existente está afectando al análisis del modelo. Pero, claro, llegamos a esta conclusión porque conocemos los valores reales de los coeficientes. ¿Qué ocurre en la vida real donde no se tiene esta información?
En tal caso calcularíamos las medidas mencionadas anteriormente, para lo que usaremos el paquete multiColl de R.
El FIV indicaría que hay un problema de multicolinealidad grave entre las variables \(\mathbf{v}\) y \(\mathbf{w}\):
library(multiColl)
X = model.matrix(reg)
VIF(X) z v w
1.024795 69.352963 69.400570
Lo cual se corrobora con el valor obtenido para el NC:
CN(X)[1] 120.7897
Ignorando que conocemos los verdaderos valores de los coeficientes del modelo, la información disponible es la siguiente:
- El FIV y el NC indican que hay un problema de multicolinealidad grave, siendo sus responsables las variables \(\mathbf{v}\) y \(\mathbf{w}\).
- La estimación de los coeficientes de estas variables tienen una varianza pequeña, no parece estar inflada por el grado de multicolinealidad detectado. Es más, se tratan de coeficientes significativamente distintos de cero.
En definitiva, aparentemente hemos detectado un problema de multicolinealidad esencial entre dos variables, pero este problema parece no estar afectando al análisis del modelo.
Quizás la mejor estrategia sea no hacer nada.
Podríamos justificar que la varianza estimada de los coeficientes estimados depende de varios factores (ver O’Brien (2007) o Enlarging of the sample to address multicollinearity del blog DIM3AP para más detalles). Así, para la variable independiente \(\mathbf{X}_{i}\) se verifica que:
\[\widehat{var} \left( \widehat{\beta}_{i} \right) = \frac{\widehat{\sigma}}{n \cdot var \left( \mathbf{X}_{i} \right)} \cdot FIV_{i}.\] Todo apunta a que el valor de \(n=50\), un valor pequeño para la estimación de la varianza de la perturbación aleatoria \(\widehat{\sigma} = 2.081\) (que por cierto clava el verdadero valor) y unas varianzas de las variables independientes relativamente altas (como se muestra a continuación), están compensando los valores de los FIVs y que, por eso, no se ve afectado el análisis estadístico del modelo.
var(v)[1] 15.74435
var(w)[1] 14.89845
Pero sabemos que esta conclusión no es cierta o, al menos, no en su totalidad.
Rasquemos un poco más
El problema radica en que el FIV sólo detecta la multicolinealidad de tipo esencial, o dicho de otra forma, ignora la del tipo no esencial. Por lo que es conveniente usar más de una medida para determinar si los distintos tipos de multicolinealidad que puede haber son preocupantes.
Pero… nosotros hemos usado también el NC. Claro, pero la multicolinealidad que detecta la hemos asimilado con la detectada por el FIV.
Ahora bien, ¿hay algo que detecte el NC que no haga el FIV? Sí, claro, la multicolinealidad de tipo no esencial.
Entonces, ¿cómo podemos saber si la multicolinealidad detectada por el NC es de tipo esencial o no esencial? Muy sencillo, mirando las proporciones de la descomposición de la varianza recogida, por ejemplo, en Belsley, Kuh y Welsch (1980).
¿Y hay algún paquete de R que la calcule? Pues lo había, el paquete perturb permitía calcular esta descomposición a partir del comando colldiag. Sin embargo, actualmente este paquete no está disponible para su uso.
¿Qué podemos hacer? Si queremos seguir usando R, una primera posibilidad es calcular el NC sin tener en cuenta el término independiente y compararlo con el que se obtiene cuando sí se considera a éste en el cálculo. Esto es posible hacerlo con el paquete multiColl como sigue:
CNs(X)$`Condition Number without intercept`
[1] 23.10346
$`Condition Number with intercept`
[1] 120.7897
$`Increase (in percentage)`
[1] 80.87299
Se observa que el incremento que experimenta el NC cuando se incorpora al cálculo el término independiente es considerable. Esto nos debería hacer pensar que tiene un papel relevante en el grado de multicolinealidad detectado por el NC.
Esto se confirma teniendo en cuenta la propuesta de Salmerón, Rodríguez y García (2020), donde se indica que una variable independiente con un coeficiente de variación (CV) inferior a 0.1 es reponsable de un problema de multicolinealidad no esencial:
CVs(X)[1] 0.0210607 1.1631593 1.6163836
Los resultados anteriores estarían indicando que la variable \(\mathbf{z}\) es responsable de un problema de este tipo al tener un coeficiente de variación igual a 0.021.
Cambio de escenario
Como acabamos de ver, el discurso inicial ha cambiado. Si observamos la estimación del modelo considerando la posibilidad de que el término independiente pueda estar involucrado en un problema de multicolinealidad podríamos pensar que su varianza estimada es elevada (aunque el coeficiente sea significativamente distinto de cero):
summary(reg)
Call:
lm(formula = y ~ z + v + w)
Residuals:
Min 1Q Median 3Q Max
-5.5621 -1.2720 -0.0077 1.2600 4.5086
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 35.2603 14.0770 2.505 0.01586 *
z -2.4029 2.8337 -0.848 0.40085
v -5.1658 0.6240 -8.279 1.15e-10 ***
w -1.8400 0.6417 -2.867 0.00623 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.081 on 46 degrees of freedom
Multiple R-squared: 0.9947, Adjusted R-squared: 0.9943
F-statistic: 2865 on 3 and 46 DF, p-value: < 2.2e-16
¿Qué podemos hacer a continuación? En el caso de la multicolinealdiad no esencial, la solución es muy sencilla, centrar la variable (o variables, si es más de una) que provoca el problema.
Pongamos en práctica esta solución y observemos los resultados obtenidos en comparación con los del modelo original:
z_c = z - mean(z)
reg_c = lm(y~z_c+v+w)
library(memisc)
mtable(reg, reg_c, summary.stats=c("N", "sigma", "R-squared", "F"))
Calls:
reg: lm(formula = y ~ z + v + w)
reg_c: lm(formula = y ~ z_c + v + w)
=========================================
reg reg_c
-----------------------------------------
(Intercept) 35.260* 23.264***
(14.077) (0.694)
z -2.403
(2.834)
v -5.166*** -5.166***
(0.624) (0.624)
w -1.840** -1.840**
(0.642) (0.642)
z_c -2.403
(2.834)
-----------------------------------------
R-squared 0.995 0.995
sigma 2.081 2.081
F 2865.337 2865.337
N 50 50
=========================================
Significance: *** = p < 0.001;
** = p < 0.01;
* = p < 0.05
Vemos que los únicos cambios se relacionan con el término independiente, todo lo demás sigue exactamente igual (esto no es algo concreto de este ejemplo) a nivel numérico.
Además, calculando el FIV vemos que no cambia (esto ya lo sabíamos ya que no detecta la multicolinealidad de tipo no esencial y es la única que se ha tratado), mientras que el NC sí que ha disminuido (aunque sigue indicando la existencia de un problema):
X_c = model.matrix(reg_c)
VIF(X_c) z_c v w
1.024795 69.352963 69.400570
CNs(X_c)$`Condition Number without intercept`
[1] 10.86876
$`Condition Number with intercept`
[1] 23.25655
$`Increase (in percentage)`
[1] 53.26582
¿Y qué hacemos ahora? Podríamos argumentar que la multicolinealidad de tipo no esencial ha sido tratada y que la esencial no afecta al análisis por las razones ya comentadas. Es decir…
Conclusión A. En el modelo lineal se ha detectado un grado alto de multicolinealidad tanto de tipo no esencial como esencial. Se ha mitigado el primero centrando la variable que provocaba el problema y se ha justificado que el segundo no afecta al análisis estadístico del modelo, así que las relaciones lineales detectadas no afectan al análisis realizado.
Pero, en este caso, en el que conocemos los verdaderos valores de los coeficientes, sería hacernos trampas al solitario.
Es cierto que el término independiente en el modelo centrado ya no tiene por qué parecerse al 3 original, ya que ahora no es el valor de \(\mathbf{y}\) cuando \(\mathbf{z}\), \(\mathbf{v}\) y \(\mathbf{w}\) son iguales a cero, sino que es el valor de \(\mathbf{y}\) cuando \(\mathbf{z}\) es igual a su media y \(\mathbf{v}\) y \(\mathbf{w}\) son iguales a cero.
Pero, ¿qué ocurre con la estimación del coeficiente de \(\mathbf{z}\)? ¿El haber centrado esta variable justifica que su estimación no se parezca al valor original? Esto nos lleva a…
Conclusión B. En el modelo lineal se ha detectado un grado alto de multicolinealidad tanto de tipo no esencial como esencial. Se ha mitigado el primero centrando la variable que provocaba el problema y se ha justificado que el segundo no afecta al análisis estadístico del modelo, sin embargo, se tienen dudas razonables (o más bien ciertas) con los resultados obtenidos relacionados con la variable \(\mathbf{z}\).
Una regla de decisión para detectar la multicolinealidad preocupante
Claro, a la Conclusión B es factible llegar porque en este caso conocemos los verdaderos valores de los coeficientes de las variables independientes. Pero, ¿y si esto no ocurre? (que es lo habitual).
¿Hay alguna forma de llegar a la segunda conclusión sin necesidad de estar tan metido en el problema de la multicolinealidad?
Esta pregunta nos devuelve al principio: ¿qué se cuenta en el trabajo “rvif: a Decision Rule to Detect Troubling Statistical Multicollinearity Based on Redefined VIF”?
Dicho trabajo se basa en la redefinición del factor de inflación de la varianza (RFIV) propuesta en Salmerón, García y García (2024) donde, modificando el modelo ortogonal de referencia, se obtiene una redefinición del FIV (échale un vistazo a esta entrada A Redefined Variance Inflation Factor del blog DIM3AP para una breve ilustración del uso de esta medida).
El punto de partida es claro:
La multicolinealidad es preocupante cuando afecta al análisis estadístico del modelo, es decir, cuando las decisiones tomadas a partir de los contrastes de significación individual se ven afectadas por el grado de multicolinealidad.
Y la principal aportación consiste en determinar cuándo ocurre:
Se considera que ocurre lo anterior cuando la hipótesis nula de los contrastes de significación individual no se rechaza cuando se tienen en cuenta las relaciones lineales (modelo original), pero sí se rechaza cuando no se tienen en cuenta (modelo ortonormal tomado de referencia que conduce al RFIV). En este caso, cabe concluir que las relaciones lineales influyen en el análisis estadístico del modelo.
Bueno, quizás la principal aportación sea realmente cuantificar la situación anterior.
¿Cuándo no se rechaza la hipótesis nula en el modelo original? Cuando el valor experimental, \(t_{exp}\), es menor que el teórico, \(t_{n-k}(1-\alpha/2)\).
¿Cuándo se rechaza la hipótesis nula en el modelo ortogonal de referencia? Cuando el valor experimental, \(t_{exp,O}\), es mayor que el teórico, \(t_{n-k}(1-\alpha/2)\).
Reescribiendo ambos valores experimentales en términos del RFIV, la definición de multicolinealidad preocupante en términos de efectos nocivos sobre el análisis estadístico del modelo conduce al siguiente resultado:
Teorema. Dado el modelo de regresión lineal múltiple \(\mathbf{y} = \mathbf{X} \cdot \boldsymbol{\beta} + \mathbf{u}\) para \(n\) observaciones y \(k\) variables independientes, donde \(\mathbf{u}\) es la perturbación aleatoria que se presupone esférica y con varianza igual a \(\sigma^{2}\), el grado de multicolinealidad existente afecta a su análisis estadístico al nivel de significación del \(\alpha\)%, si existe una variable \(i\), con \(i=1,\dots,k\), que verifica que \(RFIV(i) > max \{c_{0}(i), c_{3}(i) \}\) donde: \[c_{0}(i) = \left( \frac{\widehat{\beta}_{i}}{\widehat{\sigma} \cdot t_{n-k}(1-\alpha/2)} \right)^{2},\] \[c_{3}(i) = \left( \frac{t_{n-k}(1-\alpha/2)}{\widehat{\beta}_{i,o}} \right)^{2} \cdot \widehat{var} \left( \widehat{\beta}_{i} \right),\] siendo \(\widehat{\beta}_{i}\) y \(\widehat{\beta}_{i,o}\) las estimaciones del coeficiente \(\beta_{i}\) en el modelo original y ortonormal, \(t_{n-k}(1-\alpha/2)\) el punto de una t de Student con \(n-k\) grados de libertad que deja por debajo suya una probabilidad \(1-\alpha/2\) y \(\widehat{var} \left( \widehat{\beta}_{i} \right)\) la estimación de la varianza de \(\widehat{\beta}_{i}\).
¿Y este resultado es fácil de aplicar?
Volvamos al ejemplo
Pues sí, usando el comando multicollinearity del paquete rvif se obtienen los resultados que permiten aplicar el Teorema presentado anteriormente:
library(rvif)
multicollinearity(y, X) RVIFs c0 c3 Scenario Affects
1 45.75056570 70.8444011 0.007909221 a.1 No
2 1.85393974 0.3290110 1.659082660 b.1 Yes
3 0.08989679 1.5206009 0.000042436 a.1 No
4 0.09506613 0.1929152 0.046847365 a.1 No
En este caso se observa que el grado de multicolinealidad está afectando al contraste de significación individual de la variable \(\mathbf{z}\), luego se ha de considerar que es preocupante y tomar medidas al respecto.
¿Y cuáles son esas medidas? El análisis tradicional del FIV y NC complementado con el CV, nos dice que hay que centrar la variable que provoca el problema de multicolinealidad no esencial detectada. Pero…
multicollinearity(y, X_c) RVIFs c0 c3 Scenario Affects
1 0.11114244 30.8388534 1.921397e-05 a.1 No
2 1.85393974 0.3290110 1.659083e+00 b.1 Yes
3 0.08989679 1.5206009 4.243600e-05 a.1 No
4 0.09506613 0.1929152 4.684737e-02 a.1 No
En el modelo con la variable \(\mathbf{z}\) centrada se indica que persiste el problema: el contraste de significación individual asociado a la variable \(\mathbf{z}\) centrada está afectado por el grado de multicolinealidad existente en el modelo.
Lo anterior nos lleva a la conclusión B: nos fiamos del análisis estadístico realizado a excepción de lo relacionado con la segunda variable.
Y, a lo mejor, sí que hay que tratar la multicolinealidad esencial…
Conclusiones
Tradicionalmente se considera que la multicolinealidad existente en un modelo de regresión lineal es preocupante cuando se presentan estos síntomas:
Al efectuar los contrastes de significación individual no se rechazará la hipótesis nula, mientras que al realizar el constraste de significación conjunta sí (efectos nocivos sobre el análisis estadístico del modelo).
Las estimaciones de los coeficientes asociados a las variables independiente son sensibles a pequeños cambios en los datos (efectos nocivos sobre el análisis numérico del modelo).
Las líneas precedentes se centran en el primero de ellos. En este caso:
El FIV es la medida de detección a tener en cuenta, ya que es la responsable de inflar la varianza (como su propio nombre indica) y hacer que el valor experimental del contraste de significación individual sea bajo, dificultan el rechazo de la hipótesis nula.
Ahora bien, como se ha ilustrado, un FIV grande no implica que ocurra lo anterior necesariamente ya que hay otros elementos en la varianza estimada de los coeficientes que pueden compensarlo.
En definitiva, un FIV elevado (y por elevado se considera mayor que 10) no implica que aparezcan efectos nocivos sobre el análisis estadístico del modelo. Luego hay que huir de la regla simplificada de que valores del FIV superiores a 10 hagan encender todas las alarmas.
¿Cómo actuar entonces? Además de calcular el FIV (y otras medidas de detección como el NC, CV o cualquier otra más), en Salmerón, R. y García, C.B. (2026) se propone una regla de decisión que, a un nivel de significación dado, permite determinar si el análisis estadístico del modelo lineal está comprometido.
¿Y cúando el análisis estadístico del modelo lineal está comprometido? Cuando no se rechaza la hipótesis nula de nulidad en el contraste de significación individual del modelo original y sí se rechaza en el modelo ortogonal de referencia. En tal caso, se podría afirmar (al nivel de significación dado) que el motivo del no rechazo son las relaciones lineales incluidas en el modelo original que no están en el ortogonal de referencia.
Como futura línea de trabajo sería interesante analizar el segundo de ellos, es decir, cuándo el grado de multicolinealidad existente afecta al análisis numérico del modelo, entendiendo como análisis numérico a las estimaciones obtenidas por el método de mínimos cuadrados ordinarios. En el ejemplo considerado es evidente ya que se conocen los valores reales de los coeficientes, pero, ¿y si no se conocen?
Al final es comprobar aquello de que pequeños cambios en los datos pueden suponer importantes cambios en las estimaciones obtenidas (análisis numérico del modelo). Pero claro, esto ya lo habrán hecho Belsley, Kuh y Welsch (1980)…
Quizás habrá que revisitarlo teniendo presente algún resultado mostrado en Salmerón, García y Rodríguez (2025) sobre cambios experimentados en la estimación del término independiente cuando se perturban levemente las observaciones y el grado de multicolinealidad existente es leve.
Y si en los efectos nocivos del análisis estadístico el protagonista era el FIV, en el caso del análisis numérico el testigo ha de pasar al NC. Recordemos que esta herramienta surge en el ambiente del álgebra lineal para medir la inestabilidad de las soluciones de un sistema de ecuaciones lineales. Y los estimadores de los coeficientes del modelo son eso, las soluciones de un sistema de ecuaciones lineales.
Bibliografía (por orden de aparición)
Farrar, D.E y Glauber, R.R. (1967). Multicollinearity in regression analysis: the problem revisited. The Review of Economics and Statistics, 49(11), 92-107, doi: https://doi.org/10.2307/1937887.
Salmerón, R. y García, C.B. (2026). rvif: a decision rule to detect troubling statistical multicollinearity based on redefined VIF. The R Journal, 17(4), 193-216, doi: https://journal.r-project.org/articles/RJ-2025-040/.
Salmerón, R., Rodríguez, A. y García, C.B. (2020). Diagnosis and quantification of the non-essential collinearity. Computational Statistics, 35(2), 647-666, doi: https://doi.org/10.1007/s00180-019-00922-x.
Berk, K.N. (1977). Tolerance and condition in regression computations. Journal of the American Statistical Association. 72(360), 863-866, doi: https://doi.org/10.2307/2286476.
Salmerón, R., García, C.B. y García, J. (2022). multiColl: Collinearity Detection in a Multiple Linear Regression Model. R package version 2.0, url: https://CRAN.R-project.org/package=multiColl.
O’Brien, M. (2007). A caution regarding rules of thumb for variance inflation factors. Quality and quantity, 41(5), 673–690, doi: https://link.springer.com/article/10.1007/s11135-006-9018-6.
Belsley, D., Kuh, E. y Welsch, R. (1980). Regression Diagnostics. John Wiley and Sons, url: https://share.google/xIwMjiflGmDWZUkk5.
Salmerón, R., García, C.B. y García, J. (2024). A redefined Variance Inflation Factor: overcoming the limitations of the Variance Inflation Factor. Computational Economics, 65, 337-363, doi: https://doi.org/10.1007/s10614-024-10575-8.
Salmerón, R. y García, C.B. (2025). rvif: Collinearity Detection using Redefined Variance Inflation Factor and Graphical Methods. R package version 3.2, url: https://CRAN.R-project.org/package=rvif, https://www.ugr.es/~romansg/rvif/articles/The_rvif_package.html.
Salmerón, R., García, C.B. y Rodríguez, A. (2025). Enlarging of the sample to address multicollinearity. Computational Economics, 67, 1877-1899, doi: https://doi.org/10.1007/s10614-025-10920-5.