close Warning: Can't synchronize with repository "(default)" (/var/svn/mms does not appear to be a Subversion repository.). Look in the Trac log for more information.

Changes between Version 17 and Version 18 of Multicollinearity


Ignore:
Timestamp:
Jun 7, 2012, 11:46:52 AM (13 years ago)
Author:
Claudia Escalonilla
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • Multicollinearity

    v17 v18  
    99== Introducción ==
    1010
    11 ''__Por hacer:__ Llevar las ecuaciones a LaTeX y pulir algunas ideas que están sueltas, incluir referencias.''
    12 
    13 Cuando modelamos una variable output [[LatexEquation(Y)]] en función de un regresor lineal múltiple [[LatexEquation(X\beta)]] debemos prestar atención a la presencia de multicolinealidad. [[BR]]
     11Cuando modelamos una variable output [[LatexEquation(Y)]] en función de un regresor lineal múltiple [[LatexEquation(X\beta)]] debemos prestar atención a la presencia de multicolinealidad de las variables explicativas (inputs). [[BR]]
    1412La multicolinealidad se presenta cuando las columnas (inputs) de [[LatexEquation(X)]] son linealmente dependientes o existe una alta correlación lineal en un subconjunto de las mismas.
    1513
    1614Un grado de multicolinealidad puede conducirnos a una matriz inestable numéricamente y el método de estimación puede fallar. [[BR]]
    17 Por otra parte, incluso teniendo éxito en la estimación los resultados arrojarán un conjunto de parámetrosa a partir de los cuales las interpretaciones serán inexactas, es decir, será difícil sustentar el discurso ''"variando un input mientras el resto se mantiene fijo"'' ya que ante una alta correlación lineal es imposible variar un input que depende linealmente de otros manteniendo éstos fijos.
     15Por otra parte, incluso teniendo éxito en la estimación los resultados arrojarán un conjunto de parámetros a partir de los cuales las interpretaciones serán inexactas, es decir, los parámetros que se obtengan serán en general poco precisos, la relación entre regresores hace difícil cuantificar con precisión el efecto que cada regresor(input) ejerce sobre el regresando(output), lo que determina que las varianzas de los parámetros sean elevadas. Entonces, ante una alta correlación lineal es imposible variar un input que depende linealmente de otros manteniendo éstos fijos.
    1816
    1917En relación a la multicolinealidad se nos presentan dos problemas:
    2018
    21  1. '''Singularidad numérica''': Imposibilidad de estimar.
     19 '''1. Singularidad numérica''': Imposibilidad de estimar.
    2220
    23  2. '''Quasi-singularidad numérica''': Difícil interpretación y significatividad baja de los parámetros, perturbaciones pequeñas en los inputs provocan variaciones grandes en los parámetros.
     21 '''2. Quasi-singularidad numérica''': Difícil interpretación y significatividad baja de los parámetros, perturbaciones pequeñas en los inputs provocan variaciones grandes en los parámetros.
    2422
    25 El primero de los problemas es fácil de detectar: no podemos estimar.
     23El primero de los problemas es fácil de detectar: no podemos estimar. Sin embargo, el segundo de los problemas es más sutil pues incluso podemos tener unas estimaciones donde el ajuste del modelo es bueno.
    2624
    27 El segundo de los problemas es más sutil pues incluso podemos tener unas estimaciones donde el ajuste del modelo es bueno.
     25Por lo tanto, en presencia de una matriz singular A necesitamos emplear métodos robustos como la '''Descomposición en valores singulares: SVD'''[[BR]]
     26A partir de la SVD podemos obtener los p valores propios ordenados:[[BR]]
     27        [[LatexEquation(\lambda_1<\lambda_2< ... <\lambda_p)]] [[BR]]
     28Cuando [[LatexEquation(\lambda_1=0)]] o [[LatexEquation(\lambda_1\sim 0)]] se tiene que, la matriz es singular o está muy cercana a la singularidad.
    2829
    29 En presencia de una matriz singular necesitamos emplear métodos robustos como la ''descomposición en valores singulares:'' [[LatexEquation(SVD)]]. [[BR]]
    30 A partir de la [[LatexEquation(SVD)]] podemos obtener los p valores propios [[LatexEquation(\lambda_1<\lambda_2< ... <\lambda_p)]], y así, cuando [[LatexEquation(\lamda_1=0)]] o [[LatexEquation(\lamda_1\sim 0)]] se tiene que la matriz es singular o está muy cercana a la singularidad. [[BR]]
    31 También se suele analizar el número de condición [[LatexEquation(K(A) = \sqrt{\frac{\lambda_p}{\lambda_1}})]] que tiende a infinito cuando [[LatexEquation(\lambda_1)]] tiende a 0.
     30Un procedimiento de detección de multicolinealidad consiste en analizar el '''Número de condición: K(A)''' [[BR]]
     31        [[LatexEquation(K(A) = \sqrt{\frac{\lambda_p}{\lambda_1}})]] [[BR]]
     32se tiene que: [[BR]] 
     33        [[LatexEquation(K(A) \underset{\lambda_1\rightarrow 0}{\rightarrow} \infty)]]
    3234
    33 La [[LatexEquation(SVD)]] también puede emplearse para determinar subconjuntos de variables con alta correlación .... ¿como? [[BR]]
    34 Observando los vectores propios asociados a los valores propios pequeños (cercanos a 0), éstos contienen los coeficientes de la combinación lineal (hay que mirar los coeficiente "distintos" de 0).
     35El problema de la multicolinealidad es grave cuando el número de condición toma un valor entre 20 y 30. Si este indicador supera el valor de 30, el problema sería ya manifiestamente grave.
    3536
    36 Para ''analizar el grado de multicolinealidad'' entre las columnas de A cuando A es no singular podemos calcular los estadísticos [[LatexEquation(VIF_i)]]  asociado a la columna [[LatexEquation(i)]]:
     37La SVD también puede emplearse para determinar subconjuntos de variables con alta correlación ... ¿Cómo? [[BR]]
     38Observando los vectores propios asociados a los valores propios próximos a 0. Éstos, contienen los coeficientes de la combinación lineal de las variables (hay que mirar los coeficientes "distintos" de 0).
     39
     40Otra forma de analizar el grado de multicolinealidad entre las columnas de A cuando es matriz no singular es calcular para todo [[LatexEquation(i)]] el estadístico '''Factor de inflación de la varianza''' [[LatexEquation(VIF_i)]]  asociado a la columna [[LatexEquation(i)]]:
     41
     42Ponemos cada variable [[LatexEquation(X_i)]] en función de las demas variables explicativas:
     43
     44  [[LatexEquation( X_i = cte + a_1X_1 + a_2X_2 + ... + a_{i-1}X_{i-1} + a_{i+1}X_{i+1} + ... + a_pX_p + e)]]
     45 
     46  [[LatexEquation( VIF_i = \frac{1}{1-R_i^2} )]]
     47
     48donde [[LatexEquation(R_i^2)]] es el coeficiente de determinación obtenido al efectuar la regresión de [[LatexEquation(X_i)]] sobre el resto de las variables regresoras.
     49
     50Estos estadísticos miden la razón entre la varianza observada y la que habría sido en caso de que [[LatexEquation(X_i)]] estuviera incorrelada con el resto de variables regresoras del modelo. [[BR]]
     51Entonces, valores grandes de [[LatexEquation(VIF)]] indican un grado de multicolinealidad alto, se suele usar [[LatexEquation(VIF_i>5)]]
    3752
    3853
    39 [[LatexEquation( X_i = cte + a_1X_1 + a_2X_2 + ... + a_{i-1}X_{i-1} + a_{i+1}X_{i+1} + ... + a_pX_p + e)]]
    40 [[LatexEquation( VIF_i = \frac{1}{1-R_i^2} )]]
     54== Propuestas de implementación en MMS ==
    4155
    42 
    43 Valores de [[LatexEquation(VIF)]] grandes indican grado de multicolinealidad alto, se suele usar [[LatexEquation(VIF_i>5)]]
    44 
    45 == Propuestas de implementación en MMS ==
    4656
    4757¿Qué ofrecemos en MMS en relación a la multicolinealidad?
     
    5060 - El cálculo de SVD y la selección de variables colineales según la tolerancia.
    5161
     62
     63
     64
    5265== CheckMulticollinearity ==
     66
    5367
    5468'''Implementación en MMS'''