close
Warning:
Can't synchronize with repository "(default)" (/var/svn/mms does not appear to be a Subversion repository.). Look in the Trac log for more information.
- Timestamp:
-
Jun 7, 2012, 11:46:52 AM (13 years ago)
- Author:
-
Claudia Escalonilla
- Comment:
-
--
Legend:
- Unmodified
- Added
- Removed
- Modified
-
v17
|
v18
|
|
9 | 9 | == Introducción == |
10 | 10 | |
11 | | ''__Por hacer:__ Llevar las ecuaciones a LaTeX y pulir algunas ideas que están sueltas, incluir referencias.'' |
12 | | |
13 | | Cuando modelamos una variable output [[LatexEquation(Y)]] en función de un regresor lineal múltiple [[LatexEquation(X\beta)]] debemos prestar atención a la presencia de multicolinealidad. [[BR]] |
| 11 | Cuando modelamos una variable output [[LatexEquation(Y)]] en función de un regresor lineal múltiple [[LatexEquation(X\beta)]] debemos prestar atención a la presencia de multicolinealidad de las variables explicativas (inputs). [[BR]] |
14 | 12 | La multicolinealidad se presenta cuando las columnas (inputs) de [[LatexEquation(X)]] son linealmente dependientes o existe una alta correlación lineal en un subconjunto de las mismas. |
15 | 13 | |
16 | 14 | Un grado de multicolinealidad puede conducirnos a una matriz inestable numéricamente y el método de estimación puede fallar. [[BR]] |
17 | | Por otra parte, incluso teniendo éxito en la estimación los resultados arrojarán un conjunto de parámetrosa a partir de los cuales las interpretaciones serán inexactas, es decir, será difícil sustentar el discurso ''"variando un input mientras el resto se mantiene fijo"'' ya que ante una alta correlación lineal es imposible variar un input que depende linealmente de otros manteniendo éstos fijos. |
| 15 | Por otra parte, incluso teniendo éxito en la estimación los resultados arrojarán un conjunto de parámetros a partir de los cuales las interpretaciones serán inexactas, es decir, los parámetros que se obtengan serán en general poco precisos, la relación entre regresores hace difícil cuantificar con precisión el efecto que cada regresor(input) ejerce sobre el regresando(output), lo que determina que las varianzas de los parámetros sean elevadas. Entonces, ante una alta correlación lineal es imposible variar un input que depende linealmente de otros manteniendo éstos fijos. |
18 | 16 | |
19 | 17 | En relación a la multicolinealidad se nos presentan dos problemas: |
20 | 18 | |
21 | | 1. '''Singularidad numérica''': Imposibilidad de estimar. |
| 19 | '''1. Singularidad numérica''': Imposibilidad de estimar. |
22 | 20 | |
23 | | 2. '''Quasi-singularidad numérica''': Difícil interpretación y significatividad baja de los parámetros, perturbaciones pequeñas en los inputs provocan variaciones grandes en los parámetros. |
| 21 | '''2. Quasi-singularidad numérica''': Difícil interpretación y significatividad baja de los parámetros, perturbaciones pequeñas en los inputs provocan variaciones grandes en los parámetros. |
24 | 22 | |
25 | | El primero de los problemas es fácil de detectar: no podemos estimar. |
| 23 | El primero de los problemas es fácil de detectar: no podemos estimar. Sin embargo, el segundo de los problemas es más sutil pues incluso podemos tener unas estimaciones donde el ajuste del modelo es bueno. |
26 | 24 | |
27 | | El segundo de los problemas es más sutil pues incluso podemos tener unas estimaciones donde el ajuste del modelo es bueno. |
| 25 | Por lo tanto, en presencia de una matriz singular A necesitamos emplear métodos robustos como la '''Descomposición en valores singulares: SVD'''[[BR]] |
| 26 | A partir de la SVD podemos obtener los p valores propios ordenados:[[BR]] |
| 27 | [[LatexEquation(\lambda_1<\lambda_2< ... <\lambda_p)]] [[BR]] |
| 28 | Cuando [[LatexEquation(\lambda_1=0)]] o [[LatexEquation(\lambda_1\sim 0)]] se tiene que, la matriz es singular o está muy cercana a la singularidad. |
28 | 29 | |
29 | | En presencia de una matriz singular necesitamos emplear métodos robustos como la ''descomposición en valores singulares:'' [[LatexEquation(SVD)]]. [[BR]] |
30 | | A partir de la [[LatexEquation(SVD)]] podemos obtener los p valores propios [[LatexEquation(\lambda_1<\lambda_2< ... <\lambda_p)]], y así, cuando [[LatexEquation(\lamda_1=0)]] o [[LatexEquation(\lamda_1\sim 0)]] se tiene que la matriz es singular o está muy cercana a la singularidad. [[BR]] |
31 | | También se suele analizar el número de condición [[LatexEquation(K(A) = \sqrt{\frac{\lambda_p}{\lambda_1}})]] que tiende a infinito cuando [[LatexEquation(\lambda_1)]] tiende a 0. |
| 30 | Un procedimiento de detección de multicolinealidad consiste en analizar el '''Número de condición: K(A)''' [[BR]] |
| 31 | [[LatexEquation(K(A) = \sqrt{\frac{\lambda_p}{\lambda_1}})]] [[BR]] |
| 32 | se tiene que: [[BR]] |
| 33 | [[LatexEquation(K(A) \underset{\lambda_1\rightarrow 0}{\rightarrow} \infty)]] |
32 | 34 | |
33 | | La [[LatexEquation(SVD)]] también puede emplearse para determinar subconjuntos de variables con alta correlación .... ¿como? [[BR]] |
34 | | Observando los vectores propios asociados a los valores propios pequeños (cercanos a 0), éstos contienen los coeficientes de la combinación lineal (hay que mirar los coeficiente "distintos" de 0). |
| 35 | El problema de la multicolinealidad es grave cuando el número de condición toma un valor entre 20 y 30. Si este indicador supera el valor de 30, el problema sería ya manifiestamente grave. |
35 | 36 | |
36 | | Para ''analizar el grado de multicolinealidad'' entre las columnas de A cuando A es no singular podemos calcular los estadísticos [[LatexEquation(VIF_i)]] asociado a la columna [[LatexEquation(i)]]: |
| 37 | La SVD también puede emplearse para determinar subconjuntos de variables con alta correlación ... ¿Cómo? [[BR]] |
| 38 | Observando los vectores propios asociados a los valores propios próximos a 0. Éstos, contienen los coeficientes de la combinación lineal de las variables (hay que mirar los coeficientes "distintos" de 0). |
| 39 | |
| 40 | Otra forma de analizar el grado de multicolinealidad entre las columnas de A cuando es matriz no singular es calcular para todo [[LatexEquation(i)]] el estadístico '''Factor de inflación de la varianza''' [[LatexEquation(VIF_i)]] asociado a la columna [[LatexEquation(i)]]: |
| 41 | |
| 42 | Ponemos cada variable [[LatexEquation(X_i)]] en función de las demas variables explicativas: |
| 43 | |
| 44 | [[LatexEquation( X_i = cte + a_1X_1 + a_2X_2 + ... + a_{i-1}X_{i-1} + a_{i+1}X_{i+1} + ... + a_pX_p + e)]] |
| 45 | |
| 46 | [[LatexEquation( VIF_i = \frac{1}{1-R_i^2} )]] |
| 47 | |
| 48 | donde [[LatexEquation(R_i^2)]] es el coeficiente de determinación obtenido al efectuar la regresión de [[LatexEquation(X_i)]] sobre el resto de las variables regresoras. |
| 49 | |
| 50 | Estos estadísticos miden la razón entre la varianza observada y la que habría sido en caso de que [[LatexEquation(X_i)]] estuviera incorrelada con el resto de variables regresoras del modelo. [[BR]] |
| 51 | Entonces, valores grandes de [[LatexEquation(VIF)]] indican un grado de multicolinealidad alto, se suele usar [[LatexEquation(VIF_i>5)]] |
37 | 52 | |
38 | 53 | |
39 | | [[LatexEquation( X_i = cte + a_1X_1 + a_2X_2 + ... + a_{i-1}X_{i-1} + a_{i+1}X_{i+1} + ... + a_pX_p + e)]] |
40 | | [[LatexEquation( VIF_i = \frac{1}{1-R_i^2} )]] |
| 54 | == Propuestas de implementación en MMS == |
41 | 55 | |
42 | | |
43 | | Valores de [[LatexEquation(VIF)]] grandes indican grado de multicolinealidad alto, se suele usar [[LatexEquation(VIF_i>5)]] |
44 | | |
45 | | == Propuestas de implementación en MMS == |
46 | 56 | |
47 | 57 | ¿Qué ofrecemos en MMS en relación a la multicolinealidad? |
… |
… |
|
50 | 60 | - El cálculo de SVD y la selección de variables colineales según la tolerancia. |
51 | 61 | |
| 62 | |
| 63 | |
| 64 | |
52 | 65 | == CheckMulticollinearity == |
| 66 | |
53 | 67 | |
54 | 68 | '''Implementación en MMS''' |