Version 3 (modified by 10 years ago) (diff) | ,
---|
Modelo Lineal Generalizado (Generalized Linear Model)
Los modelos lineales generalizados (GLM) son una extensión de las regresiones o modelos lineales a través de una función, denominada "función de enlace".
En los modelos GLM se asume que la variable dependiente Y
está generada por una función de distribución de la familia exponencial. La media M
de la distribución depende de las variables independientes X
}, a través de la fórmula:
E(Y) = M = InvG(B'X)
donde B'X
es el "predictor lineal", B
la matriz de parámetros y InvG
la inversa de la función de enlace.
Para más detalles, véase el artículo sobre el modelo lineal genearalizado en es.wikipedia.org.
Modelo Logit
La función de enlace del modelo logit es:
Logit(p) = Log(p/(1-p))
y su inversa:
InvLogit(z) = 1/(1+Exp(-z)) = Exp(z)/(Exp(z)+1)
Verosimilitud y derivadas
Log-Likelihood
El logaritmo de la verosimilitud (log-likelihood) es:
LogL = Sum_i( Y_i*Log(P_i) + (1-Y_i)*Log(1-P_i) )
donde el subíndice i
hace referencia a la i
-ésima observación.
Teniendo en cuenta que la probabilidad de la i
-ésima observación viene dada por:
P_i = InvLogit(B'X_i) = 1/(1+Exp(-B'X_i))
podemos escribir:
LogL = Sum_i( Y_i*Log(1/(1+Exp(-B'X_i))) + (1-Y_i)*Log(1-1/(1+Exp(-B'X_i))) ) = = - Sum_i( Y_i*Log(1+Exp(-B'X_i)) + (1-Y_i)*Log(1+Exp(B'X_i)) )
Gradient
La primera derivada respecto a la matriz de parámetros (B
) es el gradiente del logaritmo de la verosimilitud:
G(B) = d(LogL(B))/dB = = - Sum_i( Y_i*Exp(-B'X_i)*(-X_i)/(1+Exp(-B'X_i)) + (1-Y_i)*Exp(B'X_i)*X_i/(1+Exp(B'X_i)) ) = = Sum_i( Y_i*X_i/(1+Exp(B'X_i)) - (1-Y_i)*X_i/(1+Exp(-B'X_i)) ) = = Sum_i( ( Y_i/(1+Exp(B'X_i)) - (1-Y_i)/(1+Exp(-B'X_i)) ) * X_i )
Hessian
La segunda derivada respecto a la matriz de parámetros (B
) es la hessiana del logaritmo de la verosimilitud:
H(B) = d^2(LogL(B))/(dB dB') = = Sum_i( ( Y_i*Exp(B'X_i)/(1+Exp(B'X_i))^2 - (1-Y_i)*Exp(-B'X_i)/(1+Exp(-B'X_i))^2 ) * X_i * X'_i ) = = Sum_i( Exp(B'X_i)/(1+Exp(B'X_i))^2 * X_i * X'_i )