본문 바로가기

Statistics

Generalized Linear Models (GLM)

Generalized Linear Models(GLM)

  • GLM은 일반적인 정규 회귀 모형을 비정규 반응 분포(nonnormal response distribution) 및 평균의 모델링 함수를 포함하도록 확장한 것이다.
  • GLM의 3가지 구성 요소 : 
    - Random Component : 반응변수 $Y$와 그의 확률분포를 규정해야 함.
    - Systematic Component : 선형 예측 함수에 사용되는 반응변수를 규정
    - Link Function : 모형이 Systematic component와 같다고 둘 $E(Y)$의 함수를 규정함.
  • Random Component : GLM의 Random component는 natural exponential family에 속하는 분포로부터 나온 독립적인 관측치 $(y_1, \cdots, y_N)$을 갖는 반응변수 $Y$로 구성된다. 
    $$ f(y_i ; \theta_i) = a(\theta_i)b(y_i)\exp[y_i Q(\theta_i)] $$
    Term $Q(\theta_i)$ is called the natural parameter.
    Example:
    (1) $Y \sim Normal$
    (2) $Y \sim B(n, p)$
    (3) $Y \sim Poisson$
    - proof for binomial family : $$ \begin{aligned} f(x|p) &= \binom{n}{x} p^x(1-p)^{n-x} I_{x \in \{0, 1, \cdots n\}} \\ &= \binom{n}{x} \big(\frac{p}{1-p}\big)^{x} (1-p)^n I_{x \in \{0, 1, \cdots n\}} \\
    &= \binom{n}{x} (1-p)^n e^{x \log \frac{p}{1-p}} I_{x \in \{0, 1, \cdots n\}}. \end{aligned}$$ Writing $a(p) = (1-p)^n, b(x) = \binom{n}{x}I_{x \in \{0, 1, \cdots n\}}, Q(p) = \log\frac{p}{1-p}$

  • Systematic Component : GLM의 Systemetic component는 벡터 $\boldsymbol{\eta} = (\eta_1, \cdots \eta_N)$를 선형함수를 사용해 설명변수들과 연결시킨다.