Deep Learning
Gradient Descent
sara2601
2022. 6. 26. 11:53
본 포스트는 Andrew Ng의 강의를 듣고 요약했습니다. 추가로 연결지어 보면 좋은 부분을 함께 정리할 예정입니다.
02. Gradient Descent
- Recap : Logistic Regression algorithm
- Cost function : $$J(w, b) = \frac{1}{m} \sum_{i=1}^m L(\hat{y}^{(i)}, y^{(i)}) = -\frac{1}{m} \sum_{i=1}^m [y^{(i)}\log\hat{y}^{(i)} + (1-y^{(i)}) \log (1-\hat{y}^{(i)})]$$ -> 매개변수 w와 b가 훈련 set을 잘 예측하는지 봄.
-> $J(w,b)$를 가장 작게 하는 $w,b$를 찾는 것을 원함. - Gradient Descent Illustration:
Cost function $J(w,b)$는 가로축 $w, b$위의 곡면이고, 곡면의 높이는 그 점의 $J(w,b)$값을 나타냄. 여기서 비용함수 J의 최솟값에 해당하는 $w, b$를 찾아야 하는 것.
- Convex function : 볼록함수. Cost function이 convex라는 것이 로지스틱 회귀에 위의 Cost function을 쓴 가장 큰 이유임.
- Gradient Descent :
- 1차원 상에서 경사하강법을 생각해 보자.
- Repeat $\{ w := w - \alpha \frac{\partial J(w)}{\partial w} \}, \alpha = \textrm{ learning rate }$
- step size / learning rate : $\alpha$
- 미분계수 $\frac{\partial J(w)}{\partial w}$ : 한 점에서 함수의 기울기
- 따라서, 경사하강법은 초기값(initial value)로부터 현재 시점에서의 기울기의 반대 방향으로 움직이며 global minimum을 찾아간다.
03. Derivatives - Intuition
- Slope(derivative) of $f(a)$ : $\frac{d f(a)}{da}$ = a를 아주 무한대로 작은 값을 움직였을 때 함수 f의 기울기 변화량.
< 나중에 전공 내용 추가하기>