Gradient Descent

Deep Learning

sara2601 2022. 6. 26. 11:53

본 포스트는 Andrew Ng의 강의를 듣고 요약했습니다. 추가로 연결지어 보면 좋은 부분을 함께 정리할 예정입니다.

Recap : Logistic Regression algorithm
- Cost function : $$J(w, b) = \frac{1}{m} \sum_{i=1}^m L(\hat{y}^{(i)}, y^{(i)}) = -\frac{1}{m} \sum_{i=1}^m [y^{(i)}\log\hat{y}^{(i)} + (1-y^{(i)}) \log (1-\hat{y}^{(i)})]$$ -> 매개변수 w와 b가 훈련 set을 잘 예측하는지 봄.
-> $J(w,b)$를 가장 작게 하는 $w,b$를 찾는 것을 원함.
Gradient Descent Illustration:
Cost function $J(w,b)$는 가로축 $w, b$위의 곡면이고, 곡면의 높이는 그 점의 $J(w,b)$값을 나타냄. 여기서 비용함수 J의 최솟값에 해당하는 $w, b$를 찾아야 하는 것.
- Convex function : 볼록함수. Cost function이 convex라는 것이 로지스틱 회귀에 위의 Cost function을 쓴 가장 큰 이유임.

Slope(derivative) of $f(a)$ : $\frac{d f(a)}{da}$ = a를 아주 무한대로 작은 값을 움직였을 때 함수 f의 기울기 변화량.

< 나중에 전공 내용 추가하기>