CS231n 7강 요약

Neural Network를 Training 시킬 때, 고려해야 하는 것들을 추가적으로 알아보자!

0. Today’s Goal

Optimization의 여러가지 기법들

Regularization

Transfer Learning

1. 강의 및 강의 자료

강의를 들어볼 수 있는 링크와 강의 자료를 pdf형식으로 준비했다.

강의 링크 : video
강의 슬라이드 : 슬라이드

한글 자막이 필요하신 분은 다음의 링크를 확인해주세요. :)

한글 자막을 첨부하고 싶으면 여기를 눌러주세요.

2. Optimization의 여러가지 기법들

다양한 Optimization Algorithm 소개

지금까지 배운 최적화 기법은 SGD Algorithm이 있다.
간단하게 SGD Algorithm에 대해 설명해보면,

Mini batch 안에 있는 data의 loss를 계산

Gradient의 반대 방향을 이용하여 update를 한다.

1번과 2번 과정을 계속해서 반복한다.

하지만 SGD Algorithm에는 문제점이 존재하는데,

Loss의 방향이 한 방향으로만 빠르게 바뀌고 반대 방향으로는 느리게 바뀐다면 어떻게 될 것인가?

이렇게 불균형한 방향이 존재한다면 SGD는 잘 동작하지 않는다.

Local minima나 saddle point의 빠지면 어떻게 될 것인가?

최솟값이 더 있는데 local minima에 빠져서 나오지 못하거나,
기울기가 완만한 구간에서 update가 잘 이루어지지 않을 수 있다.

Minibatches에서 gradient의 값이 노이즈 값에 의해 많이 변할 수 있다.

그림처럼 꼬불꼬불한 형태로 gradient 값이 update 될 수 있다.

위와 같은 문제점들을 해결하기 위해서 Momentum이라는 개념을 도입한다.

Momentum이란 자기가 가고자 하는 방향의 속도를 유지하면서 gradient update를 진행하는 것을 말한다.

momentum을 추가하는데 기존에 있는 momentum과는 다르게 순서를 바꾸어 update를 시켜주는 방법도 있는데 Nesterov Momentum이라고 한다.

식의 의미를 잘 이해하진 못했지만,
강의에서는 현재 / 이전의 velocity 간의 에러 보정이 추가되었다고 설명했다.

기존의 SGD, SGD+Momentum, Nesterov의 결과값을 한 번 비교해보면,

좀 더 Robust하게 algorithm이 작동하는 것을 볼 수 있다.

Velocity term 대신에 grad squared term을 이용하여
gradient를 update하는 방법도 제안되었는데,

이 방법은 AdaGrad라고 부른다.

AdaGrad는 학습률을 효과적으로 정하기 위해 제안된 방법이다.

grad squared term를 추가하게 되면, 각각의 매개변수에 맞춤형으로 값을 정해줄 수 있다.

이러한 방식으로 update를 계속 진행하게 되면,
small dimension에서는 가속도가 늘어나고,
large dimension에서는 가속도가 줄어드는 것을 볼 수 있다.

그리고 시간이 지나면 지날수록 step size는 점점 더 줄어든다.

이 방법에서 또 하나가 추가가 되어 decay_rate라는 변수를 통해서
step의 속도 가 / 감속을 할 수 있는 방법이 제안되었는데,

이 방법을 RMSProp이라고 한다.

RMSProp는 AdaGrad의 단점을 보완한 방법이다.

과거의 모든 기울기를 균일하게 반영해주는 AdaGrad와 달리,
RMSProp은 새로운 기울기 정보에 대하여 더 크게 반영하여 update를 진행한다.

정말 수많은 알고리즘들이 제안되었는데,
이제 대중적으로 널리 쓰이고 있는 Adam에 대해서 알아보자.

Adam은 쉽게 생각하면 momentum + adaGrad 라고 생각하면 된다.

초기화를 잘 해주어야 하기 때문에, bias correction을 추가하여
초기화가 잘 되도록 설계해 주었다.

앞선 알고리즘과 한번 비교를 해보면,

음.. Adam이 제일 대중적으로 쓰인다고 했는데
여기 보여준 예제에서는 좀 멀~리 돌아서 update가 된 것 같긴하다.

최적화 기법은 상황에 따라 최적의 최적화 기법이 모두 다르다!

지금까지 보여준 최적화 알고리즘은
모두 Learning rate를 hyperparameter로 가지고 있다.

Learning rate decay도 있지만
처음에는 없다고 생각하고 딥러닝 모델을 설계한 다음,
나중에 고려해주도록 하자.

First-Order & Second-Order Optimization

일차 함수로 근사화를 시켜 최적화를 시킬 때는 멀리 갈 수 없다는 단점이 있다.

이차 함수로 근사화를 시킬때는 주로 테일러 급수를 이용해서 근사화를 시킨다.
이러한 방법으로 update를 시키면 기본적으로 learning rate를 설정해 주지 않아도 된다는 장점이 있다. (No Hyperparameters!)
하지만 복잡도가 너무 크다는 단점이 있다.