민팽로그

optimizer 본문

머신러닝&딥러닝

optimizer

민팽 2021. 10. 1. 18:33

1. GD(Gradient Descent)

2. SGD(Se /gradient Descent)

3. momentum : 관성을 적용하여 GD, SGD가 0에 수렴하는 부분에서 끊임없이 진동하는 문제점을 보완

4. adagrad(adaptive gradient) : 고정된 학습률 값으로 인한 문제점을 해결

5. adam(adagrad + momentum)

 

Momentum

momentum: 관성

$$ v_{t}x(상수:0.9정도)=v_{t-1}+lr\nabla_{w}L(w) $$

$$ w_{t}=w_{t-1}-v_{t} $$

https://ynebula.tistory.com/26

 

[Deep Learning-딥러닝]가중치 조정 - Momentum

모멘텀은 신경망의 학습 안정성과 속도를 높여 학습이 잘 하려고 사용됩니다. 모멘텀 은 다음과 같이 가중치를 갱신할 때 델타 규칙에 모멘텀을 추가로 더합니다. 모멘텀을 사용하면 가중치 값

ynebula.tistory.com

 

AdaGrad

고정된 학습률 값으로 인한 문제점을 해결

$$ w_{t} = w_{t-1}-{12 \over \sqrt{G_{t}+\varepsilon}}\nabla G$$

$$ G_{t} = G_{t-1}-(\nabla_{w}L(w))^2 $$

https://light-tree.tistory.com/140

 

딥러닝 용어정리, Momentum, AdaGrad 설명

제가 공부한 내용을 정리하는 글입니다. 제가 나중에 다시 보기 위해 작성하는 것이므로 본문은 편의상 반말로 작성했습니다. 잘못된 내용이 있다면 지적 부탁드립니다. 감사합니다. Momentum Momen

light-tree.tistory.com

 

adam

adagrad + momentum

$$ w_{t}=w_{t-1}-{12 \over \sqrt{G_{t}+\varepsilon}}\widehat{v_{t}} $$

$$ \widehat{v_{t}}= {v_{t} \over 1-{\beta_{2}}^2} $$

$$ v_{t}=\beta_{1}v_{t-1}+(1-\beta_{2})\nabla_{w}L(w) $$

'머신러닝&딥러닝' 카테고리의 다른 글

10월 6일 언어 지능 실습  (0) 2021.10.06
10월 1일 언어 지능 실습  (0) 2021.10.02
9월 30일 언어 지능 실습  (0) 2021.10.01
9월 29일 언어 지능 실습  (0) 2021.09.29
9월 28일 언어 지능 실습 정리  (0) 2021.09.28
Comments