最適化アルゴリズムの種類
最適化アルゴリズムとは、誤差が最小になるように重みを調整していくときに、なるべく早く誤差が少ない重みを見つけ出すためのアルゴリズムであり、その代表的なものを挙げる。
SDG(確率的勾配降下法 Stochastic Gradient Descent)
勾配降下法でランダムにシャッフルして指定したミニバッチ数ごとに重みを更新する。勾配が小さい方向に学習が進みにくく、学習時間大。
ここで、:学習率 :勾配
モメンタム
SDGでは勾配が小さい場合に学習が進まない場合があるため、勾配に速度 を足すことで勾配の大きさを調整する。
ここで、:モメンタム係数
ネステロフのモメンタム
モメンタムの改良版、更新した未来の勾配をもとに速度を更新する。
AdaGrad
初期値から大きく変わった重みはあまり更新しないように、動いた距離に応じて重み調整。勾配の2乗を累積し、大きくアップデートされたパラメータほど更新量を小さくする。
ここで、:初期学習係数
RMSprop
AdaGradの改良版、学習率の減少を解消する。過去の累積と最新情報を の比率で案分しながら累積。
ここで、:減衰率
Adam(Adaptive Momentum)
モメンタムとAdagrad/RMSpropを掛け合わせたもの。もっとも使われている。