【メモ】どうやって過学習を防ぐか、汎化性能を上げるか、勾配爆発・消失を防ぐか

・自分で検索する時のタグ的なもの
深層学習、ディープラーニング、機械学習
勾配爆発、勾配発散、勾配消失、汎化性能

個人的なリンク集のようなものです。
　
実装はKetasのSequencialモデルベースを基本的には想定

・基本
TensorFlow公式の解説
"過学習と学習不足について知る"
過学習と学習不足について知る | TensorFlow Core

・weight decay （正則化）
[DL]weight decayって何？ - Qiita
How to Use Weight Decay to Reduce Overfitting of Neural Network in Keras

・勾配クリッピング（これは過学習の抑制につながるのかは現状理解してない）
DNNの基礎知識についてのまとめ - Deep Learning 脱初心者めざして
↑ベージ全体もキーワードを拾う感じで、目を通しておきたい
How to Avoid Exploding Gradients With Gradient Clipping

・以下はLSTMの話
How to use Dropout and BatchNormalization in LSTM Networks (Keras) - Stack Overflow
python - Where do I call the BatchNormalization function in Keras? - Stack Overflow

LSTMだと、LSTMレイヤの中でのdropoutを指定するキーワード引数がある。
あと、BatchNormalizationはLSTMに限らないが、Denseなどの場合は、Activaion関数のレイヤを分けて、その間に入れるのが正しい？
BatchNormalizationをモデルに組み込む - Qiita

・勾配爆発・消失
勾配消失問題と勾配爆発問題～原因と解決策～ | マサムネの部屋

・その他参考
BatchNormalizationの解説と、Dropoutなども併せて考えた時にどう使うとよさそうか
Deep LearningにおけるBatch Normalizationの理解メモと、実際にその効果を見てみる - Qiita

過学習抑制「Weight Decay」はSGDと相性が良く、Adamと良くない？／Neural Network Consoleの使い方 - "BOKU"のITな日常
 誰でもわかるニューラルネットワーク：正則化をテンソルフロープレイグラウンドで試してみた - Qiita
Batch Normalization：ニューラルネットワークの学習を加速させる汎用的で強力な手法 - DeepAge
各種正則化から転移学習まで。tensorflowソースコードで見るDL性能改善手法まとめ(ver 2) - Qiita
今更聞けないディープラーニングの話【ユニット・層・正則化・ドロップアウト】 - HELLO CYBERNETICS

Ryoの開発日記 Neo!

Shut the iron doors on the past and the future.

Live in Day-tight Compartments.

【メモ】どうやって過学習を防ぐか、汎化性能を上げるか、勾配爆発・消失を防ぐか