論文 "DEEP NEURAL NETWORKS AS GAUSSIAN PROCESSES" に少し目を通した

いきなり読んでも意味不明なので、掲題の論文をネタ元にしている
machine-learning.hatenablog.com
を読んで可能な限り理解を深めた後で、掲題の論文の肝心そうなところに目を通した。

"DEEP NEURAL NETWORKS AS GAUSSIAN PROCESSES"
Jaehoon Lee, Yasaman Bahri, Roman Novak , Samuel S. Schoenholz,
Jeffrey Pennington, Jascha Sohl-Dickstein (members of Google Brain) , ICLR 2018
https://arxiv.org/pdf/1711.00165.pdf

あるディープなL層のNNがあった時に、最終的にはそれに対応するガウス過程(以降GP)での回帰をするための共分散行列K{L} (カーネル?) を作れば、それで同じように学習・推論できるで、って話のようだ。
で、その最終的な共分散行列K{L}を得るためには (論文の2.5節参照) 、ざっくり言うと、NNを一段目から追って行って、それに合わせて F(ラージエフ) なる行列を求めて、それをなんかよくわからんけどよろしくそこまでに求めた共分散行列K{l - 1} (lはその時計算している?層)に反映していくというステップをL回やる、と。
あとは、GPでの普通のやり方?で K{L} を使って学習・推論(回帰?)すればよろしい、と。
で、この論文の contribution の一つは上の記事にも書いてあるけど、GPでの推論(回帰)に必要な共分散行列を、一つの共分散行列 K{l} に集約させることで、学習も推論もおおむね行列演算一発 (実際には一回では済まないけど、複数のKを扱う必要はない) ようにしたってことらしい。
 
評価に置いては、MNISTとCIFARに対するDNNと、それらに対応するGPのカーネル?モデル?を構成して、それでモデルの評価をしたら、DNNよりパフォーマンス良いときもあったで、とか書いてるので、結構まともな(?)DNNについても、対応するモデルが構成できるっぽい、です。
 
まあ、ちゃんと理解できたとは思わないですが、こんな感じでした。

しかし、GPって遺伝的プログラミング?って思っちゃうので、どっちか略記を変えた方がいいのではないかと思う(暴論)。