【Need Help!】Keras(TensorFlowバックエンド)でのマルチコア・マルチプロセッサ並列化、GPU並列化はどんな実装になっているのだろう?

Keras(TensorFlowバックエンド)でのマルチコア・マルチプロセッサGPU(単体)での並列化によるアクセラレーションについてです。
 
モデルのサイズによっては効果が無い、どころか遅くなる場合もあるというのは経験がある(Google Corabolatoryにて)のですが、では、どのパラメータをどのように変えることで大体同じ結果を、より速く得る(= アクセラレーションの恩恵を受けられるモデルのサイズにしつつ、イテレーションは減らす)ことができるのか、を考えたいのですが、そのためには内部動作を知らないとどうにもならない、と考えています。

個人的には、以下のような実装になってるのではないか、と推測しているのですがどうなんでしょう?
(調べてはみたのですが、TF内の概念レベルのアーキテクチャなんかは公式にあったものの、具体的にどうやってるねんというのは見つけられず・・・。探し方が悪いのかもしれないですが・・・)
 
考えている範囲は、fit関数を呼び出して終わるまでの処理です。
基本的にはミニバッチの単位で並列処理しているのだと推測。
ただ、1ミニバッチずつ渡すのは効率が悪いので、ミニバッチ群のデータ自体は並列処理する主体にそれぞれ担当分を最初にどかっと渡しておくのではないかと。
 
■CPU内のコアもしくは、マルチプロセッサを活用するためのプロセス並列
マスタとワーカがいて、ワーカは担当するミニバッチの勾配の計算が終わったら、その勾配の情報をマスタに送って、マスタはNNの重みを更新して、更新したあとのNNの重みデータをワーカに送って、以降その繰り返し。
通信はプロセス間通信をしているのか、プロセス間で共有メモリを作ってよろしくやってたりするのか不明。
 
GPU 1枚を使った並列化
最初にCPU上のプロセスが、GPUメモリ上に重みデータを展開およびGPU上での実行プログラムを転送。
その後は、GPU上で各ワーカ的な何かが担当するミニバッチ群を処理していく。
1ミニバッチが終わったら、GPUメモリ上に置いてあるデータのロックをとって更新して、次のミニバッチの計算に進む。
一度必要なデータをGPUに転送したら、一回のfitを処理している最中はCPUとのやりとりは基本的に不要。
渡されたミニバッチ群を、指定されたepochだけ処理したら、GPU上のマスタプロセス的存在は、CPU上のプロセスに終了を通知し、CPU上のプロセスがGPU上のメモリを主記憶にコピー(CUDAの使い方の記憶は曖昧なので、最後に結果を得るあたりの記述は特に自信ありません)。
 
 
などと考えましたが、ナイーブな(深層学習の)並列化アルゴリズムを前提とすると、このような実装をした場合、どれかのワーカがNNの重みデータを更新した場合、古い重みデータを使って計算しているワーカの計算中の結果って破棄しないとダメ、つまりバッチ単位で並行に実行するって実装はNGなんですな。
 
ミニバッチの中のサンプル単位(単純には、ミニバッチに含まれるサンプルをワーカごとに均等に分けて割り振る)で並列化しないとダメ・・・?
 
もしくは↓のリンク先のように、並列化を想定したNNの重み更新アルゴリズムを用いるか。
 
togetter.com

 
しかし、それだと並列化することによって結果が変わっちゃったりするそうなんですよね。
普通にfit呼び出して、KerasだとGPUが載ってると自動的に使ってくれますが、それで、CPUだけで計算した場合と結果が変わってしまったら問題ですし、これはないですかね。
 
良い情報ソースをご存じの方がいれば教えていただければ幸いです ●刀乙
 
ちなみに、私が今いじっている以下のプログラムをfit_generatorを使って、マルチコア並列(8コア)させてみた時は、少し速くなったかな?程度でした。
ただ、ミニバッチのサイズが8(コア数に合わせたわけではなく元からこの値でした)と小さ過ぎたためで、ミニバッチのサイズをせめて64程度まで大きくすれば違ったのかも。
 
qiita.com

深層学習は特徴量を勝手に学習してくれると言われて出てきたけれどRBM・DBNやAuto Encoderとか皆使ってる?

追記:
有識者の知人曰く、正則化処理、オプティマイザ、活性化関数などの開発が進んだおかげで、この手のものを使わなくても多層化が可能となって、あまり使われることが無くなったのだろう、とのことでした。
ディープラーニングブームが起きてからも、結構変化があったんですねー。

(ここから最初の記事)
自分が深層学習ってなんぞやって思って、最初に調べた時にRBMだとか調べたなーと思って、下の記事をふと読んでいたんですが(これはちょうど深層学習にパンビーでも手を出し始めるるようになった頃の記事ですかね)、
RBMや、その派生系、オートエンコーダとかって、私は使ったことがない(オートエンコーダは、これで画像圧縮できるんじゃね!とか言って少し触ったことはありますが)し、NNの最上段に学習済みのものを置くのが当たり前ってなプラクティスもないような気がするんですが、知らないだけで、ガチKagglerとかガチのモデル作ってる人とかは使ってるもんなんですかねー(タスクの都合上、NN内部に組み込む必要があるものは除く)。
 
有識者の方のコメントお待ちしております ●刀乙

qiita.com

【メモ】どうやって過学習を防ぐか、汎化性能を上げるか、勾配爆発・消失を防ぐか

・自分で検索する時のタグ的なもの
深層学習、ディープラーニング機械学習
勾配爆発、勾配発散、勾配消失、汎化性能


個人的なリンク集のようなものです。
 
実装はKetasのSequencialモデルベースを基本的には想定

・基本
TensorFlow公式の解説
"過学習と学習不足について知る"
過学習と学習不足について知る  |  TensorFlow Core


・weight decay (正則化
[DL]weight decayって何? - Qiita
How to Use Weight Decay to Reduce Overfitting of Neural Network in Keras

・勾配クリッピング(これは過学習の抑制につながるのかは現状理解してない)
DNNの基礎知識についてのまとめ - Deep Learning 脱初心者めざして
↑ベージ全体もキーワードを拾う感じで、目を通しておきたい
How to Avoid Exploding Gradients With Gradient Clipping

・以下はLSTMの話
How to use Dropout and BatchNormalization in LSTM Networks (Keras) - Stack Overflow
python - Where do I call the BatchNormalization function in Keras? - Stack Overflow

LSTMだと、LSTMレイヤの中でのdropoutを指定するキーワード引数がある。
あと、BatchNormalizationはLSTMに限らないが、Denseなどの場合は、Activaion関数のレイヤを分けて、その間に入れるのが正しい?
BatchNormalizationをモデルに組み込む - Qiita

・勾配爆発・消失
勾配消失問題と勾配爆発問題~原因と解決策~ | マサムネの部屋

・その他参考
BatchNormalizationの解説と、Dropoutなども併せて考えた時にどう使うとよさそうか
Deep LearningにおけるBatch Normalizationの理解メモと、実際にその効果を見てみる - Qiita

過学習抑制「Weight Decay」はSGDと相性が良く、Adamと良くない?/Neural Network Consoleの使い方 - "BOKU"のITな日常
誰でもわかるニューラルネットワーク:正則化をテンソルフロープレイグラウンドで試してみた - Qiita
Batch Normalization:ニューラルネットワークの学習を加速させる汎用的で強力な手法 - DeepAge
各種正則化から転移学習まで。tensorflowソースコードで見るDL性能改善手法 まとめ(ver 2) - Qiita
今更聞けないディープラーニングの話【ユニット・層・正則化・ドロップアウト】 - HELLO CYBERNETICS

【Need Help!】深層強化学習(DQNもどき)のNNにLSTMを組み込むもうまくいかず

※記事最下部に追記あり

DQNもどき*1でFXシステムトレードシミュレーションというのをやっているのですが(下の記事からはまた幾分変化しています)、
 
qiita.com

これに、LSTMを導入してみましたが、残念ながうまくいっていません。
以下はその問題についての記述です。
 
学習時は学習データである時系列データを1足ずつなめながら何周もして、一足ごとにランダムreplayをしていたのですが、当該replayの処理をいじって、要素数32で、過去の時系列上で連続した [state, reward, 他] を memory から引っ張ってきて、特徴量データのリストと、教師データのリストを同じ要素数で作るようにして、epoch=1、batch_size=32 で fit するってな感じにしたんですが、全然収束しません。。。
(元々バッチサイズ32で1epoch fitするというような実装でした)

LSTM導入前は、一分もしたら0.0xxxぐらいのlossになっていたのですが(今のパラメータだと、1イテレーション、つまりテストデータを一周なめるのに15分ぐらいかかってる感じです)、LSTM版は6時間ぐらい経ってもlossは30から20ぐらいをうろちょとするばかり。
 なお、loss functionは huber損失関数。オプティマイザはAdam。学習率は小さすぎると時間かかるかと思って0.01とかにしています*2
 
で、気になっているのはネットワーク構成の話と入力データ(特徴量、outputに対する教師データの両方を含む)で、そこの実装を説明すべく、少しコードも交えつつ今の実装について整理すると以下のような感じなのですが、

■前提
入力データは、 特徴量10個のリストを一要素とするリスト、教師データ: 3つのアクションの報酬値(実数値)のリストを一要素とするリスト

■ネットワーク構成
        self.model = Sequential()
        self.model.add(LSTM(32, activation='relu', input_shape=(state_size, 1))
        self.model.add(RepeatVector(1))
        self.model.add(LSTM(32, activation='relu', return_sequences=True))
        self.model.add(TimeDistributed(Dense(action_size, activation='linear'))
        self.optimizer = Adam(lr=learning_rate)
        self.model.compile(optimizer=self.optimizer, loss=huberloss)

■fitの呼び出し(batch_sizeは32)
self.model.fit(x, y, epochs=1, verbose=1, batch_size=batch_size)
xとyはfitに渡す前によろしくreshapeして

x -> (32, 10, 1)
y -> (32, 3, 1)

にしている。
シェイプから分かる通り、xとyの要素数は同じにしてある


replay時の1バッチで見ると、データは時系列で並んでいるのですが、ランダムreplayをベースに実装したのもあって、次のreplay(次の足で行われる)では、違う時点での時系列上で連続なデータという形になっています。
 
もしかして、そもそもLSTMって、このようなやり方ではダメで、(学習データの期間の終わりに到達しない限り)ずっと連続なデータを渡す必要があるという話があったりするのでしょうか?


LSTMのKerasでの実装としては、手元には↓のページを参考にさせて頂いて実装した、
sweng.web.fc2.com

 
為替データを使った予測プログラムがあり、そのコードは期待通りの動作をすることを確認しており、このプログラムでの実装を取り込んだという形です。
github.com


ただ、FXシステムトレードシミュレーションのプログラムは単純に、時系列データをずらして、よろしくするといった類のものではないである点と、出力が複数要素になっている点(参考記事を参照してもらうと分かるのですが、ベースとしているコードは、複数データが出力されはしますが、個々の要素はスカラか、スカラ 1個を含む1次元リスト)、ネットワーク構成はこれでいいのか・・・という感じで悩んでいます。
 
現状のコードはこんな感じです。
github.com
 
environmentが返す stateは 32 x 10(2次元配列のリストとしては data[0-31][0-9] 的な感じ)のリストになっていて、memoryに格納する際は、その処理の前の時点で、

state = np.reshape(state, [32, 10])

と reshapeしてあります。
 
fitするためのデータを作っている箇所は以下の行のあたりです。
github.com
 
また、学習がうまくいくかどうか以前に、一番腑に落ちないのは、今のネットワークだと、10個の特徴量が32個並んだリストを与えて predict すると1個の出力(3要素のリスト)が得られるだけなのですが、学習時には32個の出力に対応する教師データを渡していて(そうでないと、fitを呼び出したときに入力と出力の array の要素数が違うぞ、とエラーになる)、そうすると、どうやってlossを計算してるのか、というのが良く分からない点。
 
そこで、ネットワーク構成のパラメータをいじって、32個出力がされるようにしたろ、と思っていろいろ試したものの、Keras(Tensorflowバックエンド)がエラーを吐いてうまくいかず。。。
唯一、RepeatVectorの引数を 1 から、出力1つの要素数である 3 にした時だけは動作して3個の出力(action数3に対応する3要素のリストが3個)が出るようになりましたが、それもおかしな話だ、と思い、実装としては採用していません。
 
=========================

以上、つらつら書いてみました。
 
根本的にLSTMの理解が誤っている可能性も大ではあるのですが、識者の方のアドバイスが頂ければ幸いです。
よろしくお願いいたします。●刀乙

追記 (2020/02/24):
Reshpeレイヤを最後に追加して、テンソルのshapeをよろしく合わせてやることで、RepeatVectorの引数をバッチサイズにして、出力されるpredictの結果を入力した教師データの数と一致させることができました。学習結果も順調です!
fx_systrade/dqn_fx_trade_tensorflow_lstm.py at 9f43ae89002cfc773ace17c788271296b554384f · ryogrid/fx_systrade · GitHub
fx_systrade/agent_fx_environment_lstm.py at 9f43ae89002cfc773ace17c788271296b554384f · ryogrid/fx_systrade · GitHub

*1:Actionによる遷移先でのMax報酬を時間割引率ガンマをかけて、足すという、更新式を使わずに、脇から別の方法で未来の報酬を過去に波及させていくというようなことをしている

*2:0.001等のLSTM採用前に用いていたパラメータでは少なくとも数十分待っても収束してく気配がなかったので

同じ処理をしているコード(DDQN)のはずなのにタスクが解けるコードと解けないコードがあって混乱

Open AI gym の 倒立振り子の課題を DQN(DDQN)で解けるか確認しているのですが、以前、解けることを確認したコードでは解けるのに、WinMergeで差分を確認するまでした、開発中のFXトレードシミュレーション用のコードをベースにその課題を解くように修正したもの(元を辿れば先祖返りしてるんですが)だと解けない。パラメータやら何やらかんやらも同じにしたのに。
わけがわからないです・・・・。
 
・解ける方
https://github.com/ryogrid/fx_systrade/blob/165dc936a2877f9dde903f628ecb88cbecfc5f91/ddqn_cartpole_tensorflow_runnable_win10.py
・解けない方
https://github.com/ryogrid/fx_systrade/blob/165dc936a2877f9dde903f628ecb88cbecfc5f91/dqn_fx_trade_tensorflow_testing_with_cartpole.py
 
実行しているvirtualenvも同じ、というか、同じコマンドプロンプトで同じpythonコマンドで実行している。
ディレクトリも一緒。
なお、実行環境はWIndows10。
 
もう呪われているか、gymがローカルにソースファイルごとに何かのデータをキャッシュしてるか、とかしか思いつかないです・・・。

以前Unityで作った3D壁打ちゲームをOculus Quest & Rift, Rift S(VR)対応させました

以前Unityで作った↓の3D壁打ちゲームを、UnityのVR対応の設定等もろもろを行って、Oculus Quest対応させました。
unityroom.com


ちと手間ですが、↓の野良apkを開発者モードでPCからインストールしてやれば遊べます。
www.dropbox.com


インストール参考
vr-maniacs.com

 
【操作】
Aボタン: 球を発射。前のボールが生きてる時は出ません。また、ラケットが画面中央にあるとひっかかる場合があるのでラケットはよけといてください・・・。
ジョイスティック: 利き手の設定によって変わったりするようですが、右か左のジョイスティックでラケットを移動できます

よかったらお試しください。
 
なお、VR(Oculus Questのみ)対応ですが、Unity自体がVRのソフトウェアを作れるようになっていて、かつ、元々単純な3Dゲームだったので(2Dのものを3Dな感じに作り変えるような作業は本質的に必要ない)、実質一日弱程度の工数で対応させることができました。
 
しかし、Oculus Link出たし、Rift Sに対応させた方が試してもらえる人は増えるのかー。
でも、なんか、対応のための作業がそこそこ違うっぽいんだよな・・・。
 
補足:
ソースコード
github.com
 
追記:
Rift, Rift S 用のビルドも作れました。
(Oculus LinkでPCに接続したQuestでも動くので、Oculus Linkを使っている方はこちらのビルドを試す方がラクかと思います)

PCのOculus管理用ソフト(?)で以下のところの"提供元不明"というやつをONにして、

f:id:kanbayashi:20200128182641p:plain
Oculus PCアプリで提供元不明のプログラムを実行可に
 
以下のZipをPCにダウンロード・展開して実行すれば動くかと思います(Oculusの管理用ソフトは起動しておく)。
www.dropbox.com

強化学習を以前やっていたFXシステムトレーディングプログラムに取り込む方法について悩んでいる

以前、FXのシステムトレードのプログラムを書いたのだけど、

qiita.com

 
このプログラムは為替予測は機械学習によって作ったモデルで行うけれども、それに基づく売買ロジックは自分でなんかいい感じだったものにしていたりしました。
 
で、そこも機械学習の枠組みの中でやれたらいいなあと思っていたところで、少し前に株の売買を強化学習の手法でやる、という記事を読んで、
 
qiita.com

なるほど強化学習という手もあったか、と思い、ひとまず単純な設計はどんな感じになるか考えているが、N足後の為替を見た時に利益が出るようにポジションを持つようアクションしたら報酬を与える、とかしたら、自分がやった為替予測と同じようなモデルができるだけだろうし、それでポジションを買う時のモデルは作れたとしても、ポジションを決済する時のモデルの作り方が思いつかない。
  
どうするのがいいのかなー。
 
あとは元々やってた為替予測の結果を特徴量(環境の状態)として入力してやるという風に2段構成にするのか、一段で(ポジションを持っている状態と、持っていない状態で2つ作ることにはなるかもしれないが)全部やってしまうかも、どっちがいいのかよくわからん。
 
まあ、2段構成にするとして、為替の予測結果以外に何の特徴量を入れるのかって話もあるのだが・・・(為替予測のモデルに入力している特徴量を入れることはできるが、意味があるのか、とか)。
 
参考(に読もうかなと思っている記事):
www.ie110704.net
blog.takuya-andou.com

近い将来、覇権を握る言語はDart言語である !

はい。タイトルは誇張して書きました。
 
その筋の方々においては、既出の議論かもしれないですが、今後、ある程度広い用途で使われうる言語(Webフロントエンド、バックエンド、スタンドアロンアプリ、モバイル)として、Dartがワンチャンあるんじゃないかと思うんですけど、どうでしょう。

JSにコンパイルできるし、VM実行もできるし、ネイティブバイナリにもコンパイルできるし。静的型付けできるという意味では、TypeScriptもいいですが、Dartは、TypeScriptが、(私が把握している限り)JSのライブラリを使うしかないのに対して、自前で標準ライブラリ持ってるし。

ただ、流行りの機械学習や、その基盤である数値計算系の用途に今のところ手を伸ばす手段が無さそうなのは、いまいち。*1

Pythonライブラリを透過的に呼び出せるインタフェースを誰か、もしくは公式で作ってくれたらいいんですが。といっても、簡単な話ではないのも分かってはいます。JVM言語がJavaのライブラリを呼び出すのとはわけが違う。
(ネイティブコードを呼び出すことはやろうと思えば可能。また、Flutterだとchannelという仕組みを使って、Android側、iOS側のライブラリ関数を呼び出すようなコードが書けるようです。ただし、呼び出される側は、アプリケーションレベルでプラットフォーム固有の言語による呼び出し依頼を受けた時のコードを書かないとダメ)
 
なお、NumPy, SciPyの代替となるところを目指しているのであろうプロジェクトは既にあります。
scidart.org

これはこれで応援したいプロジェクトなのですが、Python機械学習ライブラリをDartから使いたい、となって、Dartにポートされたものを使うという形がとれるような状況にDart界隈がなるというひとまずのゴール(?)を達成するには、当たり前ではありますが、これだけでは解決しません。

ポートを行うにあたって、NumPy, SciPy (これらは SciDart で置き換えられると仮定)の利用箇所がどうにかなったとしても、ネイティブコード呼び出しを自前でしてたりすると、そこもよろしく対応しないといけないし、最近のライブラリは多くのライブラリに依存(pipモジュール間の依存関係および、Pythonの標準ライブラリ)しているので、それらについてもポートするか、もしくはDartのライブラリでの置き換えをしなくてはならない。
 
潔く、そういう用途はPythonで、とあきらめるのがいいのか。
もしくは、JRuby的な発想で、PDart言語(Pythonで書かれたDart処理系)が出てくればよいのか(他力本願寺)。
 
記事のタイトルと整合しなくなってきているので話を戻すと、機械学習系や数値計算系は現状辛いものの、それを除けばDartは覇権を握れるポテンシャルを持っているのではないかと個人的には思います!

*1:サーバサイドWebフレームワークはAqueduct( https://aqueduct.io/ )という基本的な機能が揃ったものが既にあります

pythonの協調フィルタリング実装ライブラリ implicit を動かしてみたら爆速だったという話(+α)

Qiitaの投稿をサジェストするシステムを開発するため(唐突ですが、作ろうと思っているのです)に利用を検討している、implicitというpython協調フィルタリングライブラリを試していて、以下のサンプルプログラムを動かしてみたのだが(--suggestとオプションをつけるとユーザへのサジェストのコードが走る)、

github.com

 
このサンプルプログラムはLast.fmという聴いている楽曲もしくはアーティスト(へのレーティング)に基づいておすすめのアーティスト(楽曲も、だったかも)をサジェストするサービスで得られた以下のデータセット
 
・約30万アイテム(アーティスト)x 約35万ユーザ、の行列データ(疎行列)
・要素数(レーティングの数)は約1700万
 
を、(デフォルトで利用されるimplicitではALSと呼んでいるモデルでは、)Matrix Factrazationか、Factorazation Machineかどちらか(どっちかは実装を読まないと分からん)で次元削減(して元に戻す)する前処理(fit関数)を行ってから、ユーザごとにサジェストの処理をするのだけど、使うモデルやパラメータにはよるものの、デフォルトのモデル・パラメータで、
 
・前処理: 約20sec
・サジェスト: 約5ms/user
*1
 
という処理時間だったので、サジェストするページのリストは夜間のバッチで作成しておくようにしようかと考えていたが、Webサーバの上のアプリケーションプロセス(というのが正しいのだろうか)の中で、hd5形式で用意しておいた疎行列データを最初にロードして、前処理(fit関数を呼ぶ)して(前処理した結果を保持しているモデルのオブジェクトがpickle等でシリアライズできるようなら、それをオブジェクトとしてロードする形にできるが、まだ調べてない)、リクエストのタイミングでサジェストするという設計でもいけるかなーとか考えているが、どうだろうなー。
 
WebフレームワークはDjango Frameworkを利用予定。
 
ただ、上記のデータセットをメモリに載せると700MB程度は食うようなので(※前処理・サジェスト処理はデータセットを置いておくメモリ以外はほとんどメモリ食わない)、Qiitaのデータセットは上記データセットより疎だろうし、同程度の行列サイズを想定しているものの、集められるユーザ・投稿の情報はもっと少ない気がする・・・ので、データセットのメモリ上でのデータサイズはもっと小さくなるだろう、ということを考慮しても、アプリケーションプロセスの数は1~3プロセス程度に制限する必要はありそう(運用予定の個人鯖はメモリ2GBしか積んでないので)。
 
で、Django Frameworkに限らんけども、その手のフレームワークって、1~3プロセス程度でそれなりの数のユーザをさばけるんだっけ。
(アプリケーションプロセスはGILを解放するネットワークI/OやDBアクセスのためのI/Oが多くを占めていて、なんちゃってマルチスレッドでも複数リクエストをさばける、という仕組みと認識しているが・・・)
 
なお、上に書いた実行結果は最近組みなおした自作デスクトップでの実行結果で、運用予定のマシンとはスペックが違います(自作デスクトップの方が上)・・・。
 
■自作デスクトップ(上記実行結果を得たマシン)
Ryzen 5 2600 3.4GHz 6core, 16GBメモリ
Windows10 64bit上の、WSL Ubuntu 16.04 (Windowsネイティブのpython環境では動作しなかった)
(今回の実行では利用されていないが、Radeon RX570 8GB GDDR5)
 
■運用予定の鯖(KVMを使っているっぽいVPS
Xeon Silver 4114 2.20GHz 仮想2コア, 2GBメモリ
CentOS 6 (x86_64)
 
以下は動作させている時の出力
gyazo.com

 
さて、この設計でいけるかなー
(まずはVPS環境での性能を見ろ、という話はある)
 
追記(19/11/25 6:30):
運用予定のVPSで実行してみたところ、下のようになった。
gyazo.com

行列分解なんかのマルチコアで並列化できるところはコア数が減っているのもあるのか、自作デスクトップ機と比べて7倍程度遅くなっているが、サジェスト処理自体は 200user/sec ぐらいだったのが、150user/sec に落ちたぐらいなので、単体コア性能で速度が決まるところは、75%程度までの速度低下(=1.3倍程度時間がかかるようになった)だけで済んだようだ。
前処理は一度やれば済む処理で、重要なのはサジェスト処理なので、この結果は悪くない。

*1:個人的には、くそ爆速やんけ!、と思った。ライブラリの主要な処理はネイティブバイナリで動作していて、マルチコア・マルチプロセッサのマシンで動作させるとよろしくマルチスレッドで並列処理してくれるらしいので、それが高速な理由の一つでもあるのだと思われる(モデルによっては、コードで利用する旨の明示は必要かもしれないが、GPUも使ってくれるらしい。なお CUDA・・・)。ただ前処理はマルチスレッドで動いているようだが、サジェスト処理自体はマルチスレッド化はされていない模様(マルチスレッド化してもオーバヘッドの方が大きくなるだけといった感じなのだろう)

VRChatってどんなアーキテクチャなのか探ってみる(1)

VRChat ( https://www.vrchat.com/ ) がどんな仕組みで動いているのか気になったので少し調べてみました(無料サービスでユーザー間の音声通話のデータをどうさばいているのか、と)。
※なお、VRChatはデスクトップ版もあってVRヘッドセットが無くてもプレイできます。
 
以下、自分のFBへの投稿の転載。
 

1つめ

VRChatってどんな通信をしてるのか気になって軽く眺めてみたが、Wiresharkとかでパケットキャプチャすると、STUN(NAT越えの時とかに使うサーバの名前だったりなんだり)のパケットが流れてるし、サーバっぽくないマシンとUDPのパケットのやりとしたりしてるので、ユーザ間はNAT越えでP2P通信をしている感じがする。
 
WindowsのパフォーマンスモニタでVRChatのプロセスのコネクション(TCPのみ)とか眺めてても、server-xx-xx・・・ みたいなアドレス(運営のサーバくさい)との通信は最初はあるがしばらくすると無くなったりしてたし。
 
WebRTCとか使ってるのかなあ。もしくは、ただSTUNサーバとか使ってNAT越えするところまでやってる?(STUNってWebRTCだけで使われる仕様じゃないよね?)
 
gyazo.com


 

2つめ

VRChatの仕組みを調べてみようその2。
 <1つ目の投稿へのリンク>
 
↑の投稿に続いて、VRChatがUPnPでルータのポートを開けに行ってないかパケットキャプチャしてみた。
で、結果としては、確実にUPnPでポートを空けると(私が)知っているソフトウェアの出してるパケットと異なり、自分の存在を advertise するようなメッセージはLAN内でブロードキャスト(かな)してるようだが、その後のルータへの notify (空けてくれやってメッセージだと思うのだけど)が無いので、どっちとも分からないという結果でした。
 前に使っていたルータはUPnPでポート開けるとルータのログにそれが記録されたのだけど、最近新しくしたものは、そのログを出さないようで、よう分らんかった。
 
話は変わって、前回の投稿でもコメント欄に貼ったのですが、もう5年前の投稿ですが、ver0.2.0のリリースノートが↓で、
 
www.reddit.com

 
どうも、改めて読むと、この時点ではユーザが今でいうワールドに対応するものをホストして、そのリストは運営側?で管理するか、もしくはホストしているユーザが登録して、他のユーザはリストにあるIPに接続しに行くというような作りだったみたい。
 
この初期の設計の話を踏まえて、昨日、WiresharkUDPパケットをキャプチャして眺めていた結果を考えてみると、ワールドに10を超えるユーザがいるのに、UDPで、VRChatに関するデータだろうと思われる通信をしているのは一つのホストとだけだったりしました(たまに別のホストと通信してるとかはあったかもだけど)。
WiresharkではCLASSIC-STUNと分類されるUDPパケットがあって、それはいろんなホストにrequestして、responseが来るってなことはしていた
 
さらに、VRChatの開発者コミュニティ用の掲示板?のようなものを見ると以下のような投稿がありました。
 
vrchat.canny.io

 
まだ、ちゃんと読んでいないのですが、要は複数のマシン(ホストと書くとややこしいのでここだけ表現を変えています)で一つのワールド(のインスタンス)をホストしたら、これこれの問題が解決されるんじゃね?という提案のようです。
 
で、以上のことを踏まえると、UPnPで穴開けてるかは確実ではないけれど、グローバルIPで外部からアクセス可能になっている状態のマシン(普通のユーザの使っているマシン)を、運営鯖が何らかの基準で選択して、ワールド(の1つのインスタンス)をホストさせて、他のユーザはワールド固有の情報(マップやら造形の情報等々)を運営鯖からダウンロードさせた上で、そこに接続しに行かせる。それらのユーザは、音声チャットや、各ユーザの移動、アバターの変更などのデータはワールド(のインスタンス)をホストしているサーバ経由で受け取ると。
 
そんな作りになっているんじゃないかな、と推測しました。
 
音声もしゃべってなければ、そのための通信は発生しないし(喋っているユーザは喋っていることを表す表示が行われるので、喋っているかいないかを判定していることは間違いない)、ユーザの位置関係によって音声が聞こえる聞こえないとかもあるので、それによって、同じワールドにいたとしても、音声を中継する相手を絞ることも可能なはず。
 
ホストしてるマシンが突然VRChatを終了させてしまったとしても、他のユーザが当該マシンがホストしていたワールドにいたのであれば、他のユーザがどこにいたかとかは知っているはずなので、"新しくホストしてくれるマシン"を運営が割り当てたら、ワールドにいたユーザが持っている情報を元にほぼ完全な形で前サーバがホストしていた状態に復旧?できるはず。(ホストしているマシンの離脱により、0人になったらどっちにしろ復旧する必要が無いので問題なし)
 
まあ、考え方としては、MSに買収された後、いくらか経ってアーキテクチャが変わってしまう(しまった)前のSkypeが採用していたスーパーノードという考え方と近いのではないかと。
 
と、いい加減な根拠で推測してみましたが、実際のとこどうなんでしょうねー。

PONG風 3D壁打ちゲームをUnityで作ってみた

お盆休みに「砦の攻防」というレトロゲームにインスパイアされた、2DゲームをUnityで作ったのですが、
 
ryogrid.hatenablog.com

 
折角Unityをいじったのなら、3Dもやっておかなきゃじゃね?
と思い、「PONG風 3D壁打ちゲーム」を同じくUnityで作ってみました。
 
※確認無く音がでるのでご注意ください
Unity WebGL Player | 3DPONG
 
まだ作りかけですが、一応動くものができたので、アーリーなんたらの精神で公開してみます。
 
githubリポジトリはこちら (masterは別のゲームなので注意)
GitHub - ryogrid/ryogridGamesByUnity at 3dpong

 

操作方法

・マウスで透明なラケット?板?を移動
・スペースキーで弾を前面に向かって射出(一個画面に出ている間はもう一度押しても次の弾は出ません)
・青いラケットで跳ね返ってきた弾をブロックすると跳ね返せる
・ブロックできずに後方に弾がいってしまったらその弾の回?はおしまいで、スペースキーで次の弾を射出する
 
ちなみに、PONGというのはコレです。皆さん一度は見たことやったことあると思います。
Atariのオリジナル版をやった人は少ないと思いますが)
 
www.youtube.com

 

残TODO

・【済】ラケットで弾が見えなくなることが多いので、ラケットを透明にした
・【済】跳ね返せた回数ぐらいは出したい
・【済】弾とラケットの位置関係が分かりにくいので、弾の中心からZ方向に水平にビームみたいなのを出すようにする
・【済】弾の移動方向のX, Y, Z 成分のバランスが適切な範囲に収まるようによろしく調整されるような仕組みを入れる
・【済】ラケットをもっとスムーズに動かせるようにしたい
・【済】マウスで操作できるようにしたい
・【済】ラケットに当たったタイミングが分からないので、当たった時に音を出すようにする
・【済】壁でバウンドした時にも音を鳴らす
・【済】ずっと同じスピードだといつになっても終わらない可能性があるので、だんだんスピードアップするようにしたい
・【済】弾がバウンドした箇所に跡を残す演出
・【済】弾がバウンドした箇所に煙を出す演出
・ラケットがステージをはみ出さないようにしたい

 

謝辞

最初は普通にRigibodyコンポーネントで反発を実装していたのですが、そうすると想定と異なった動作をしてしまう問題が発生して困っていたのですが(入射角が無視されて面に対して垂直に弾道が変わるとか)、以下の記事を参考に修正することで解決することができました。
有益な情報の共有に感謝いたします。
 
www.unipafu.com