強化学習を以前やっていたFXシステムトレーディングプログラムに取り込む方法について悩んでいる

以前、FXのシステムトレードのプログラムを書いたのだけど、

qiita.com

 
このプログラムは為替予測は機械学習によって作ったモデルで行うけれども、それに基づく売買ロジックは自分でなんかいい感じだったものにしていたりしました。
 
で、そこも機械学習の枠組みの中でやれたらいいなあと思っていたところで、少し前に株の売買を強化学習の手法でやる、という記事を読んで、
 
qiita.com

なるほど強化学習という手もあったか、と思い、ひとまず単純な設計はどんな感じになるか考えているが、N足後の為替を見た時に利益が出るようにポジションを持つようアクションしたら報酬を与える、とかしたら、自分がやった為替予測と同じようなモデルができるだけだろうし、それでポジションを買う時のモデルは作れたとしても、ポジションを決済する時のモデルの作り方が思いつかない。
  
どうするのがいいのかなー。
 
あとは元々やってた為替予測の結果を特徴量(環境の状態)として入力してやるという風に2段構成にするのか、一段で(ポジションを持っている状態と、持っていない状態で2つ作ることにはなるかもしれないが)全部やってしまうかも、どっちがいいのかよくわからん。
 
まあ、2段構成にするとして、為替の予測結果以外に何の特徴量を入れるのかって話もあるのだが・・・(為替予測のモデルに入力している特徴量を入れることはできるが、意味があるのか、とか)。
 
参考(に読もうかなと思っている記事):
www.ie110704.net
blog.takuya-andou.com