haskell-jp / questions #47

maoe

2019-03-04 15:30:51 +0900

デフォルトなのは外部のCライブラリに依存しないでビルドできるからだと思います。
僕もtls回りが遅くて以前見てみたことがあります。詳細は忘れましたが依存ライブラリ（Haskellコード）を少し弄ったら速度が結構改善しました。全体的にあまり速度を気にして書いているコードではない印象でした。

2019-03-04 15:43:35 +0900

tlsを改善するコードをつくっていくしかなさそうですかね。

hexirp

2019-03-04 20:10:08 +0900

Windows 10 (ghc: 一定, ghci: 一定)
Mac/Linux (ghc: 不定, ghci: 一定)

こういうことで、その値は本来なら範囲外であるデータに由来していることですね。

hexirp

2019-03-04 20:11:38 +0900

mizunashi-mana さんのソースコードを実行してみた所、以下のような結果になりました (ghc, ghci どちらでも同じ)

0
MyI# 0#
IBI# 0#
2305843009213693952
MyI# 0#
CB
10
CB
CA
CC

2019-03-04 21:15:36 +0900

うちのmacだと， GHCi を再度立ち上げながら実行した場合も同様に実行度に値が変わりました．再起動しないままだと常に同じ値ですね．
しかし， unsafeCoerce LD :: CompactD が CA にならないのは驚きですね． tagging による分岐が Windows だと違ったりするんですかね？

2019-03-04 21:44:12 +0900

あ，そういえば上のソースコードは，一度ビルドしたものを実行しています． runghc / ghci だと unsafeCoerce LD :: CompactD は CC になりました．ビルドする場合は -O0 でも CA になりましたね． ghci だと pointer tagging は機能してなかったりするんですかね？ runghc / ghci の結果は以下のようになりました(と言っても数字の部分は実行度に異なりますが):

4539535848
MyI# 4539535848#
IBI# 4539535848#
-3458764513802808375
MyI# 4539533688#
CB
10
CB
CA
CC

takenobu.hs

2019-03-04 22:36:07 +0900

せっかくなので、元々のコードの方について、メモリ表現を覗けるようにしてみました。
以下のgistに貼り付けてあります。
https://gist.github.com/takenobu-hs/751aed055481d3594cf439a40790119b

Coerce2.hsを手元のUbuntuでコンパイルして実行すると、16進数で「0x4000_0000_0000_4645」を出力します。

Execution.txt の方には、ghcコマンドオプションでのstg, cmm, アセンブリのダンプ結果と、最終バイナリの逆アセンブル結果を付けています。

「0x4000_0000_0000_4645」の値は、objdump -D での逆アセンブルの箇所で、Main_boolzuvar1_closure から、+9 byte目からの8byteに一致しています。
（4a4309 番地から、4a4310番地までの値。）

ということで、まさに、True_closure + 9 からの8byteを拾っている挙動ですね。

いずれにしても、GHCi含めて、その時々の後続のメモリを素直に拾っているというとこですね。
そもそもunsafeの非保証動作の場合ですね:slightly_smiling_face:

koyama41

2019-03-05 07:37:19 +0900

+9 （アラインメントしていない場所）からの8バイト、というのがすごく気持ち悪いです… intel だから読めるけどそれ以外のアーキテクチャだったらアラインメントエラーになるのでは、という感が

kazu

2019-03-05 07:41:49 +0900

TLSライブラリのメンテナの山本です。
性能は上げたいのですが、個人的にはTLS 1.3とQUICの実装で忙しいので、手が回っていません。
性能を上げるPRは大歓迎で、最優先でマージしますので、ぜひ送ってください。
ただ、もうすぐQUICのために大改造が入るので、桜の咲く頃まで待っていただけると助かります。

kazu

2019-03-05 07:42:44 +0900

とりあえず、hs-tlsのissueに登録していただけると助かります。

doanobu

2019-03-05 13:58:29 +0900

@doanobu has joined the channel

cutsea110

2019-03-05 14:01:01 +0900

@cutsea110 has joined the channel

cutsea110

2019-03-05 14:01:13 +0900

おしえてー

cutsea110

2019-03-05 14:01:19 +0900

くだされ

cutsea110

2019-03-05 14:01:40 +0900

ゼロから作るDeep LearningをRepaでなぞってるんだけど

cutsea110

2019-03-05 14:02:29 +0900

Performanceが悪いのでどうやるのが良いのか

cutsea110

2019-03-05 14:02:54 +0900

現在4章の2層ネットでバッチ処理をしたいというところ.

cutsea110

2019-03-05 14:03:46 +0900

誤差逆伝搬の前で数値微分によるミニバッチ学習をやろうとしている.

cutsea110

2019-03-05 14:04:52 +0900

パフォーマンスについては書籍の公開しているpythonコードをダウンロードしてきて走らせて比較してみた結果,今の実装が遅すぎると判明.

2019-03-05 14:05:25 +0900

Shift + Enterで
改行できるので
まとめると良いですよ

cutsea110

2019-03-05 14:06:40 +0900

pyhonのはどうやら誤差逆伝搬のアルゴリズムの方をenableにしてたからひとまず数値微分の方を有効にしてみたら,確かに遅めだけど待ってられない程じゃない.
それに比べたら今の私の実装は終わるまで待ってられないレベル.

cutsea110

2019-03-05 14:09:42 +0900

Pythonの実装だとネットワークを1枚用意しておいて代入操作で各ノードを書き換えつつ計算しているのだけど,RepaだとArray DのままだとmmultできずどうもそこでUnboxedな配列として実体化されてしまうのが問題なのかなーというところです.

cutsea110

2019-03-05 14:36:02 +0900

100*784の2次元配列(Double)に対して順に100*784回もUnboxedな配列が実体化されるはずで,これ回避できないか?(小さい層もあるのでもう少し回数増える)
あるいはRepaでそういことやるときのノウハウとかありましたら是非お願いします.

notogawa

2019-03-05 14:37:57 +0900

たぶん，どういうコードを書いてるのかわからないので何も言いようがない雰囲気

cutsea110

2019-03-05 14:38:35 +0900

https://github.com/cutsea110/deep-learning-from-scratch

cutsea110

2019-03-05 14:44:20 +0900

今一歩一歩試しつつやってたのでmainの中がごちゃごちゃしているけど,TwoLayerNet.hsの99行目の処理がミニバッチサイズ100に対して1回numerical gradientを走らせただけの処理です.
ここを改善したいのです.

2019-03-05 15:37:50 +0900

https://github.com/vincenthz/hs-tls/issues/357
こんな感じです。
よろしくお願いします。

msakai

2019-03-05 15:38:16 +0900

おおー

autotaker

2019-03-05 16:57:00 +0900

@autotaker has joined the channel

autotaker

2019-03-05 17:23:23 +0900

とりあえずSystem.Randomは非常に遅いので`mwc-random`等速い乱数生成ライブラリを使ったほうが良いです。

autotaker

2019-03-05 17:35:12 +0900

あとUtil.hs内の型クラス制約をもつ関数にINLINABLEプラグマをつけると改善するかもしれません。

as_capabl

2019-03-05 18:11:30 +0900

この分野には詳しくないんですけど、 fromFunction で作った行列はインデックスアクセスする度に関数を計算するんですね。だとすると、実体化した方が速くなるポイントとかありそう。メモ化的な。

as_capabl

2019-03-05 18:13:14 +0900

ミュータブルな代入を使ったアルゴリズムがあるならHaskellでもそれ使った方がいい気がするんですが、repaでミュータブルアルゴリズムの併用ってどうやるんだろう

tkrs

2019-03-05 18:45:26 +0900

@tkrs has joined the channel

cutsea110

2019-03-05 18:48:27 +0900

アドバイスありがとうございます。
INLINABLEプラグマも試してみます。がRepaでもINLINE段数まで指定してるっぽいんでなかなか厳しそう。

実体化した方が速いと思ってたんですが回数が多いのと、ほとんどは同じエリアの値にアクセスするので流石に作りすぎだと思うんですよね。
今はmmultSとかがArray Uを要求するから実体化してるという認識です。
常に100*784のうちの1箇所だけ値を変えて計算するんだけどそれっきりなんで、使い捨てる感じなんです。
そうすると実体化するより計算で使い捨ての方が速いと読んでるんだけどその方法がよく分からない。

autotaker

2019-03-05 19:05:02 +0900

ほとんどmmultSに時間かかってるみたいですけどこれ計算量どのくらいなんですか？

cutsea110

2019-03-05 19:11:33 +0900

mmultSは行列の積を求めてるけどそれ自体はそんなに時間食ってないと思ってたんですが。
基本的には転置してからzipWithなんで転置はやはりfromFunctionでアクセスを変換するだけだからそれ自体はO(1)かな。zipWithするけどl*mとm*nであればO(l*n)にはなりそうかなぁ。

cutsea110

2019-03-05 19:14:15 +0900

それと同程度のオーダーでNNも作り直し(実体化)てるはずなんですよね。

autotaker

2019-03-05 22:01:13 +0900

各重み(784 * 100 + 100 * 10 変数)の微小変化に対して(100,784) * (784, 100)の行列乗算(naiveには100*100*784回の演算が必要）を行なっているので計算量的に絶望的だと思います。Pythonの実装の方は何か工夫がされているのではないでしょうか？

cutsea110

2019-03-05 22:18:24 +0900

行列の積自体はNumPyの中なので多分FFI通してC/C++なのかな。
でもnumerical gradientは代入操作でスキャンしてるけど都度lossを計算つまり初期値を投入して計算してるので全体の計算量自体は同じなんじゃないかなぁ。
これが遅いからbackpropergationするぞーという流れのようです。

autotaker

2019-03-05 22:54:19 +0900

Python実装って
ですか？これ network.numerical_gradientの呼び出しがコメントアウトされてて代わりに　　 network.gradient を呼び出しているんですが、コメントアウトを逆にして実行すると全く進まないので`numerical_gradient`が遅いのは仕様なのではないでしょうか？

autotaker

2019-03-05 23:07:18 +0900

pyhonのはどうやら誤差逆伝搬のアルゴリズムの方をenableにしてたからひとまず数値微分の方を有効にしてみたら,確かに遅めだけど待ってられない程じゃない.

これはそのことでしたか。失礼しました。

cutsea110

2019-03-06 01:27:56 +0900

全く進まないですかね.
私の手元のnoteだと1min20sec~1min30sec程度で1回のnumerical_gradientは返るんですよ.
私のコードだとその1回すら40分待っても返ってこないのでさすがにこれは無いだろうと思っているんだけど.

autotaker

2019-03-06 01:49:30 +0900

私の手元でも確かに数分に一回くらいは返ってきましたね。numpyの行列乗算が速すぎるのでpureなHaskellで匹敵するのは難しいと思います。
手元で高速化して見たコードをプルリクで送りましたのでよろしければ参考にしてください。多分１０分以内には一回のnumerical_gradientが終わると思います。
https://github.com/cutsea110/deep-learning-from-scratch/pull/1

cutsea110

2019-03-06 01:51:17 +0900

おお、ありがとうございます

hexirp

2019-03-06 07:14:23 +0900

おお、これで解決できそうです！あとで Windows でも試します

cutsea110

2019-03-06 07:22:56 +0900

丁寧にコメントを付けてくれているので順に辿ってみたいのですが,プロファイルを取るのはSCC付与して-profでみるって感じですか?

Guvalif

2019-03-06 08:46:34 +0900

@Guvalif has joined the channel

as_capabl

2019-03-06 08:59:29 +0900

コンパイルオプションについては、Repaのドキュメントに推奨設定の記述がありますね。ちょっと昔のGHCっぽい感じもしますが。今だと指定しなくてもあまり変わらないかもしれません http://hackage.haskell.org/package/repa-3.4.1.4/docs/Data-Array-Repa.html

maoe

2019-03-06 10:08:31 +0900

コードを見てないので高速化についてはコメントできませんが、repaがボトルネックであればmassivを使ってみると良いかもしれません。ここに比較があります
https://github.com/lehins/massiv/blob/master/README.md#other-libraries