haskell-jp / general #12

- Total allocなので、allocしてすぐ解放したような物もカウントされているのでは？
- HaskellというかParsecが遅い

あたりも考えられるので、詳しくは検証しないと分からない所です。メモリ使用量はともかく速度については、リークや文字列処理に気を遣って書いたHaskellはC++の5倍程度遅く、JVMロード時間を除いたJavaとトントンくらい、とされています。

as_capabl

2018-11-27 19:54:05 +0900

https://medium.com/@maoe/ghc%E3%83%92%E3%83%BC%E3%83%97%E3%83%97%E3%83%AD%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AA%E3%83%B3%E3%82%B0%E3%81%AE%E6%89%8B%E5%BC%95%E3%81%8D-md-bb8d180230f6

as_capabl

2018-11-27 19:55:10 +0900

Total allocよりも、Total memory in useを見るべきか。あとはグラフ化した奴も見れば色々分かるかもしれません

GrimssonG

2018-11-27 19:55:57 +0900

メモリに関しては載せていませんでしたが(すみません)単純にタスクマネージャーで見ていたの実行時の消費です。速度に関しては、並列化でどうにか頑張れると思うのですが、メモリ消費を減らす知見があれば教えていただけると大変助かります。要求ばかりですみません。

GrimssonG

2018-11-27 19:57:36 +0900

ただ、認識不足でしたが一度に読まずにバッチ処理をしろという意味だと思いますので(>>conduit )そちらで努力してみます。

GrimssonG

2018-11-27 20:00:12 +0900

ヒーププロファイリングのグラフ化は行ったことがなかったので今後利用させていただきます。ご教示助かります。ありがとうございました。

as_capabl

2018-11-27 20:18:24 +0900

conduitの敷居が高ければ、Lazy TextでgetContentsする->Lazyのlinesで分割->toStrict->パース　でも一応大丈夫ですね。あるいは他言語同様にgetLineでループして頑張るか

GrimssonG

2018-11-27 20:25:01 +0900

なるほど。遅延評価の活かし方参考になります。せっかくなのでstreamも勉強してみますが、当面の実装はそちらで試してみます。使い始めたものの全く扱えていないので大変勉強になります。

maoe

2018-11-28 12:50:28 +0900

データの使われ方によって対策が変わると思います。前から順にストリーム処理可能ならcassavaなどのstreamingインタフェースを使えば良さそうですが、全てのデータをメモリ上に保持してランダムアクセスする場合は[[Text]]ではなくもっとコンパクトなデータに変換するのが良いと思います。データが数値なら適切な数値型にしてunboxed vectorにするなどです。

maoe

2018-11-28 12:55:05 +0900

リストはかなり富豪的なデータ構造で大量の要素を保持しなければならない時にはメモリ使用量やGCの仕事量が増えて遅くなりがちなので気をつけないといけません

GrimssonG

2018-11-28 17:04:22 +0900

ご回答ありがとうございます.日本語混じりの文字列なので,数値型やBytestringなどは使えません.Unboxed vectorは,そのままTextを要素にできないように理解していましたが,
data NewText = NewText {text :: {-# Unpack #-} Text のようなものをBoxedVectorに入れても,同じ効果が得られるものでしょうか.

GrimssonG

2018-11-28 17:22:56 +0900

newtype にはUnpackプラグマは使えないのですね..修正しました

GrimssonG

2018-11-28 17:27:26 +0900

それと気になるのが,Parserのような処理で返り値をVectorにするとConsを各Char(をT.pack)したものに繰り返すことになりそうですが,そこが少し怖いです.以前,手当たり次第にVectorにしていて,snoc,cons,++あたりを繰り返して死んだことがあり,寧ろリストの方が安全ではないかと考えていました. いずれにしても手元で試させていただきます.

2018-11-29 02:31:59 +0900

勉強のために色々試してみたのですが、以下のように変更したら total memory in use が1/3ぐらいになりました。

cell = (quotedCell <|> many (noneOf ",\n\r")) >>= (\res -> return $! T.pack res)

as_capabl

2018-11-29 12:11:17 +0900

これ意識して避けるの絶対無理ですね…… Textでゴリゴリやりたい人はattoparsec使えって事なんでしょうか

igrep

2018-11-29 12:12:47 +0900

megaparsecとかtrifectaならまた違ったりするのかな。 :thinking_face:

maoe

2018-11-29 12:12:52 +0900

そもそもparsecはincremental parsingに対応していなかったと思うので、大きなデータを使う場合はattoparsecを使ってくださいということだと思います

2018-11-29 12:13:14 +0900

megaparsec でも書き直してみましたが、同様でした。attoparsec なら違うかもしれないですね。

as_capabl

2018-11-29 12:15:27 +0900

attoparsecは"Use the Text-oriented parsers whenever possible" に従えば大丈夫そう？　

2018-11-29 12:19:33 +0900

あと >>= で書いてある部分を do で書き換えて、全部の関数に型を明示的に書いたら、処理的には何も変更していませんが 50MB ぐらい減りましたね。

as_capabl

2018-11-29 12:20:24 +0900

Strict拡張があるので、doで変数束縛すると暗黙にseqが掛かるからそれじゃないですかね

2018-11-29 12:29:01 +0900

確かに手元で確認したら Strict 拡張の有無でプロファイル結果が変わったので、それっぽいです。

igrep

2018-11-29 14:51:29 +0900

ここまでくると途中経過のソース全部含めてBIG MOONの記事になっていて欲しくなりますね :pray:

2018-11-29 15:17:39 +0900

書いてみますね！

igrep

2018-11-29 15:19:00 +0900

@GrimssonG 念のため確認ですが、ソースを @ さんのブログに載せちゃっても大丈夫でしょうか。。。？

GrimssonG

2018-11-29 16:22:36 +0900

@igrep 問題ありません。皆さん色々議論してくださって大変勉強になりましたので是非残してください。

2018-11-30 11:34:45 +0900

お知らせです、MiniKanren やReasoned Schemer で知られるWilliam Byrd 氏(日本名:ウィルちゃん) が12月17日に茅場町でTalkされます。Abstractなどは後ほど出します^_^ https://www.meetup.com/ja-JP/Tokyo-Haskell-Meetup/events/ckxnrpyxqbvb/

igrep

2018-11-30 11:50:18 +0900

すみませんが、このチャンネルは相談か、このSlack Workspace自体についての連絡用に限定したいので、 event-announcement か random に移していただけないでしょうか？ :bow:

2018-12-01 22:45:50 +0900

@ has joined the channel