haskell-jp / questions #1

naohaq

2017-10-02 13:24:47 +0900

少なくともHackageのソースを見る限り https://hackage.haskell.org/package/bytestring-0.10.8.2/docs/src/Data.ByteString.html#local-6989586621679051445 、findEOFというローカル関数が "\n" かどうかしか見ていないのが直接的な原因ですね。で、ここで init で末尾の文字を取り除いた場合、改行コードが LF のみの環境では、末尾にある改行コードでない文字が削られてしまうので問題が起きます。

karoyakani

2017-10-02 14:21:55 +0900

@naohaq ありがとうございます　と言っても小生にはバグか仕様か分かりませんし　どう対処すべきなのか不明なのですが　まあ競プロなどにおいては　いっそのこと Data.Text.IO.getLine に乗り換えるべきでしょうか？　使った事が無いのですが　充分に速いのでしょうか　試してみます

fumieval

2017-10-02 15:09:32 +0900

https://github.com/haskell/bytestring/issues/13 Issueが上がっていますが放置されているみたいですね…\rも取れるように変えられないか聞いてみます

naohaq

2017-10-03 09:37:05 +0900

Data.ByteString のinitとlastはO(1)で計算されるみたいなので、とりあえずのworkaroundとして last str が '\r' に等しかったら init str を、そうでなければ str を返す関数を書いておくのはどうでしょうか

naohaq

2017-10-03 10:26:40 +0900

とりあえずこんな関数を書いてみました。 https://gist.github.com/naohaq/b90edfa7308dd8db51314829d005df5e

naohaq

2017-10-03 10:42:17 +0900

import qualified Data.ByteString.Char8 as C

chomp :: C.ByteString -> C.ByteString
chomp str | C.length str < 1   = str
          | C.last str == '\r' = C.init str
          | otherwise = str

naohaq

2017-10-03 12:58:08 +0900

CRもLFもCRLFも取り除けるように直してみた。

chomp :: C.ByteString -> C.ByteString
chomp str = chompCRLF $ chompCRLF str
  where chompCRLF s =
          case C.unsnoc s of
            Nothing -> s
            Just (s_c, '\r') -> s_c
            Just (s_c, '\n') -> s_c
            Just _ -> s

kazu

2017-10-03 14:57:43 +0900

log 2 x の整数部分だけが欲しくなることがよくあり、以下のようなコードを使うことが多いです。

log2Int :: Int -> Int
log2Int x = truncate $ logBase 2 $ fromIntegral x

計算が Int で閉じていて、速度が速い関数ってありますか？
fromIntegral と truncate が気に入らないとも言う。

naohaq

2017-10-03 15:01:33 +0900

Data.Bits の countLeadingZeros 使うのはどうですか？ https://hackage.haskell.org/package/base-4.10.0.0/docs/Data-Bits.html#v:countLeadingZeros

logBase2 x = finiteBitSize x - 1 - countLeadingZeros x

karoyakani

2017-10-03 15:15:12 +0900

@fumieval @naohaq Awesome, thank you much!

kazu

2017-10-03 15:22:56 +0900

おー！ありがとう！

kazu

2017-10-03 15:29:23 +0900

countLeadingZeros の Int 実装は clz# を呼んでますが、これって CPU 命令に翻訳されますか？
もしかして、自分で strings.h ffsll とかの FFI を定義しなくていい？？？？

kazu

2017-10-03 15:31:03 +0900

昔 ffsll が O(1) であること仮定したアルゴリズムを書いたことがあるんです。
素直に Data.Bits を使えばよかったのか？

naohaq

2017-10-03 16:01:24 +0900

とりあえずGHCのソースを見た感じだと、GHCのPrimitive Operation https://ghc.haskell.org/trac/ghc/wiki/Commentary/PrimOps として実装されているように見えます < clz#

kazu

2017-10-03 16:56:24 +0900

__builtin_clz*() is supported by GCC and Clang
ということで、コンパイラに任されるようですね。

naohaq

2017-10-04 09:26:30 +0900

そういえば、整数値をF_2を係数体とする多項式だと思って剰余を取る関数を書こうとしたときに、WordとかIntだと最上位の0じゃないビットを探すのにcountLeadingZerosが使えるけどIntegerだと使えないのをどうしようかと悩んだんですけど、こういうの普通はどうするんですかね？
(追記)FiniteBits a とそうでない場合で実装を分けたいんだけど、という疑問です

blackenedgold

2017-10-04 09:46:07 +0900

log_2 の整数部分じゃだめですか？

naohaq

2017-10-04 09:48:13 +0900

直前のkazuさんの質問を参照されたしー

blackenedgold

2017-10-04 09:49:07 +0900

おっと、thread見てなかったです

kazu

2017-10-04 10:39:53 +0900

リストから平衡二分木に変換するHaskell風のアルゴリズムがあれば教えてください。
ただし、ここでいう平衡二分木は、要素の数が2の累乗のとき、完全平衡になる二分木です。
左の部分木から詰めて行きます。
O(n)でできると思います。
スタックを使う命令的なアルゴリズムは知っています。

igrep

2017-10-04 10:42:42 +0900

Data.Map.fromListでやっているようなこと、ということでしょうか？

kazu

2017-10-04 10:42:43 +0900

あー、探索木ではありません。
リストに入っていた順に、底辺に要素が並べばいいです。

kazu

2017-10-04 10:44:54 +0900

ぶっちゃけていうと、Merkleハッシュ木をリストから作りたいのです。
https://goo.gl/pYMBDr

kazu

2017-10-04 10:51:52 +0900

mapAccumL とか使うのかな？
考える。

igrep

2017-10-04 11:26:06 +0900

すみません、逆にこちらから教えていただきたいのですが、
ハッシュ木というのは、大量（あるいは大容量？）のハッシュ値を一本の木にまとめて空間効率を高める、みたいなイメージであってますか？

naohaq

2017-10-04 11:41:20 +0900

結局、型クラスを作って Integer と {Int, Word, Word64, Word32, Word16, Word8} に対するinstantiationを陽に記述しました

kazu

2017-10-04 12:10:55 +0900

ハッシュ木の構造は
- 葉ノードが対象データのハッシュ値
- 中間ノードが、連結させた子のハッシュ値のハッシュ値
です。

kazu

2017-10-04 12:11:55 +0900

ハッシュ木の性質の全容は掴んでないのですが、2つのデータ間の整合性を高速に検証するために使われるのが一般的だと思います。

kazu

2017-10-04 12:14:59 +0900

僕が今取り組んでいるのは、Certificate Transparencyでして、これは世の中にある証明書すべてを書き込み系としては追加しかできないログに記録するという仕組みです。
読み出すことはできます。
このログにハッシュ木が使われています。
ユーザは、ハッシュ木の性質を使って、以下のことを高速に確かめられます。
- ある証明書がログの中に存在している
- ログが改ざんされてない

kazu

2017-10-04 12:17:04 +0900

Chrome が Symantec が発行する証明書を信用しなくしようとしてますが、これは Symantec が www.google.com の証明書を間違って発行したことによります。
それを見つけた手段が CT です。

kazu

2017-10-04 12:18:10 +0900

CT の仕様書である RFC 6962 って、結構酷かったんですが、改訂版は分かりやすくなっているし、具体的なアルゴリズムが載っているので、今実装して理解しようとしています。

kazu

2017-10-04 12:18:18 +0900

https://tools.ietf.org/html/draft-ietf-trans-rfc6962-bis-26

kazu

2017-10-04 13:13:05 +0900

こんな感じか：

import Data.Bits
import Data.List

data Tree a = Leaf a
            | Node (Tree a) (Tree a) deriving (Eq, Show)

singleton :: a -> Tree a
singleton = Leaf

join :: Tree a -> Tree a -> Tree a
join = Node

fromList :: [a] -> Tree a
fromList xs = reduce $ snd $ foldl' add (0,[]) $ map singleton xs
  where
    add (i,ts) t = (i+1, merge (mergeCount i) (t:ts))
    merge 0 ts        = ts
    merge n (t1:t2:ts) = merge (n - 1) (join t2 t1:ts)
    merge _ _ = error "merge"
    reduce [t] = t
    reduce (t1:t2:ts) = reduce (join t2 t1:ts)
    reduce _ = error "reduce"

mergeCount :: Int -> Int
mergeCount = countTrailingZeros . complement

fumieval

2017-10-04 20:02:22 +0900

これでどうでしょうか :sunglasses:

{-# LANGUAGE DeriveFoldable #-}
import Data.Foldable

data Tree a = Leaf a
            | Node (Tree a) (Tree a) deriving (Eq, Show, Foldable)

fromList :: [a] -> Tree a
fromList xs = case foldl' (flip $ push 0 . Leaf) [] xs of
  [] -> error "empty"
  [(_, r)] -> r
  ts -> error "incomplete"
  where
    push :: Int -> Tree a -> [(Int, Tree a)] -> [(Int, Tree a)]
    push m x ys'@((n, y) : ys)
      | m == n = push (m + 1) (Node y x) ys
      | otherwise = (m, x) : ys'
    push m x [] = [(m, x)]

nobsun

2017-10-05 01:38:31 +0900

ぱっと思いつくのは、

data Tree a = Leaf a | Node (Tree a) (Tree a) deriving (Show)

fromList :: [a] -> Tree a
fromList [] = error "No Element"
fromList xs = construct (map Leaf xs)

construct :: [Tree a] -> Tree a
construct [t] = t
construct ts  = construct (pairing ts)

pairing :: [Tree a] -> [Tree a]
pairing (t:u:vs) = Node t u : pairing vs
pairing ts       = ts

pogin

2017-10-05 01:41:04 +0900

@pogin has joined the channel

kazu

2017-10-05 11:06:20 +0900

あー、なるほど。
言われてみると、簡単な話でしたね。> nobsun

kazu

2017-10-05 11:06:39 +0900

fumieval くんもありがとう！

kazu

2017-10-10 16:23:48 +0900

GHCのmissing-home-modules警告について教えてください。
cabalファイルにlibraryとexecutableがあって、executableの方がコンパイルされる際にlibraryで列挙しているモジュールを列挙せよと警告が出ます。
executableの依存関係に、そのlibraryを書いてあるので警告が出るべきではないと思うのですが。。。
モジュールを列挙せずに警告をなくすにはどうすればいいでしょうか？

igrep

2017-10-10 16:30:04 +0900

なんだかさっと https://ghc.haskell.org/trac/ghc/ticket/13129 を読む限り、仕様通りの挙動じゃないように聞こえますね。。。 :sweat:
executableの方の other-modules に libraryのmoduleを列挙せよ、と警告してくるんですか？

maoe

2017-10-10 21:09:55 +0900

なんとなくの推測ですがhs-source-dirsがデフォルトの.になっててexecutableがbuild-dependsに指定したライブラリではなく、ソースファイルを直接見に行ってるとかないですか？

maoe

2017-10-10 21:13:06 +0900

cabal buildでlibとexeで同じモジュールを再コンパイルしていたら多分当たってます

kazu

2017-10-11 12:08:22 +0900

@maoe ビンゴでした。
test のソースはディレクトリを分けないと、自分に依存できない問題と同じでした！
ありがとうございます。

eliza0x

2017-10-12 07:54:56 +0900

質問です、Haskellにおいて余再帰とは末尾再起でない関数のことを指すのでしょうか？あと、この記事()で