Bloom filterの最適なパラメータについて調べてみた

最近、AWS Glueのことについて調べていると、Bloom filterがよく出てきました。 Bloom filterは、データの存在確認を効率的に行うための確率的データ構造ですが、wikipediaを見ると偽陽性の発生確率を最小にするパラメータの組み合わせが載っていました。

今日は暇なので、このパラメータが本当なのか/どんな分布なのか簡単にRustで検証してみます。

[Read More]