サンプル数がある程度少ないとき、世界全体でのアレル頻度分布と、少ないサンプル数でのアレル頻度分布は変わるかもしれない。

実際のプログラミングについて考えると、最初100個RVを設定していても、多分100種類も観察されていなくて、重要なのはどちらかというと何個観察されているか、だと思う。

アレル頻度モデルは、下の図に近似させるが、サンプル200人なら実際どの程度それぞれの頻度のRVを持っているかを調べるのは重要かもしれない。
というのは、実際200人持ってきたとき、0.01%のRVなんてほぼ見つからないからだ。
観察されるRVを100個、と決めるようにしないと、よくない、はず。

このアレル頻度モデルでやると、MSTの辺の和は常に長くなる感じがする。

この図のka=300くらいなので、黒そう。白いほど検出力がいい。