Estimating the number of unseen species: How many words did Shakespeare know?
BRADLEY EFRON and RONALD THISTED
Biometrika Volume 63, Issue 3Pp. 435-447 (1976)


シェイクスピアはどのくらいの単語を知っていたのか,を見積もる統計手法の比較.
mathematical modelで比較するのは

どちらの手法でも少なくとも35000語(すでに実測されている異なり語は31534語)の
使われていないけれどもシェイクスピアの語彙の中にはあるであろうと.


基本的なモデルは単語ごとに平均出現数が異なる,ポアソン過程の足し合わせ.
平均出現数の分布は外から与えないと行けないけれど,それはあとで計算しやすいのもあり,
Fisherが提案したガンマ分布で行なっている.

ノンパラモデルの場合の微分方程式の解は,解析解と,ノンパラメトリックの場合のオイラー法を使った数値解析で確認.
あとFisherのモデルは負の二項分布を使ったモデルなど.

ともあれどちらも,語彙同士の相関などは考えていない.
また,生態系における種数の推定方法を応用した,という論文なので,
オリジナルの生態系の種数の推定方法の論文をチェックする必要あり.