Scaling Laws in Human Language
Linyuan Lu, Zi-Ke Zhang, Tao Zhou
arXiv:1202.2903


Zipf則に関して,英語フランス語などの西洋の言語と違って,
中国語,韓国語,日本語のべき指数が1にはなってないよ,という新たな主張(!).
Heaps則に関して,初期では指数が1,中盤で対数,最終状態で頭打ちになる,という主張.
Heaps則に関しては意義なしで,自分たちでも確認しているし,ほぼ自明のこと.

しかし,日本語の形態素解析したのかどうか,不明.日本語は東野圭吾の「白夜行」を使ったとのこと.
また,characterと言っているので.wordではないと思われるのだが.


モデルは,Yule-Simonモデルで基本,preferentialと同じ.
後はwordごとにattractivenessのεを考える.異なり語数は有限Vで,givenとする.
時刻tで新しい語の入ってくる確率は,総単語数N(t)に対して1-N(t)/V.
#N(t)->大で,マイナスにもなると思うのだが,どう処理するかは明記なし.

あとは単純に解いて行くだけ.重要なパラメータはVεで,単純な異なり語数ではなくそれに
attractivenessのεが入っているのがポイント.


理論は明快だし,面白いと思うのだけれどεが重要な役割をするわりには,十分な議論がなされていない.
εは語彙ごとに変化するなら添字のiだって必要だろうけれど,それもないし.
あと,中国語,韓国語,日本語のジップの指数1を否定するのも,本当に大丈夫なんだろうか.