Word lengths are optimized for efficient communication
Steven T. Piantadosi, Harry Tily, and Edward Gibson
PNAS Published online before print, doi: 10.1073/pnas.1012551108 (2011)


タイトル通り、単語長はコミュニケーション用に最適化されている、という内容。
スタートはZipfの法則で、文章中で使用頻度がn番目に多い単語の全体に占める割合は1/nになる、というもの。(nが大きいほど、よく使用されるtheとかに対応。)
さらにZipfの説明では、単語長は出現頻度によって第一に決まる、とされているが、
本論文では、単語長はinformation contentによって決まる、と結論される。
Zipfの法則が成り立っていることは間違いないが、それを実現しているキーメカニズムである単語長は、information contentによって決まっている、と主張している。


論文ではn-gramという手法で、contextを測定し、単語長は綴りの長さで決定。
これを英語だけではなく、チェコ語からスウェーデン語までの10言語で測定。
(中国語とか日本語なんかの分かち書きができない言語は対象になっていない。)
context中のターゲット単語wの出現確率を計算して、information contentを数値化する。
そうしたときに、frequencyよりinformation contentの方が、単語長と相関が強い、という結果を得ている。(Fig.2)


個人的な感想としてはinformation contentの計算方法がまだ釈然としない。
そもそもinformation contentの意味を確認したい。
結論としてはFig.2をみるだけで十分。