Entropic Evidence for Linguistic Structure in the Indus Script
R. P. N. Rao, N. Yadav, M. N. Vahia, H. Joglekar, R. Adhikari. and I. Mahadevan
Science Vol. 324 no. 5931 p. 1165 (2009)

今から2000年以上前に栄えたインダス文明の文字を,エントロピーの概念を使って解析しようというもの.
英語やプログラミング言語だけではなく,サンスクリット語や古いタミール語,さらにはDNAのシークエンスなども対象に,エントロピーを計算して語の配列のランダムさを比較した.


自然言語である比較したType1はDNAなどほぼランダムなもの,Type2はプログラミング言語で規則性があるもの.
条件付きエンロピー(conditional entropy)を比較したとき,自然言語はこれら2つの間のちょうど中間に位置する.その結果が,インダス文明の文字でもみられた,ということ.

未解読のインダス文字を、人工知能で解析


記号が同じか,違うかという情報は文字の意味が分かっていなくても解読可能なので,
同じようにHeaps則も象形文字でだって解析可能ということだ.面白い.
情報量のHeaps則の関係なども解析的に解けそうな気がしてきた.