Self reference in word definitions
D. Levary, J.-P. Eckmann, E. Moses, and T. Tlusty
arXiv:1103.2325


英語の辞書の言葉のネットワークの構造の解析。


使ったデータはeXtended WordNetというももので、
ノードが単語、辞書の意味中に用いられる単語に有向リンクができる。
但し、文書の意味をもっと表すと考えられる名詞に限る。
すると、79689ノード、285773リンクの有向ネットワークができる。
それを隣接行列に置き換えて、解析をスタートする。
ちなみにin-degreeのリンク分布はベキ、out-degreeのリンク分布はPoissonになる。


出来上がったネットワークでランダムに100単語を選ぶと、どの単語でも
30ステップ以内で6310単語に到達して、サチる。(上限で止まる。)
すなわち、6310単語で構成されるcoreが存在している。
しかも、coreの半数までに到達するまでのステップはおよそ12ステップで到達する。
ということで、core中では、密なネットワークになっていることが予想される。

さらにcoreの中を見ていくと、中にはloopが386個存在しており、その大きさは
2ノード含むものものから94ノード含むものまである。
しかし、20以上のループを含むものは4つだけ。
ループの大きさの分布は5ステップ以下のものか、それ以上かの2つのクラスに分けることができ、
5ステップよりも大きなループは、同義語としては意味のないものが多い。
(汽車のtrainと訓練として使われるtrain、の用な感じ。)
すなわち、実態として意味のあるループはほぼ5以下のものである。


さらに深くloopの起源を調べるため、単語が発生した年代を手動で辞書から調べて
対応させたところ、loop内の単語は、ランダムにした場合と比較して明らかに同年代に近い。
こういった観点から、言語の進化を理解できないか、という提案。


ちょっと、singular value decomposition(SVD)の方法は、
だいぶ省略されいてよく分からなかったが、出てきたloopを意味あるもの同士に
ラベル付けして、固有値で特徴付けをしていたのだと思われる。
#ランダムグラフ理論を知っていれば、もう少し理解できそう。


言語学系の専門用語っぽいのが頻出して、やや苦労。
etymology(語源)とか、disambiguate(曖昧さをなくす)とか。
同音意義語の扱いだとかはやはり、言語が違えど難しい。