Quantitative Analysis of Culture Using Millions of Digitized Books

Jean-Baptiste Michel, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray,
The Google Books Team, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig,
Jon Orwant, Steven Pinker, Martin A. Nowak, and Erez Lieberman Aiden

Science Vol. 331 no. 6014 pp. 176-182 (14 January 2010)
DOI: 10.1126/science.1199644


Googleが世界中の本をスキャンして検索対象にするとうプロジェクトが
進んでいるのは知っていたけれど、そのデータを対象に解析もしているよ、という論文。
1800年から2000年までに出版された本をひたすらデジタル化して、
これまでに出版された本の約4%から作成したコーパス(語彙集)を作成。
語彙の出現頻度から、世界の人々の関心事項などを読み解き、新しいCulturomicsの樹立を目指す。
このプロジェクトを通して、少なくとも以下の2つに使えるとしている。

  1. 辞書に登録されていない言葉の発掘 (finding low-frequency of words)
  2. 現在の言葉のトレンドの正確な見積もり(providing acculate estimates of current frequency trends)


論文は図だけをババババとみてもすぐ分かる。
大半が横軸が時間、縦軸が語の出現頻度、ってな具合で例えば

  • 「burnt」「burned」を比較することで文法の発展及び英米の比較
  • 「1883」「1950」を比較することで過去の関心事項の持続度
  • 「Marilyn Monroe」や「Che Guevara」を比較することで人の知名度とその持続度
  • 「Marc Chagall」などを英独で比較することによりナチスの検閲、弾圧の痕跡
  • 「influenza」と実際のパンデミックの重ね合わせ
  • 「God」の出現頻度の減少

なんかを次々「こんなんでましたーー」って感じで紹介している。


個人的に面白い+その結論付けて大丈夫か?、と思ったのが
今、自分も扱っている人がいつまで関心を持続するか、の部分。
「1951」(年)という語は、ピークから半分の量になるまでに30年かかっているのに、
「1973」はピークから半分になるまでに10年。(SOMによると指数減衰という結論。)
年だけではなく人の名前ですら、忘れ去られるのが早くなっているそうだ。
人の名前は、有名になるスピードも早くなっているが、忘れ去られるのも早くなっている。
ただ、それって、「本」に限った話だし、そもそも1950年代と1970年代では
出版される本の冊数も違うわけで、いくらその年の全出版数で割ったとしても、
そこにはまだバイアスがかかっていると思うだけど。


後はナチスに弾圧された期間とそうでない期間の、出現頻度の割合で、
弾圧指数(suppression index)なんかも作っていてちょっと面白かった。
データからこうやって「過ち」が数値化されてくるというのも、興味深い。


今は、googleのことだからきっとbillion×billionのオーダーで言葉のマトリクスでもつくって、
各年代の影響がある言葉を、ページランクとか使って観ているのだろうか。
それとも、このコーパスを使って自動的に物語を作り出すような、
作家ロボットでももくろんでいるのだろうか。
どちらにせよ、今後の研究の発展に期待。


ちなににSupporting Online MaterialはExpress版とは大幅に更新されているので、
先にSOMだけ手元に持っていた私は混乱しました。しかもページ数が膨大。