Quantitative analysis of bloggers' collective behavior powered by emotions
Marija Mitrović, Georgios Paltoglou and Bosiljka Tadić
J. Stat. Mech. (2011) P02005


自分の論文をイントロで引用してくれていた論文。
面白い結論としては、過度なネガティブなコメントがネットワークのコミュニティ成長を促しているようだ、という部分。
#ちなみに彼らが提案するnetwork-automaton modelというのは、パラメータも多く、
Ad-hocな感じ、当然、解析解等の理論解析はないので、深入りはしないでおく。


本論文のタイトルでBloggerと言いつつも、扱っているのはdigg.comのデータ。
digg.comではユーザ全員に個別のIDがあり、
short story(post)を皆で掘り下げるか(digg)、やめるか(bury)を決める。
すなわち、postについてコメント、その後さらにコメントについてコメント(comment-on-comment)
することで議論を深めて行く、というサイト。APIでデータは取得できるとのこと。


そこで何を観測するのかというと、主にはネットワーク構造とユーザの行動(個人、集団)と言ったところ。
具体的には以下の3点。

  • Community structure
  • Temporal patterns of usr actions
  • Avalanches of (emotional) comments



ネットワーク構造は、ノードは以下2つで定義する2部グラフ(bipartite network)になっている。

  1. ユーザ
  2. 記事やコメント


リンクは、ユーザが記事(コメント)を書く、ユーザが記事(コメント)を読むという行為によって定義。
こういった2部グラフについてはKleinbergらの本が詳しい。
ネットワークを定義したところで、eigenvalue spectrum analysis of Laplacian operatorに基づいた方法でコミュニティを抽出。
3つのコミュニティを抽出して、参加者数やなどの時間発展を観測する。
すると、positiveからnegativeへ変わった人の割合の変化から、
コミュニティ内のユーザの増分は、過多なnegativeなコメントと近く相関(closely correlated)だといことが分かった。
#しかしながら、その証拠となるようなクリアな図はない。Supporting materialにあるのかも。


Temporal patternで面白い結果としては、1つのコメントがされて、
次のコメントが来るまでの時間間隔は、ベキ分布に近く、
5分から24時間以内だと、べき指数は1.25、24時間から8週間程度だと1.5くらいになる。
この特性は全コメントの場合と、negativeコメントで共通だが、
5分以内の場合は、全コメントとnegativeコメントには明らかな差異があり、
negativeな場合にはベキ分布になっていない。(5分以内は連続的にnegativeコメントが入る。)


Avalanceds of commentsに関しては、地震等と同様のSelf-Organizing critical phenomenaで
説明できるようだ。ただ、その時のユニバーサルクラス(~べき指数)は、
digg.comデータの場合、普遍的なものは存在していなくて、様々な要因で代わりOpen questionだ、とのこと。


さて、で、そもそもemotionalの定義だが、これは巻末に少し説明されているように、
1000000 blogのデータで機械学習させた解析器を使う。
具体的には Hieralchical Language Model (h-LM) classiferというのを使い、
Positive/Negative、Subjective/Objectiveを分類しているとのこと。


ともあれ、Negativeな感情がコミュニティとか全体を動かしている、というのは
なかなか面白いのかもしれない。せっかくだからNegativeの話をもっと掘り下げてみてほしいと思った。

Networks, Crowds, and Markets: Reasoning about a Highly Connected World

Networks, Crowds, and Markets: Reasoning about a Highly Connected World