Prominent Features of Rumor Propagation in Online Social Media
Sejeong. Kwon, Meeyoung Cha, Kyomin Jung, Wei Chen, and Yajun Wang
ICDM '2013 (2013), pp. 1103–1108.


rumorとnon-rumorの特徴を,temporal, structural, linguisticな特徴から分類した.temporalな結果を反映した時系列モデル,PESモデルを構築した.そして,このモデルと特徴からならる噂の分類器で,従来よりも高精度で噂を分類することに成功した.
小数サンプルでCase studyになりがちな噂の研究に対して,100以上のサンプルを集めてきている.
70と60のそれぞれrumorとnon-rumorのサンプルを集めてきて,さらに人力で4名を使って多数決で一致する場合のみ,rumorとnon-rumorへ最終的に分類している点は偉い.また,何よりもまとめ方がうまい.


Temporal propertiesに対しては,non-rumorは大きなピークが一度だけあるのに対して,rumorはわりとギザギザして揺らぎが大きいのが興味深い(Fig.1).
彼らの時系列モデル,PESモデルは以下のように項を付け加えることで構築.
[1] SIモデル:ベースとなる感染症のモデル
[2] SpikeM model by Matsubara et al. :SIモデルに(a) a power-law decay term(1.5乗のベキで感染力が弱まって行く効果)と(b)periodic interaction function(日中の方がユーザ間で会話が多い効果)を加えた
[3] Periodic External Shock (PEF)model:SpikeMに外的な効果(強さ,周期性)を入れた
#どんどん拡張するから,パラメータ大杉.また,power-law decayの根拠は何なのか気になった.Sornetteの講演でもpower-law decayを自然なものとして受け入れていたが,自然な減衰であればexponentialであるべきだと思うのだが・・・


Structural propertiesは,ノードはユーザだが,リンクはリツイートではなく,follow-follower関係から構築.もしBがAをフォローしていて,Bのツイート内容が過去にAが言及していた内容であれば,リンクができるネットワーク.rumorの方が散発的(singleton)で,non-rumorの方が大きなクラスターができやすいようだ.(Fig.2)また,低次数ノードから,高次数ノードへと拡散がおこることもrumorの特徴としてあった.
#過去をさかのぼる時間窓の大きさに関しては言及なし.結果には関係ないのだろうか.ともあれ,こんなことができるデータを大量に集められたことが偉大.


Linguistic propertiesは,LIWC(有償ソフトウェアで,Twitterを使ったP/N概日周期のScience論文にも使われていたやつ)を使って単語をクラスターしたらしい.P/Nだけではなく,social, affective, cognitive, perceptual, and biological processesの5つの主分類へとできるらしい.が,そのsentimentに関する部分は結果には反映されていない様子.結果としてはrumorにはnegativeな単語が多いよということ.例えば,no, never, but, without.他にも曖昧な表現perhaps, guessも含まれる.(Table 4)


時間窓とか細かいことはさておき,古めの心理学の文献も多く引用されているし,結果も大きく3つ.それを分類器に反映してこれまでよりも高精度でましたと,単純明快で爽快な読み応えの論文だった.いいところは見習おう.