Fluctuations in Wikipedia access-rate and edit-event data
Mirko Kämpf, , Sebastian Tismer, Jan W. Kantelhardt, Lev Muchnik
Physica A 391 (2012) 6101–6111


Wikipeidaへのアクセス率とedit回数を用いて,バースト性をチェックしたもの。
バーストの前後の定義は,ピーク時のexp(-1)倍になるかどうかで定義。また,バースト期間の当てはまりも許さない。そして,ピークの前後でバーストの継続時間をチェック。(Fig.2)
それぞれでべき関数と指数関数をフィットしたところ,指数フィットの特性時間が24時間以内,べきフィットのべき指数が0.3より大きいところはまだ,当てはまりが良い傾向があった。しかし,全体としては,どちらも当てはまりが悪く,異なる強度のランダムノイズが主要な役割をしているという結論。この結論は,そもそもバーストの定義がアドホックなのでちょっと不完全な印象。


異なる強度のランダムノイズ+非定常,というところで使える手法で導入されるのがDeterended Flucuation Analysis (DFA)。DFAフラクタル解析法の一つで,観測データの積分値について,局所トレンドを除いたあとのノイズを足し上げ,観測窓を変えてどう変化するかをみて,その指数で判定する。指数は0.5であればホワイトノイズ,1.0であれば1/f揺らぎ,となる。結果,指数はランダムなものと,バースト性が強いものでどちらも平均値が0.9程度になるが,バースト性が強いものは分布の裾野が広い。


論文の結論としてはアクセスはスケーリング則がなりたち何がしかの相関を持つ。他方,editはホワイトノイズに近く,長時間相関はみられない。アクセス自体も,なぜ相関が生じるのかは(他の人がアクセスしている様子などは分からないはずなのに),まだ良くわからない。


ついでにバーストから元に戻るまでのinter event timeの分布を見た所,stretched exponentialになっていた。このstretched exponentialは他にもいろいろな現象で確認されているようだ。

Measuring Emotional Contagion in Social Media
Emilio Ferrara, Zeyao Yang
arXiv:1506.06021

1年前のFacebookで「感情は伝搬する」実験と研究が行われたが,これをより自然な形でtwitterを使って行った研究。
SentiStrenghというソフトウェアを使ってツイートのポジネがスコアを計算した。ある人物のツイートに注目して,そのツイートのスコアと,彼がフォローしている人からの1時間前にさかのぼったツイートをのスコアを計算したところ,そのスコアにわずかに相関関係が観られた。さらに,null modelと比較してその差が有意であったことから,もこれをもって,感情が伝播としている。また,感染しやすい人とそうでない人の2つのクラスが観測できたとのこと。


Quantifying the Effect of Sentiment on Information Diffusion in Social Media
Emilio Ferrara, Zeyao Yang
arXiv:11506.06072

同じ著者らによる,今度は伝播ではなく,Twitter空間のポジネガ観測に関する研究。特に1) anticipatory, 2) unexpected, 3) symmetric, 4) transient のhash tagsイベントに注目してポジネガどちらが多いのかというのを比較。まずはポリアンナ仮説の検証から入って,ポジティブが多いことを確認し,それに対して1)のイベントはポジティブが多く,2)の方はネガティブがやや多めとのこと。
negativeの方が広まりは早いが,positiveの方が広まりが大きい,と結論づけているがその根拠となる部分はイマイチ明らかになっていない。ともあれ,これが,非常時にデマが広がりやすい原因ではないか,ともコメント。
いろいろ突っ込みどころがあって,2)は我々の分類でいうニュース語であって,ノーベル賞受賞から,訃報までポジネガ両方あることは明らか。それをネガ多めと結論付けるのは強引すぎではないか。


また,彼らが使っているSentiStrengthを調べて使ってみたところ,日本語も使えるようだった。しかし「犬」「美味しい」どちらもスコアはポジ+1,ネガ-1で結果はニュートラルになった。日本語はまだ使い物にならないかもしれない。

久しぶりにsortコマンドをまじまじ触っていたのだが,きっちり4列目,次に2列目でsort,としたい場合には,

sort -k4,4 -k2,2

とすることが必要。3列目だけでまず1番key,次に2列目だけで2番keyと明示的に示す必要がある。
数字オプションとか入れる場合は以下。

sort -k4nr,4, -k2,2

参考

Contextual analysis framework for bursty dynamics
Hang-Hyun Jo, Raj Kumar Pan, Juan I. Perotti, and Kimmo Kaski
Phys. Rev. E 87, 062131 (2013)


自然界,人間の行動でよく見られるburstについて,ただ単にイベントが起きた,起きないだけでは深く理解できない.イベントには,文脈(context)があるはずだ,ということでイベントをさらに,個別のイベント(A,B,C等)に分解して,その上で,さらにinter event timeを,実時間とorder単位でみる,という話.元の文脈不依存のバーストをcollective burstと呼び,実時間でのinter event timeのべき分布のべき指数をα,文脈依存のorder単位のinter event timeをβとして,文脈依存の実時間のinter event timeのべき指数をα'としたとき,それぞれの指数の関係を解析解+シミュレーションで確認している.

  • α<2 && β<2 : α'=(α-1)(β-1) + 1
  • α>2 && β<α : α'=β : 実時間のcontextual burstは,order単位のcontextual burstが支配的.
  • β>2 && α<β : α'=α : 実時間のcontextual burstは,実時間のcollective burstが支配的.


本文中にも書いているけれど,ただし,データ数が限られている場合はデータにカットオフがあったりする場合も考慮されている.さらには自明な季節成分を密度で除算した場合には,一般にburstの性質を弱めることを解析的にも示している.


このcontextual burstというコンセプトは面白いし,実社会現象でも言えることなので,自然と受け入れられる.ただ,実データはどのくらいの指数なのか等がなくて残念.
モデルの解析は,canonical partition function for mass transport modelなんかを持ち出して,統計物理の先行研究と絡めながらやっているのが難しいけれど,読み応えがあって面白く,べき指数の相図(Fig.2)は見応えがある.

Fluctuation Scaling, Taylor’s Law, and Crime
Q. S. Hanley, S. Khatun, A. Yosef, and R.-M. Dyer, PLoS ONE 9, e109004 (2014).

イギリスの月ごとの犯罪の発生件数時系列が,Taylor's fluctuation scalingを示しているよ,という論文.(Temporal fluctuation scaling) で,このscalingの係数を犯罪の内訳ごとや地域ごとでも比較した.すると,地域ごとでは係数に有意差はなかったが,暴力の発生件数は差があった.暴力事件はポワソン的だったが,窃盗は係数が大きい傾向があり,すなわち窃盗発生がクラスターする傾向があることがわかる.

犯罪件数と比較するデータとして死亡件数のデータで調べたところ,scaling係数と切片の関係を調べたところ.scaling係数が大きくなると,切片が小さくなる負の相関関係があるそうだ.これは犯罪件数でも同じ傾向.

また,FSはphotonの時系列解析にも使われているそうで,これは知らなかった.光検出に使われているCCD(Charge-coupled device;電荷結合素子)で,入力信号を測定するときにポワソン的だったかそうでなかったのかの判定に使えるそうだ.この話は,今後,私もTaylor's lawに関する話をするのに,応用例として使えそう.


データポイントは少ないし,フィッティング方法はただ単にログとった値に対して線形回帰しているだけなので,ちょっとその部分はいいのか,と不満ではあるのだけれど,まあこうやって犯罪の背後に潜む異なるメカニズムを探る一つの手段としてはアリかな,という印象.

Mobile Phone Call Data as a Regional Socio-Economic Proxy Indicator
Šćepanović S, Mishkovski I, Hui P, Nurminen JK, Ylä-Jääski A (2015)
PLoS ONE 10(4): e0124160. doi: 10.1371/journal.pone.0124160

有名なコートジボワールのOrange,D4Dの提供する携帯電話データを使った解析.
自宅と職場への移動行動から,あるエリアの貧困の度合いがおよそわかるよ,という話.policy-makerの意思決定にも使える,とのこと.
ひたすらデータ解析,地図上にプロットという構成であまり真新しさはなかった.
最近,こういう研究の話は多いのだけど,何となく単なる既存のマクロ社会指標などとの比較で終わっている.これをを超えて,新しい科学的な発見か,わかりやすい社会に対する貢献ができてくればいいのに.自分も含めて考え中.
それにしても,ヨーロッパ系の携帯電話会社が,アフリカのデータを公開して,これを発展途上国への貢献だ,科学への貢献だと主張するのは違和感がある.だったら,自分の国のデータを公開しろよ,とツッコミたくなる.自分の国のデータは規制が厳しくてできないのなら,発展途上国の法規制の届かないところでやろう,というのは都合良すぎではないか.

Quantifying Regional Differences in the Length of Twitter Messages
C. M. Alis, M. T. Lim, H. S. Moat, D. Barchiesi, T. Preis, and S. R. Bishop,
PLoS ONE 10, e0122278 (2015).

USではTwitterのMessage長が地域によって違うらしい.しかもそれは黒人の比率と関係があるそうだ.なぜならスラングを多用するから.というをUKでも試してみましたよ,という論文.結局,UKではエリアによる差はなく,あっても1,2 character程度とのこと.message長の中央値はおよそ,30~57.5 charatersといったところ.

We were able to consider 3,443,773 messages posted throughout the various regions of the UK. However, we found no significant evidence of a North-South divide in the message lengths.


USの場合のMessage長は地域差があるという,話はこちら.
Spatio-Temporal Variation of Conversational Utterances on Twitter
C. M. Alis and M. T. Lim,
PLoS ONE 8, e77793 (2013).

Message長さの分布は,およそ20のところにピークがあって,なだらかに減少し,140手前の120あたりで再び少し盛り上がる.中央値はUKの場合と同じ30-50の間くらい.2009年から2012年までの間になだらかに減少していく傾向はあるようだ.