• Analysis of Web Access Logs for Surveillance of Influenza

版元
MEDINFO 2004: Proceedings Of The 11th World Congress On Medical Informatics,
Part 1 Volume 107 of Studies in health technology and informatics (2004)
(略称:Stud.Health Technol. Inform. 107, 1202–1206 (2004).)

著者
H. Johnson, M. Wagner, W. Hogan, W. Chapman, R. Olszewski, J. Dowling, and G. Barnas

内容
アメリカのHealthlinkというウェブサイトの、
インフルエンザの分析(Diagnosis)や予防(Prevention)に関する17記事のアクセス数と、
実際にCDCから発表されるインフルエンザの疾患者数の相関を観測している。
異時刻相関分析(Cross Correlation Analysis)を用い、最も相関が強い場合を探している。
といっても時系列は週単位であつかっているので、かなり荒い分析。
予防の場合は同時刻の相関だが、分析の場合はCDCの発表を追う形で、アクセス数伸びる。
#これは記事がアップされたタイミングにもよると思うが・・・。
ちなみにアクセスログの解析にはPerlを用いている。
データも2001年から2002年にかけてのデータなのでやや古いが、
ウェブデータを利用した病気の流行に関して先駆的に新しい論文と言える。
2009年のGoogleのNature論文にも引用されている。



  • Using Web-based Search Data to Predict Macroeconomic Statistics

版元
Communications of the ACM
Volume 48, Issue 11 Pages: 87-92 (2005)

著者
M. Ettredge, J. Gerdes, and G. Karuga

内容
米国のBLS (the Bureau of Labor Statistics)が発表するレポートから算出した
月ごとの失業者数(number of unemployed for month seasonally adjusted)と、
WorldTrackerというソフトウェアを使って集めたサーチワード出現数の比較。
サーチワードは、「job search, jobs, Monster.com, resume, employment, job listing」で、
全サーチ数で規格化した数を用いている。
(we normalize the search term usage data by dividing this sum by the total number of searches during the same period.)
1日だけの検索数に着目したレート(usage rate)と、60日間の検索数に基づいたレートとで相関を算出。
「モデル」と本文中にはでてくるが、モデル式等の表記はなく、よくわからない。
とりあえず、失業者数及び失業保険の請求数(unemployment insurance claims)と
検索数には有意な相関があったよという話。