FIT2013メモ(情報科学技術フォーラム)

2013.09.05
[1] まつもとゆきひろ 講演
言語マニア,現存する唯一の松江市名誉市民,初代は小泉八雲
鶏口牛後,代替不可能な人材となるべし
すでにあるものを使う,巨人の肩の上に乗る
仕事が楽しくて何が悪い
動いていれば,勝手に助けてくれることもある
英語は苦手だったが,なんとかマニュアルを作って公開したら,ネイティブが直してくれた
英語は手段であって目的ではない
プログラミングの限界は,言語を変えることで対応,そこはブルーオーシャン
同じ言語を使えば,同じ「国籍」

[質問]米子から,筑波大だった理由は? by 西尾先生
そこの大学がちょうど良かった.1986年つくば万博に行きたい
行ったら欲しかった環境があった(天国) プログラミングの本,論文,コンピュータ
つくばエクスプレスができて,つくば「らしさ」や良さが失われた,他の大学と差別化ができていなくなった
入学当初のつくばは,新しいことをやるぞという気概があふれていた


2013.09.06
AM
[1] データマイニングによるプライバシー侵害を防ぐデータベース構築 金森祥子(情報通信研究機構)
suica データ使用拒否 3.9万(2013.9現在)
乗車履歴,生年月,利用額が残っている
ID,名前,電話,生年月日の日を匿名化
能動的プライバシー(公開設定可能) → だけではプライバシー侵害を防止できない

[2] ヒット現象の数理モデルによるAKB総選挙予測 太田(鳥取大)
候補者 246人 約260万票 16人が選抜メンバー
6-16位入れ替わりが激しく,境目の得票差は僅か
固定票+浮動票(ヒットモデルはこちらの動き)
固定票 -> ベースライン?どう決めた?,ベースラインとモデルパラメータの関係は?ブログ?
間接コミュニケーションの係数が強ければ,順位がアップする (差を取ったり,順位相関でもっとクリアに示して欲しい)
[質問]「意欲」の意味が分からない,定量的に測れるものか?
$定量的にはかれないので,モデルから見積もっている.アンケートなら可能だろうが
ブログを使った理由? TwitterSNSではないのは?
→他のものはノイズが多過ぎる,中間速報の意欲の高まりを再現できる
どうやって直接,間接に分けているのか?
$数理モデルを記述するときに誤差が最小になるパラメータを選ぶ

[3] ヒット現象の数理モデルによる広告費と売上の関係性 谷村(鳥取大)
はじめのスライド:興行収入/テレビ件数 = 倍率 vs 広告費 だと,
テレビ件数と広告費は比例することは確認したか,なぜわざわざ倍率にしたか?
公開前と公開後でパラメータ変える(既に観た人とそうでない人) → ややこしくなるので近似関数を使う
I(t) = a*t*exp(-bt) aとbがパラメータ となる近似関数を当てはめる
Z1が広告の強さを表す Z1にa,b,直接,間接コミュニケーション,広告の強さのパラメータ含む
Z1とZ2の違い??
[質問] 人はそれぞれ違うはずなのに,なんで数理モデルで記述できるのか?
$集団としてみると,ヘテロ性が無視できる
推定したパラメータはどのくらいか?
→減衰項のαは6%を用いているby石井先生
$佐野の考えた回答

[4] 構造化されたコンセプトに基づくM-GTAを用いたWebサイトの設計手法の提案 大塚(同大)
M-GTAってなに?「体系的知識」
専門家にインタビューして,そこから体系的知識を抽出し,ウェブサイトに反映させる
Nikeのページおもしろそう.Nike+Sports

[5] 国会答弁の言語特徴量と印象の相関調査 御崎(電通大)
小磯花絵 テキストの多様性を捉える分類手法 (参考文献)
動画をみて,被験者は,16項目の5段階評価でアンケート
同じ被験者,同じ動画でも評価が変わる → どのくらいのずれ?
動画の長さは10分ずつ
名詞率,句読点の数なので因子分析しても,得票率に効く因子は発見できなかった

[6] Twitterにおけるコミュニティ分析に関する検討 佐藤(日大)
高速なコミュニティ抽出手法と類似姓分析が目的
Newman + n-Clan
HITSでハブ度とオーソリティ度が0.05以上のもののみとした → How many? & Why?

[7] 日中足株価を用いた株式掲示板と株式市場の関係 梅原(都市大)
株価を他の変数で説明する (経済物理は株価のみ by Maskawaら)
夜の投稿が多い(over night)
データ Yahoo!ファイナンス掲示板 2003年4M記事
否定語の処理 → 「ない,ません,ず,ぬ」は単語の前につける
6989単語 Tf/IDF > 10.5の単語
お互いのフィードバック効果は?どちらが先行するとかあるのか?→価格が先行
中立をすてているが,全体の規格化用などに使うと精度が上がる可能性もあるのでは?

PM
[1] 計算限界解明 渡辺(東工大/情報理工)
P≠NP問題
解の発見と検証は等価ではない
発見の方が検証よりはるかに難しい
e.g.,三彩色問題での組み合わせ爆発 

[2] 離散構造処理系に関する計算量解析と実問題への適用 湊(北大)
大規模粗行列 → ZDDで圧縮できる
e.g.,) 自然言語の共起,論文引用,「おねえさんの問題=self-avoiding random walk」
飛び越しリンク(Z-Skip-Link)による改良

[3] 巨大グラフの解析とアルゴリズム 河原林(NII)
モデル化(統計物理),モデル化の妥当性(離散数学),データでの検証(計算機科学),社会的考察(心理学)
成果の例:Pagerank計算の高速化 by 木分解 → 最大5倍
グラル理論+アルゴリズム数値計算機械学習+統計物理+実装力(+マシン力) で,既存の計算を高速化する
ERATOプロジェクトのもう一つの目標: (U-32の)若手研究者の育成
STOC, LICS, SIGMOD, AAAI, IJCAI, ICML, FOCS, SIGCOM 世界のトップジャーナルへ

[4] マイクロブログではどの程度流言が訂正されるのか? 宮部(京大)
流言関連ツイート:3.4万件/2.8万人
「流言情報クラウド」2012.6~ の構築 → 1年間運用した結果の報告
流言の判定は困難 → 訂正情報ツイート4万件に注目 判定は??
訂正情報の方が判定しやすいから
1つの流言に対して,どの程度訂正されたか.1日あたり109件,訂正されたデマは14件
2953件の流言が訂正されたが,大半(1838件)は訂正数が1
訂正まで,どのくらいのラグがあるのか?→8種類分析したが,明確な特徴は見えていない
流言人と訂正人の関わりは?→データがないのでなんとも.本人の訂正は15%程度

[5] ソーシャルメディアの常道に着目した実世界事象予測の提案 池田(KDDI)
情動表現:顔文字,感嘆符 パターンマッチによる検索
顔文字は手で入力しています,そういう部隊がいるので
Twitterの反応からテレビで放送されるか否かを予測する
ツイートの収集期間は? → ネットのニュースが出てから約3時間くらい.TVに出るまでの短期間
放送があるニュースが情動表現が多い