2012-10-01から1ヶ月間の記事一覧

Science Updateのネタより. ミツバチは始めは保育士として働き,ワーカーとしてえさを探しに行き,戻ったらまた保育士として働くらしい. 科学者たちは,ハチの脳のDNAを解析して,このリバーシブルな後成的(epigenetic)変換に150の遺伝子が関わっているこ…

久しぶりにmecabの標準辞書をDLして確認した.過去の自分の作業を検証するため. IPA 辞書(推奨)をサイトからDLした. 中に,Conjunction.csvとか品詞別に辞書がある. 形容詞はAdj.csvで,全部で27210項目あるのだが,これは各形容詞の活用形(仮定,過去形…

連想配列を駆使してデマツイートした人たちの全ツイートを抽出. for i in `ls | grep ^2011-03-1`;do echo $i;awk -f Multiple2.awk Member_Dema.txt $i >> MembersTweet_Dema.txt;done;んで,Multiple2.awkの中. BEGIN{ FS=" "; } FILENAME == ARGV[1]{ #…

震災データ. デマツイートをした人の内訳. 1 36426 2 1670 3 158 4 31 5 10 6 2 7 1 8 1 9 4 11 1 13 2 14 3 Total 3830995%の人が1回ツイートのみ.

東日本大震災ワークショップのデータ利用規約.Twitter Upon the conclusion of the Workshop , you may publicly display and/or showcase (e.g., on a blog, website, or at a conference) your Experiment for noncommercial purposes for up to three (3…

桃李言わざれども下自ずから蹊を成す 李広は清廉な人物であり、泉を発見すれば部下を先に飲ませ、食事も下士官と共にし、全員が食事を始めるまで自分の分には手をつけなかったという。 後に司馬遷はこの人柄について触れ、「桃李言わざれども下自ずから蹊を…

python+mecabで4千万ツイートくらいの形態素解析をしていたら,segmentation faultがでて落ちる. いつも同じ箇所(43万行目)で落ちる,ファイルを変えると同じように43万行目の場合と,78万行目で落ちる場合があった. pythonで,行の形態素解析かける前に,…

ツイッターで,返信マークの「@ZeroSano」みたいなのを削除する. gsub(/^@+[ -~]*/,"",$1); @から始まる連続した半角英数を削除している.

mecabの辞書に顔文字を追加してみた. エスケープ文字がどう処理されているのかよくわからないが, ( 0,0,無品詞,顔文字,*,*,*,*,"がんがれ,*,*,顔文字, ミ 0,0,0,無品詞,顔文字,*,*,*,*,"ちびふさ,*,*,顔文字, が,たくさん出力される.なぜだろうか...…

蛇足2. ツイートの文字数が全角でも半角でも140文字が上限というのは,SMSから来ている. SMSは160文字が上限だが,ヘッダー情報とか20文字分を入れると140文字本文にあてたとか. Twitterの140文字制限の理由について調べてみたら意外と奥深く感じた件 ん…

東大地震研助教の大木さんのブログを読む. 彼女は正確には地震学者でも地震そのものではなく,防災教育が専門らしい.そちらへ転身したと記述あり. だから,いつも「私と話をした人は死なせない!」と強い思いをもっている. リスク研究学会大会発表論文賞…

タブ区切り,1カラム目の数字昇順,重複は避けてソートする. sort -t \t -k1n -u File.txtセパレータにダブルコーテーションの指定など不要. 参考

バラバシの名前入力が面倒だ.Albert-László Barabási.Macは Option + e + a = aのアクセント, Option + e + o = oのアクセント,TeXバージョン Albert-L\'aszl\'o Barab\'asi mecabの辞書を更新する.sano2という前のディレクトリに存在していて,ユーザ…

pythonプログラム中で,直接 x== "名詞"みたいにしようとすると,プログラム内で ユニコード変換とか必要で面倒.そこで引数で日本語を指定すると,簡単に通る. word = sys.argv[1] phase = sys.argv[2] print 'Word: %s' % word, (中略) while n1: if (n1.…

なんだかセパレーターがうまく動かない時は,改行コードが デフォルトかどうか確認すべし.RSで指定している. awk 'BEGIN{FS="\x01";RS="\n"}{print $1}' 1.csv

Acrobat ProはPDFファイルを編集できて便利なのだけれど,いまいち使いこなせない. ちょっと,オブジェクトの位置を変えたい場合は,ツール > オブジェクトの編集,を押して対象を選択. 矢印キーかドラックで移動.選択しすぎた場合,追加選択する場合はシ…

群れはなぜ同じ方向を目指すのか?/レン・フィッシャーありの群れ,魚の群れ,人の群れの話. 複雑ネットワークの話や,人間の意思決定の話などもありネタは盛りだくさんな本. 2章,「群れと自己組織化」p.53 つまり私たちは集団内に別の目標が存在しないか…

R R

Rで自己相関関数を出力. namesで確認して,必要な値~$acfのみをファイルに出力する. FN <- paste("Acf_",commandArgs()[5],sep="") ax <- acf(x[,2],lag.max=60) write.table(ax$acf,FN,append=F,quote=F,col.names=F,row.names=F)

bibtexで日本語の文献の場合,出力がうまくいかない. 記事はNGで,本ならギリギリOKの様子. 多分,英語フォーマットで出力しようとしているからだと思う. 仕方ないので,直接bblファイルを修正して解決.

RとかIgorの非線形フィット,具体的にはロジスティック式の フィッティングがうまく行かない. 評価関数に無限大やNaNがあったとかのたまうメッセージ. 初期値の問題かもしれない. 初期値をかなり近い値に持ってくると,収束する場合もある. その場合も,…

震災データのレコード数.毎日ほぼ2500万ツイートある. 26100368 2011-03-11.txt 27316110 2011-03-12.txt 23065989 2011-03-13.txt 25405084 2011-03-14.txt 25339259 2011-03-15.txt 24369068 2011-03-16.txt 22466126 2011-03-17.txt 5224293 2011-03-18…

バースト! 人間行動を支配するパターン アルバート=ラズロ・バラバシ (著)新ネットワーク思考に続く,バラバシによる一般啓蒙書2冊目. 結論は,決してラダムではなく,案外人間の行動は予測可能だ,といったころか. 全体としてはこんな例もありまっせー,…

複雑な世界、単純な法則 ネットワーク科学の最前線 /マーク・ブキャナン 作者は雑誌Natureの編集者.内容は主に,ワッツとストロガッツの提唱したSmall-world networkについて. バラバシのScale-free networkの話もある.特に成長と優先的成長という点を評…