2012-07-01から1ヶ月間の記事一覧

当該URL以下にあるhtmlファイルをすべて取得する. curl -O "http://XXXXXX.com/novel/titleid01/chapter_[001-999].html"とすると001番から999番までのhtmlのファイルがすべて取得できる. ただし,htmlがない場合にもファイルができるので,ファイルサイズ…

R R

サンプルから1つずつ選んで,戻して,ベクトルxに付け加えていく. rm(list=ls()) dat <- read.table("WordPool_Neko.txt") set.seed(1) x <- as.numeric(NULL) #random shuffle #x <- sample(dat[,1]) #word pool simulation for(i in 1:length(dat[,1])){ …

R R

ベクトルの何番目の要素が条件を満たしているかを調査. checkのベクトル始めはすべて0で,ある要素だけ,1になっている. その要素の番号を知りたい例. N <- 100 # check flg check <- as.vector(0) for (i in 1:N) check[i] <-0 check[10] <- 1 check[20] …

Entropic Evidence for Linguistic Structure in the Indus Script R. P. N. Rao, N. Yadav, M. N. Vahia, H. Joglekar, R. Adhikari. and I. Mahadevan Science Vol. 324 no. 5931 p. 1165 (2009)今から2000年以上前に栄えたインダス文明の文字を,エントロ…

英語の形態素解析機器GENIA tagger 実行はインストールしたフォルダで, ./geniatagger Alice.txt処理にすごく時間がかかる. 不思議の国のアリスの冒頭「Alice was beginning to get very tired of sitting by her sister on the bank, and of having nothi…

約3000単語があれば,会話の8割理解できる計算.Heaps則っぽい. 75種類の単語がその言語全体の40%を占める200種類の単語がその言語全体の50%を占める524種類の単語がその言語全体の60%を占める1257種類の単語がその言語全体の70%を占める2925種類の単語が…

論文の略称検索 http://library.caltech.edu/reference/abbreviations/

二段組みの原稿で,図とかテーブルだけ,段組み無視して,ページ全体で表示させたい場合アスタリスクを入れる. \begin{figure*}[ht] \begin{center} \includegraphics[scale=.7]{./Figs/Sample.eps} \caption{単語ネットワークの構築例.} \label{fig:Net} …

Heaps則に関連して.「症状が出ないアルツハイマー」:脳と言語技能の関係を研究 1917年以前に生まれたカトリックの修道女678人を追跡調査し、大変興味深いデータが得られただけでなく、彼女たちの若い頃の言語技能と晩年のアルツハイマー型認知症の発症に関…

R R

組み合わせ(Combination)はchoose(n,k)を使う.[=nCk]確率pの事象が実現される確率が,n回中k回以下である確率は以下. rm(list=ls()) x <- 0 p <- 0.5 n <- 1000 k <- 500 sum_k <- c(0:k) y <- choose(n,sum_k)*p^sum_k*(1-p)^(n-sum_k) plot(y,log="y") s…

Tracking Traders' Understanding of the Market Using e-Communication Data Serguei Saavedra, Jordi Duch, Brian Uzzi PLoS ONE 6(10): e26705. (2011) PREのレフリーから,モデル提示部分の指摘に関連して紹介された論文. day tradersのinstant message…

ややこしいテーブル書きのソース.サンプルの値は適当です. \begin{table}[t] \caption{データの詳細} \label{tab:sample} \begin{center} \begin{tabular}{ccccccc} \hline \hline \multirow{2}{8zw}{\hfill 作品名 \hfill } & \multirow{2}{8zw}{\hfill …

mecab辞書に「吾輩は猫である」が登録されていて,邪魔なので削除する. hatena.csvとwikipedia.csvにある該当エントリーをテキストエディタで削除. (utf8に変換して作業した.) のち,これらのファイルをeuc形式で保存. のち.登録時の手順と同様,make c…

フランス語記号が入ったファイルをソートしようとすると, sort: string comparison failed: Illegal byte sequence sort: Set LC_ALL='C' to work around the problem. sort: The strings compared were `1 dissip\343\251e' and `1 l\343\251touffer'. と…

R R

unique関数を使い,Heaps則をRで描く. uniqueは与えられたベクトルから,重複しない要素だけ抜き出すので, uniqueで抜き出した要素数をlengthで数えれば,Heaps則を描くことができる. ただし,時間がかかる. N <- 20000 DW <- 5000 doc <- sample(DW,N,re…