2012-10-26から1日間の記事一覧

python+mecabで4千万ツイートくらいの形態素解析をしていたら,segmentation faultがでて落ちる. いつも同じ箇所(43万行目)で落ちる,ファイルを変えると同じように43万行目の場合と,78万行目で落ちる場合があった. pythonで,行の形態素解析かける前に,…

ツイッターで,返信マークの「@ZeroSano」みたいなのを削除する. gsub(/^@+[ -~]*/,"",$1); @から始まる連続した半角英数を削除している.