python+mecabで4千万ツイートくらいの形態素解析をしていたら,segmentation faultがでて落ちる. いつも同じ箇所(43万行目)で落ちる,ファイルを変えると同じように43万行目の場合と,78万行目で落ちる場合があった. pythonで,行の形態素解析かける前に,…
ツイッターで,返信マークの「@ZeroSano」みたいなのを削除する. gsub(/^@+[ -~]*/,"",$1); @から始まる連続した半角英数を削除している.
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。