python+mecabで4千万ツイートくらいの形態素解析をしていたら,segmentation faultがでて落ちる.
いつも同じ箇所(43万行目)で落ちる,ファイルを変えると同じように43万行目の場合と,78万行目で落ちる場合があった.
pythonで,行の形態素解析かける前に,try:とexcept:で処理したが,同じ.
多分,mecabを読み込む時に何かメモリが足らんのだろう,ということだ.


で,結局,上記のようにawkのindex関数などを駆使して同等の処理ができることが分かった.
メモリも落ちないし,速度も早かった.なんということだ.