■
当該URL以下にあるhtmlファイルをすべて取得する.
curl -O "http://XXXXXX.com/novel/titleid01/chapter_[001-999].html"
とすると001番から999番までのhtmlのファイルがすべて取得できる.
ただし,htmlがない場合にもファイルができるので,ファイルサイズの情報などを使い,後から取捨選択が必要.
取得したhtmlファイルの中身から必要なものを取り出したいときは,
決まったパターンを探して,フラグをたてて出力した.
例えば,spanで始まり,a hrefのリンクで終わるまでの間を出力する例.
BEGIN{ a=0 flg=0 b=0 } { a=index($0,"span"); b=index($0,"<a href="); if(a>0) flg=1 if(flg==1 && b>0) exit; if(flg==1 && a==0){ gsub(/<br>/,"",$0) print $0 } }
curlの使い方を参考にした.