kermitonphd’s diary

■

other other

当該URL以下にあるhtmlファイルをすべて取得する．

curl -O "http://XXXXXX.com/novel/titleid01/chapter_[001-999].html"

とすると001番から999番までのhtmlのファイルがすべて取得できる．
ただし，htmlがない場合にもファイルができるので，ファイルサイズの情報などを使い，後から取捨選択が必要．
取得したhtmlファイルの中身から必要なものを取り出したいときは，
決まったパターンを探して，フラグをたてて出力した．
例えば，spanで始まり，a hrefのリンクで終わるまでの間を出力する例．

BEGIN{
	a=0
	flg=0
	b=0
}
{	
	a=index($0,"span");
	b=index($0,"<a href=");
	if(a>0) flg=1

	if(flg==1 && b>0) exit;

	if(flg==1 && a==0){
		gsub(/<br>/,"",$0)
		print $0
	}
}

curlの使い方を参考にした．