• Wikipeidaのページから、ハイパーリンクが付いている文字だけを抽出する、例。

1. 編集のページのソースをコピーしてくる。(WikipeidaSourceで保存。)
2. rubyで以下のソースを実行。

File.open("WikipeidaSource"){|f|;
	f.each{|str|
		puts str.scan(/\[.*?\]\]/);
	}
}

3. unixコマンドを駆使して、いらない文字とか、重複文字を削除。
ここでは、半角の数字で始まるものや、引用文献へのハイパーリンク文字も削除している。

grep -v : Wiki | sed -e 's/\[\|\]//g' | gawk -F"|" '{if($2>" ")print($2);else print $1}' | sort | uniq | gawk '{x=substr($1,1,1);if(x!~/[0-9]/)print $1;}' > HyperlinkWordList.txt

もっと効率のいい方法があると思うが。とりあえず。