■
- Wikipeidaのページから、ハイパーリンクが付いている文字だけを抽出する、例。
1. 編集のページのソースをコピーしてくる。(WikipeidaSourceで保存。)
2. rubyで以下のソースを実行。
File.open("WikipeidaSource"){|f|; f.each{|str| puts str.scan(/\[.*?\]\]/); } }
3. unixコマンドを駆使して、いらない文字とか、重複文字を削除。
ここでは、半角の数字で始まるものや、引用文献へのハイパーリンク文字も削除している。
grep -v : Wiki | sed -e 's/\[\|\]//g' | gawk -F"|" '{if($2>" ")print($2);else print $1}' | sort | uniq | gawk '{x=substr($1,1,1);if(x!~/[0-9]/)print $1;}' > HyperlinkWordList.txt
もっと効率のいい方法があると思うが。とりあえず。