Groovyでスクレイピングしてみる(NekoHTML編)

Groovyでスクレイピングしてみる - No Programming, No Life
の続き。

前回は取得したHTMLの内容を正規表現で解析していましたが、JavaのライブラリでNekoMTMLというのがあるらしく*1、それを使うと曖昧なHTMLをいい感じに解析してくれるようです。GroovyのXmlSlurperでラップするだけですぐに使用できるので簡単です。

準備

本家からアーカイブを取得してくる。*2
適当な場所に解凍
解凍した中から、nekohtml.jar と xercesImpl.jar をクラスパスの通った場所へコピー*3
ちなみに、xercesImpl.jar は .\lib\xerces-2.9.1 にあったものを利用しました

動作サンプルソース

前回と同様、はてなハイクの最新エントリページをスクレイピングしてみます。
(動作確認: Groovy Version: 1.6.2 JVM: 1.6.0_13)

// need "nekohtml.jar" and "xercesImpl.jar"

/*
 * はてなハイクのトップページ(http://h.hatena.ne.jp/)にアクセスし
 * 最新のエントリを投稿したユーザIDを取得し、そのユーザのプロフィールの
 * URLを標準出力へ出力する。
 */
import org.cyberneko.html.parsers.SAXParser

def parser = new XmlSlurper(new SAXParser()) // ラッピング
def HTML = parser.parse("http://h.hatena.ne.jp/")
def userIDs = HTML.'**'.findAll{
    it.name() == 'SPAN' && it.@class == 'username' // <SPAN class="username">
}.collect{ it.A.text() } // A要素の値
userIDs.each{ id -> println "http://www.hatena.ne.jp/${id}/" }