No Programming, No Life

プログラミング関連の話題や雑記

スクレイピング!スクレイピング!

はてなハイクAPIを使わずにHTMLで解析することになった。
ここにとりあえずURLをまとめてある。
で、最終的にはHatenaHaiku4Jに組み込む予定なんですが
とりあえずGroovyで動作などを下調べということで、書いたソースが以下。

ソース

解説

正規表現版とXmlSlurper版を書いてみた。

正規表現

力技的です。空白とか改行とかの扱いがちょっとイヤだなぁという印象。

XmlSlurper版

取得してきたHTMLにXML宣言などをちょっと付け加えてValidなXMLにしてしまうという方法。
この方法だと空白とか改行とかの扱いはパーサがやってくれるので楽。
正式採用はこちらにします。