初めてUTF8対応のperlをいじった

とあるクローラの日本語対応するためにperlと格闘したんだけど、、、ありゃ大変だ。
自分の中で完結するコードだったらまだしもCPANの標準モジュールはUTF8での使用を考えられていないものが多い。
UTF8対応のperlで、CPANのモジュールを使った時によく出るエラーで"Parsing of undecoded UTF-8 will give garbage"ってのがあるんだけど、どうやらこれの対処がそのエラーを出すモジュール毎に異なるようで。。。ちゃんと理解すれば、小手先のテクニックにたよることなく回避できるのかな。
ちなみに、ちょっと探した限りではUTF8対応のperlについてはこのページが詳しい。
日本語への対応が万全で、ネットワーク系で簡単に使えるモジュールがあって、正規表現が使えるスクリプト言語っていうと何ですかね?自分がすぐ考え付く限りではRubyが最適っぽい。
Rubyで日本語ページのクローラを書き直してやろうかと思った金曜日の夜でした。