PerlとRubyとUTF-8と私 - shibacho’s diary

見る人によっては、多分超今さらな話題かもしれないが、最近、Perlの国際化に悩まされる機会があった。
既にあるPerlのクローラを日本語対応にするのなんて、文字コードにちょっと気をつければ楽勝でしょ、と思っていたら大間違いだった。。。
まず、PerlとUTF-8、この国際化がドツボだった。UTF-8フラグなんてものの存在すら知らず、いきなりUTF-8で書かれたHTMLを標準のHTMLパーザとかに食わせて怒られる始末。
Perlは標準モジュールが豊富だ、わーい、とか思っていたら、モジュール毎のUTF-8への対応状況によって、モジュールの使い方が微妙に異なる罠。まぁ、じっくり腰を据えてやるならまだしも2日程度で済ませようと思った仕事にしては甘かった。。。
で、ぶちきれてRubyで書き直そうと思ったんです。しかし、標準の変換モジュールであるKConvのUTF-8への対応がruby1.8.2からというのに気が付いて、これもボツ。まぁ、結局Perlを騙し騙し使って、しのいでいます。（LWP::Protocolで謎のエラーが出ますが。。。）
iconvに代表されるように外人の作る文字コード変換ライブラリって自動判別が無いような気がするんですよね。やつら、文字コードが自動判別出来ることのありがたさがわかっていない。
あまりに文字コードの種類があるから、現実的にどの文字コードが判別できれば十分なのか、という線引きが分からないのかもしれない。
まぁ、こんな所で日本語でぶーたれてないで、国際的に文字コードが混沌としている様子を啓蒙すべきなのかもしれないが。
UTF-8に関してはPerlについてもRubyについても0.0.1の差で結構変わってくるのはやめて欲しいものです。