Perl: 2011年2月アーカイブ

ほんと、いつまで Unicode で'～'や'－'の変換に気を遣えばいいのか・・・

(2011年2月 5日 14:15) | 個別ページ | コメント(0) | トラックバック(0)

例えば、

「は～い！電話番号は０１２０－９３１－９３１です」

という Unicode(UTF-8) で書かれたテキストがあった時、

use Jcode;

open(IN, "utf8.txt");
$str = join '', (<IN>);
close(IN);

$str = Jcode->new($str)->h2z->sjis;

open(OUT, ">sjis.txt");
print OUT $str;
close(OUT);

という具合に、Jcodeモジュールを使って UTF-8 から Shift_JIS コードへの変換を行うと、結果は、

「は?い！電話番号は０１２０?９３１?９３１です」

みたいに化ける・・・というか、一部の文字が変換出来なくて ? マークに置き換わってる。

「え？Shift_JIS にだって、'～'や'－'はあるじゃん？普通に変換出来るんじゃねえの？」と思うでしょ？それが正常な反応。
そう、何故か Unicode の'～'を、Shift_JIS の'～'に変換するという当たり前のことが出来ないのである。

原因は Unicode の訳の分からない設計、というか実装（の自由度？というか曖昧さ？）にある。

実は、'～'という文字が Unicode(UTF-8)には２つあるのだ。
'WAVE DASH'と'FULLWIDTH TILDE'である。
一方、Shift_JIS の'～'は'WAVE DASH'だけである。'FULLWIDTH TILDE'はない。
つまり、UTF-8 の'～'が'WAVE DASH'として保存されていれば、Shift_JIS に変換する時も何の問題もないのである。

さあ、わかったね。
そう。UTF-8 では、君が画面から'～'を入力したら、それは'FULLWIDTH TILDE'として保存されるのである。
'－'もまたしかり。
Shift_JIS で'－'であれば'MINUS SIGN'なのだが、UTF-8 では'FULLWIDTH HYPHEN-MINUS'なのである。
当然、Shift_JIS には'FULLWIDTH TILDE'や'FULLWIDTH HYPHEN-MINUS'に相当する文字はないので（見た目は'～'や'－'でも、コンピュータ上は別の文字として扱われる）Shift_JIS に変換したところで「変換先のコードがわかんない！」ってことになり ? に置き換えられるのである。（同じ文字でコードが２つあることが問題ではなく、他の文字セット（Shift_JIS や EUC-JP）には'MINUS SIGN'しかないのに、ディフォルトで'FULLWIDTH HYPHEN-MINUS'として保存する Unicode の実装がおかしいという話しね）

じゃあ、どうしたら良いのか？

要は、「まず Shift_JIS に存在する文字に相当する文字に変換して、それから Unicode から Shift_JIS への変換を行う」とすれば良いわけだ。

Unicode のままで、「FULLWIDTH HYPHEN-MINUS から MINUS SIGN に変換」「FULLWIDTH TILDE から WAVE DASH に変換」を行い、それから Shift_JIS に変換するのである。
そうすれば、例えば UTF-8 の'MINUS SIGN'を Shift_JIS の'MINUS SIGN'に変換するだけなので、当然正常に変換は行われる。

具体的には、上記のソースの

$str = Jcode->new($str)->h2z->sjis;

の前に、

$str =~ s/\xEF\xBC\x8D/\xE2\x88\x92/g; # － FULLWIDTH HYPHEN-MINUS→MINUS SIGN
$str =~ s/\xEF\xBD\x9E/\xE3\x80\x9C/g; # ～ FULLWIDTH TILDE→WAVE DASH

という２行を置いてやる。

これで、'～'や'－'が ? に変換されることはなくなるね。
ああ、面倒くせえ、Unicode。(^^;
もちろん頭からお尻まで全部 Unicode で作ってしまえば話は簡単なのだが、世の中にはまだまだ EUC-JP や Shift_JIS で作られたデータも多い。
この妙な例外処理は、まだまだ必要なようだ。

RSSフィードの解析をしてくれる Perl モジュール

shinoda

(2011年2月 4日 17:14) | 個別ページ | コメント(0) | トラックバック(0)

ある、RSSフィード（下の例はAtomフィードだが）からタイトルとリンク先の情報だけを抜き出す処理であれば、Perl で正規表現を使えば以下のように簡単に作成できる。
たった12行だよ。正規表現が簡単に書ける Perl はこういうちょっとした処理を書くと無敵の強さだな。（いや、もっと短く書けるシェルスクリプトはあるかもしれんけど、ソースのわかりやすさが Perl とは雲泥の差であろう。宗教戦争になるからあまり追求せんけど（笑））

use LWP::Simple;

my $feed    = LWP::Simple::get('http://blog.netandfield.com/shar/atom.xml');

for(;;) {
    if ($feed =~ /(<entry>.*?<title>(.*?)<\/title>.*?<link .*?href=\"(.*?)\".*?<\/entry>)(.*)/s) {
        print 'URL: ', $3, "\n";
        print 'Title: ', $2, "\n";
        $feed = $4;
    }
    else {
        last;
    }
}

つーことで、いつもこんな感じで済ませてたのだが、今回は XML::FeedPP モジュールを使ってみた。
他のモジュールとの依存関係がなくて、Perl モジュールをユーザーがインストール出来ない環境でも、XML/FeedPP.pm と XML/TreePP.pm をアップするだけで使えるようなので、それならＯＫだなっと。
（まあ、うちのテストサーバには普通に CPAN 使ってインストールしたけど:-P）

で、XML::FeedPP モジュール使って上記の処理と同じものを書くと、

use XML::FeedPP;

my $source = 'http://blog.netandfield.com/shar/atom.xml';
my $feed    = XML::FeedPP->new( $source );

foreach my $item ($feed->get_item()) {
    print 'URL: ', $item->link(), "\n";
    print 'Title: ', $item->title(), "\n";
}

こうなる。

短っ！たった 7行だ。（笑）

ほんま、Perl4 の頃からずっと Perl 使ってるので、（本当にメジャーなもの以外）モジュール使わずついつい自分で処理を書いてしまうんだけど（LWP モジュール使わずにずっと自前の http 通信関数使ってたしな(^^;）、やっぱモジュールは便利だな。

SOAP::Liteは結局SOAPバージョン1.2でないと通信できなかった・・・

shinoda

(2011年2月 3日 09:44) | 個別ページ | コメント(0) | トラックバック(0)

某 WebService に Perl プログラムから SOAP で接続する案件があった。

で、何度やっても VersionMismatch（SOAPエンベロープの名前空間が合わない・・・というエラー）が発生する。

なんか、SOAP::Lite モジュールではよくあることのようで、ググってたら SOAP::Data で明示的に SOAP要素に値、名前を指定してやったらＯＫになった・・・なんて記述もあったのでやってみたのだが、今度は namespace mismatch なエラーが。
つーか、これも名前空間が合わないってエラーじゃん。

エラー時に Only SOAP 1.1 or SOAP 1.2 messages are supported in the system って言われたので、SOAP v1.1 でずっと通信してたのだが、ここで、SOAP v1.2 での処理に変えてみると・・・

・・・あっけなく上手くいってしまった・・・

例えば、ID,Password を投げてユーザ情報を取ってくる処理なら、

use SOAP::Lite +trace;

my $client = SOAP::Lite->service('https://service.exsample.com/ServiceHandler?wsdl');

# SOAP 1.2 で接続
$client->soapversion('1.2');
$client->envprefix('soap12');
$client->readable('true');

$result = $client->getUserInfo('hogehoge', 'hogepass');

print "Name=" . $result->{'name'} . "\n";
print "Phone=" . $result->{'phone'} . "\n";
print "Address=" . $result->{'address'} . "\n";

みたいな感じ。

まあ、上手くいったので取りあえずはＯＫなのだが、SOAP v1.1 の時は何がいけなかったのか気になってしまう、45の冬。

« Perl: 2010年7月 | メインページ | アーカイブ | Perl: 2011年3月 »

Perl: 2011年2月アーカイブ

ほんと、いつまで Unicode で'～'や'－'の変換に気を遣えばいいのか・・・

RSSフィードの解析をしてくれる Perl モジュール

SOAP::Liteは結局SOAPバージョン1.2でないと通信できなかった・・・

検索

このアーカイブについて

2024年1月: 月別アーカイブ

カテゴリ

月別アーカイブ

Perl: 2011年2月アーカイブ

ほんと、いつまで Unicode で'～'や'－'の変換に気を遣えばいいのか・・・

RSSフィードの解析をしてくれる Perl モジュール

SOAP::Liteは結局SOAPバージョン1.2でないと通信できなかった・・・

検索

このアーカイブについて

2024年1月: 月別アーカイブ

カテゴリ

月別 アーカイブ

月別アーカイブ