~ の謎

2004年5月29日(土) 12時1分 by level
B ?
Tags: その他

Piro 氏の日記でも話題になっていましたが、RSS の中の ~ が化けてしまう問題、私も似たような問題に悩んでいます。ただし、Piro 氏は Shift_JIS で処理しているそうですが、私の場合、EUC-JP ベースで処理していて、RSS を吐き出すときに Jcode.pm で UTF-8 に変換しています。変換コードはこんなかんじ
Jcode->new($rss_template)->utf8

なお、NiAOU 氏によると、

Shift_JIS(JIS X 0201) の 0x7E は ASCII とは異なり TILDE ではなく OVERLINE なので ~ のつもりで 0x7E を迂闊につかうと文字コード変換ではまったりします。これが、たとえば、EUC(-JP) だと、ASCII をつかう様定義しているので問題はおこりません。バックスラッシュ (REVERSE SOLIDUS) と YEN SIGN のはなしと根っ子は一緒。

とのことですが、EUC-JP から UTF-8 へ変換しているのに ~ が化けてしまいます。やり方がまずいのでしょうか?(情報求む)

しかたなく、事前に s/~/%7E/g とかやっているのですがこれだと URL 以外の部分も変換されてしまって面白く無いですね。多分この記事も RSS で見るとへんなことになっているはず :-(

コメント

コメントはありません。

トラックバック

トラックバックは検索対象外です。

この記事にリンクしているページ < >

  1. データがありません。