Thunderbird 1.5 Beta: 日本語の添付ファイル名が文字化け

2005年10月10日(月) 0時31分 by level
B ?

Thunderbird 1.0 の直前にも騒ぎになった Bug-jp 4069 - 日本語の添付ファイル名が文字化けBug 274264) が 1.5 Beta でまた復活。1.5 Beta 1 から仕事マシンで使っていますが気がつきませんでした。私自身はあまり日本語のファイル名というのは使いませんが、こういうの評判悪いんですよね。

そういえば、Thunderbird 1.0 リリースのときに「1.0 までには直したいなぁと思っていたいくつかの日本語関係のバグは修正されないままです」と書いているけど、具体的にどういうバグかはあまり思い出せないのが情けない。Thunderbird 1.5 の主な変更点の「バグ修正」にあるのくらいだったかなぁ。

10/17更新

パッチがチェックインされました。← trunk ね。

更新

branch も修正完了!

コメント (11)

1 10/11 09:28 とおりすがり
(c1) [2005/10/11 09:28:13] by とおりすがり

業務で使用すると、見てすぐ意味がわかる日本語ファイル名や日本語フォルダは必須です。
何とか直ってほしいものですが・・・・

2 10/11 12:44 level@管理人
(c2) [2005/10/11 12:44:27] by level@管理人

中野さんのパッチが提供されているし、MF側にも重要性も認識されている
ようなのでなんとかなるでしょう。

3 10/13 10:37 うひょ
(c3) [2005/10/13 10:37:25] by うひょ

マルチバイト文字な国なら全部で起こる問題なのでしょうか?。

ァィゥェォタチツテトャュョワヲン が含まれる添付とかで幾つか文字化けがあった件かな。
同様にメールの件名でも前に化けたことがあったような記憶が・・・

4 10/14 00:58 中野雅之
(c4) [2005/10/14 00:58:11] by 中野雅之

> マルチバイト文字な国なら全部で起こる問題なのでしょうか?。

たぶん、2バイト目にASCIIと同じコードが入る、Shift_JIS(と、GB2312?)等、一部のエンコーディングがファイルシステムに採用されている場合のみの問題だと思います。マルチバイトの場合にトップビットが常に立っているEUC-JPなんかだと問題ないと思われます。

5 10/14 12:55 level@管理人
(c5) [2005/10/14 12:55:18] by level@管理人

だからいつも日本人だけが騒ぎ出すということですね。

6 10/14 13:53 うひょ
(c6) [2005/10/14 13:53:00] by うひょ

CJK圏での問題とも言えそうだけど、マルチバイト使ってそうなのは他にはアラビア文字とかもありそうですよね。(それ以前にアラビアフォントがあるのか知らない)

あっちの人ってURLもサカサマなんだろうか? 右から左に書く国でしょうから。
※勘違いあったらスマン。

7 10/14 14:09 うひょ
(c7) [2005/10/14 14:09:11] by うひょ

連続ゴメン
そういえば、文字コードが日本だけでも ECU-JP/SHIFT_JIS/ISO-2202-JPとか3つがありますけど、世界ではやっぱりUTF-8やUTF-16なんかなんでしょうか。

未だにIEでは自動的に判別して表示しちゃう正しくないソースのHPでは<HEAD>にキャラクターセット無いからこんなことしょっちゅう起きちゃいますけど、ThunderbirdからOEなんかに送信したメールとかでもたまに「メール読めないんだけど」とか言われることもあります。
Thunderbirdから送る時は確か文字コードが指定されるはずなので読め無いメールは無いんでしょうけど、受信者が文字コードを固定してしまってたりする場合におきますよね。
反対に文字コードを指定していないメールなんかは、こちらで読めるように文字コードを変えてみたりする必要があるわけですが。これって結構メンドイです。

たまに、どんなことをしても部分的に文字化けするメールやHPがあったりするわけですが、あれは何なんでしょうねw(フォント指定だろうか)

いずれにしてもこの問題は何時頃まで続くのやら・・・

8 10/14 18:50 中野雅之
(c8) [2005/10/14 18:50:42] by 中野雅之

> CJK圏での問題とも言えそうだけど、マルチバイト使ってそうなのは他にはアラビア文字とかもありそうですよね。(それ以前にアラビアフォントがあるのか知らない)

アラビア語のエンコーディングはシングルバイトです。マルチバイトは極東固有のものという認識でもあまり問題無いと思います(UTF-8は除く)。

> あっちの人ってURLもサカサマなんだろうか? 右から左に書く国でしょうから。
そんなに単純なら双方向テキストをわざわざIBMが介入してまでの実装騒ぎにはならなかったでしょう。双方向テキストは、基本右開始の文字列の中に他国の文字(左開始)が出現すると、左開始に切り替わります。以下のようなバイト列があったとします。
(アラビア語1)(数字)(アラビア語2)(英語)(アラビア語3)
これを正しくレンダリングすると、次のようになります。(あくまでイメージ)
(3語アビラア)(英語)(2語アビラア)(数字)(1語アビラア)
まあ、実際にはワードラップがついてくるのでこの比じゃないややこしさなんですが。実際にアラビア語のサイトとか見て、マウスで文字列選択してみればなんとなく感じがつかめるんじゃないかと思います。
http://arabic.cnn.com/2005/scitech/10/13/apple.pad/index.html

> 世界ではやっぱりUTF-8やUTF-16なんかなんでしょうか。
そんなことはないです。Windowsでは相変わらず、各国専用のエンコーディングが氾濫してますし、タイ語なんかはシングルバイトですが、言語の仕様上、複数バイトで一文字、というややこしい話もあったりします。(簡単に書くと、「が」を表示するために、バイト列は「か゛」とならなくてはいけないのがタイ語)

> いずれにしてもこの問題は何時頃まで続くのやら・・・
Jungshik Shin曰く、文字化け問題は、"battle"だそうです。最近、実感が出てきましたが。

とりあえず、日本人は文字化け問題とか見ているので、かなり冷遇されていると思いがちですが、実際はそうでもありません。あと数人、ハッカーが居ればたぶん事足りるんじゃないかと思います。(単に人手不足というのが実情)Mozillaの国際化というのは実は日本人が考えているよりも深刻で、文字列処理が困難な、アラビア語、ヘブライ語、デーヴァナーガリ、タイ語あたりの言語ユーザにとってはユーザスタイルシート無しではまともに文字列が表示されないことがあるぐらい、ひどい状況です。また、LTRな座標系を基準にしているため、RTLな言語(アラビア、ヘブライ)では固有のややこしいレイアウトの問題も多々抱えています。実は日本語というのは縦書きさえ無視すれば、かなり単純な処理で実現できる簡単な言語の部類に入るんです。(逆に、もっとも処理が難しいのはアラビア語で、これが文句なしにチャンピオンだと思います。)

9 10/15 11:27 うひょ
(c9) [2005/10/15 11:27:32] by うひょ

素晴らしく分かり易い解説ありがとうございます。

>アラビア語
マウスでドラッグしてみたらひとつの単語の中で途中で違う文字に変化してたりと、なんか凄いことに。しかも右からドラッグしても左からドラッグしてもコロコロと変わっていくので、かなりややこしい処理だと素人でもなんとなく分かりました。

>マルチバイト
漢字(+韓字?)の国の問題でしたか。

>文字化け問題は、"battle"だそうです
やっぱりアレでしょうか。過去の遺産というか、各国の、そのまた各社で出していたワープロなどで使われてた文字コードとの互換性。
パソコンなどの規格と同じようにいずれ、淘汰が行われて絞られていけば少しは減るのかもと思っていましたが、それほど複雑な問題だったとは・・・

>文字列処理
いままで気にも留めていなかったことなので言われて初めて気づきました。
RTLなアラビア語なんかはどうやってるんだろうと不思議に思っていましたが、単に文字を並べるだけでは済まない国もあるんですね。

いやはや、かなり勉強になりました。感謝!

10 10/15 12:05 level@管理人
(c10) [2005/10/15 12:05:40] by level@管理人

jshin曰く
>Masayuki seems to have come up with a clever alternative. Thanks !
ということなので期待大。でもさかんにあおられていますが。
jshinはこの分野では神のような存在ですが、中野さんもその領域に近づきつつある?

11 10/15 14:29 中野雅之
(c11) [2005/10/15 14:29:19] by 中野雅之

> >文字化け問題は、"battle"だそうです
> やっぱりアレでしょうか。過去の遺産というか、各国の、そのまた各社で出していたワープロなどで使われてた文字コードとの互換性。

まあ、ある意味では非Unicodeな文字を扱うところにも問題がありますが、これは仕方ないですね。日本でも未だにShift_JISやEUC-JPが当たり前のように使われていますので。

"battle"だと言うのは、国際化問題に疎いハッカーがすぐにregressionを出してしまうので、モグラたたき形式で、文字化けをつぶしていかなくてはいけない、という感じです。

> jshinはこの分野では神のような存在ですが、中野さんもその領域に近づきつつある?

彼には勝てないですよ。私のやってるのは国際化ではなくて、日本語対応ですから。

トラックバック

トラックバックは検索対象外です。

この記事にリンクしているページ < >

  1. データがありません。