日本語向けベイジアンフィルタ用トークン分割評価

2005年1月17日(月) 22時16分 by level
B ?
Tags: Thunderbird

junnno 氏による、Bug 277354のパッチを試してみました。やりかたは、ham と spam を用意しそれぞれ半分に分け、ham1 と spam1 を使ってトレーニングし、それを使って ham1/ham2/spam1/spam2 に対してジャンクメールコントロールを実施します。ham は 7割ほどが日本語、spam は逆に 7割が英語です。結果は以下のとおり。fp は false pasitive(ham を spam に間違えること)、fn は flase negative (spam を ham に間違えること)。fp と fn とでは当然 fp の方が何倍もダメージが大きいです。

Thunderbird 1.0
                fp
ham1    216      0      0.0%
ham2    213      1      0.5%
Total   429      1      0.2%
                fn
spam1   284     19      6.7%
spam2   281     41     14.6%
Total   565     60     10.6%

japanese_tokenize.4
                fp
ham1    216      0      0.0%
ham2    213      1      0.5%
Total   429      1      0.2%
                fn
spam1   284      9      3.2%
spam2   281     40     14.2%
Total   565     49      8.7%

なんか、思ったほどの効果は出ていません。

ham2 で fp が1件あるのはどちらも Spread Firefox からの確認メールで、これは今回の件とは無関係でしょう。

新手法で fn となったメールを眺めていて、明らかにおかしいのは、Subject に「未承諾広告」が入ったもの。spam1/spam2 にはぞれぞれ、22/14件ありますが、spam として検出できなかったのがそれぞれ 5/12 件もあります。最も spam たらしめるトークンがまったく効いていないように見えます。実際やはり junnno 氏作の spamdump エクステンションでトレーニング結果を調べてみても「未承諾」は1件もトークンとして認識されていません。現手法でも同じような状況で「諾」は Good count に1件カウントされているだけです。どうやら、Subject の日本語処理に問題がありそうです。

1/18更新

チェックインされましたね

ところで、Subject が MIME デコードされないのってバグになっていないのでしょうか。探したけど見つかりませんでした。これに対応するだけで「由緒正しい」日本語スパムは一掃出来そうなんですが。ここらへんにデコードの関数一発かますだけじゃだめなのかな?

Subject といえば、ウィルスバスター2005 の迷惑メール監視機能は、Spam の Subject に [MEIWAKU] という文字列を挿入してくれるのですが、これまた Thunderbird はうまく認識してくれません。というのも、[MEIWAKU]New のようにもとの Subject の先頭のトークンとくっついて認識されてしまい、せっかくの識別文字が有効になっていません。スペースで区切ってくれると [MEIWAKU] だけでトークン認識してくれはずなんですが。

コメント (3)

1 1/17 23:00 oyadi
(c1) [2005/01/17 23:00:38] by oyadi

あてずっぽうですが、SubjectはMIMEエンコードされてるから、とか?

2 1/17 23:17 junnno
(c2) [2005/01/17 23:17:46] by junnno

うーん、やっぱり日本語と英語のブレンド環境では弱いですね。私も日本語だけでテストしたときは、してやったりと思ってたのですが、英語を混ぜてテストすると性能がた落ちだったのでがっかりしてます。どうも大量の英語トークンが日本語トークンのスパム確率を希釈するようです。
あと、正にSubjectはMIMEエンコードが効いたまんまですのでダメですね。「※未承諾広告」をマーカーに選んだ責任者出てこい、って。ホント。
KAKASI版も試してみます?

3 1/18 00:01 suezo
(c3) [2005/01/18 00:01:08] by suezo

すいません。日本語のスパムって殆ど来たことないです。
海外からは毎日50通くらい届きますけど

トラックバック

トラックバックは検索対象外です。

この記事にリンクしているページ < >

  1. [3] http://junnno.sakura.ne.jp/mozilla/