続・続スパム(Outlook 2003)

2003年11月1日(土) by level
B ?
Tags: スパム

11/2 訂正!!: 大きな間違いを修正。偽情報を載せてしまい申し訳ない(適切な御指摘をいただいた池田さんに感謝!)。それから最近のスパム関連の記事は *bird 日記からスパムへカテゴリを変更した。

フォールス・ポジティブとフォールス・ネガティブ: 初出時の以下の文章は思いっきり間違えていた。

スパム関連の英文解説記事を読んでいると、よくフォールス・ポジティブ(false positive)とフォールス・ネガティブ(false negative)という言葉が出てくる。これはどういうことかというと、フォールス・ポジティブはミスをしても悪い結果にならないこと、フォールス・ネガティブはミスが悪い結果になることをあらわす。スパムフィルタに関して言えば、フォールス・ポジティブとは、スパムを見逃してしまうこと、フォールス・ネガティブとは正当なメールをスパムと判定してしまうことだ。

そもそも、フォールス・ポジティブ(false positive: 以下 FP)とフォールス・ネガティブ(false negative: 以下 FN)はどちらも判断ミスであるが、それが良い結果をもたらすとか、悪い結果をもたらすということではない。

スパムフィルタにおいて、スパムであると判定することが positive(陽性)、スパムでないと判定することが negative(陰性)である。その判定が正しいか間違いかの組み合わせが合計で4通りあり、FP とは正当なメール(以後ハムとする)を間違って positive (スパム)と判定すること、FN とはスパムを間違って negative (ハム)と判定することだ。つまり当初の文は意味がまったく逆だった :-[ 。ちなみに、どちらがより深刻かというと、FP すなわちハムをスパムと誤判定することであることは言うまでも無い。

Outlook 2003 続報: 29日の記事でとりあげた、David Coursey のコラムの続編が早くもでた。ZDNN:アンカーデスク「Microsoft対スパム、テクノロジー面での対策は」で、Outlook 2003 の「スパム遮断率(95%)」について読者から疑問視する声が上がったそうで、今回は実際の数値を示している。

この1週間、私は独自の(正直なところ)非科学的なテストを続けた。そしてその間、Outlookは私が受信したスパムの95~98%を見事に遮断した。
Outlookの成績が最も低かったのは、361通のメッセージを受信した日だった。これらのメールのうち、Outlookは240通をスパムと認識。 121通のメッセージが受信箱に通されたが、うち18通がスパムだった。240通が迷惑メールフォルダに落とされたわけだが、この中にスパムと誤認された普通のメールは見当たらず、「メールの返事が来ない」と友人から催促されることもなかった。したがって、その日Outlookが処理した361通のメッセージのうち、不正確な処理がなされたのは18通(約5%)ということになる。

この結果を先日の形式で表にすると以下のようになる。比較のために Thunderbird の結果も並べてみた。

Outlook 2003
ハム 103 誤判定 0 誤判定率 0.0%
スパム 258 見落とし 18 認識(遮断)率 93.0%
Thunderbird
ハム 2039 誤判定 3 誤判定率 0.1%
スパム 811 見落とし 34 認識(遮断)率 95.8%

ここで、誤判定率とは FP すなわちハムをスパムと誤判定する確率、認識(遮断)率とは、スパムをスパムとして正しく判定する確率だ。

「Outlookの成績が最も低かった」日のデータにしては良い結果が出ているように見える。が、なぜ彼は一週間分のデータを示さなかったのか? スパムフィルタで大きな問題になるのは正当なメールをスパムと判定してしまうフォールス・ポジティブ(FP)だ。この日は正当なメールの誤判定は無かったとして、他の日はどうだったのか。一通も無かったのか。「受信したスパムの95~98%を見事に遮断した」という全体結果は、フォールス・ポジティブについては触れていない。一週間のデータがありながら、たった一日分のデータを示して結果を導くのはフェアではない。フォールス・ポジティブはフォールス・ネガティブに比べて何倍も影響が大きく深刻だ。わざわざ一番悪い日を選んだのは、たまたまこの日にフォールス・ポジティブが無かったからで、他の日にフォールス・ポジティブがあったのを隠す(あるいはあえて見てみぬふりをする)ためではないかと勘ぐりたくなるのは私だけだろうか?

ところで、今回のコラム、技術的な面にはあまり触れられていない。これが前回のコラムでの

Outlook 2003の迷惑メールフィルタの仕組みについての詳細も説明する。

であるとするとちょっと情け無い。この程度の内容の解説は、われらがゲイツ君のメールで何ヶ月も前に述べられているではないか。挙句の果てに

もし私が本当にこれらの仕組みをすべて理解できたとしても、皆さんに教えることはないだろう。

ときた。

さて、Outlook がどういうアルゴリズムを使っているかであるが、David Coursey の2つのコラムに、ゲイツ君のメール、それに eWeek の記事から推測するにやはりベイズ理論がベースであるように思える。そして、大量のデータから抽出した学習結果を最初から持ち、なおかつ、それを最新版に維持するための仕組みも考えられているようだ。ユーザの操作から学習するかについては、David Coursey のコラムでは否定していたが、ゲイツ君のメールでは、

確かにスパムのほとんどは全く役に立たない情報であることは事実ですが、そのすべてを、全体に適用された唯一の基準によって選別することは不可能だからです。どこに線を引くかを正確に決めるのは、最終的には各個人に任せられるべきものだということです。といっても、スマートフィルターは、ユーザーそれぞれの好みを学習することができるので、その結果を活かしたユニークな耐スパム免疫システム、すなわちスパム発信者にとっては格段に対抗しにくいシステムを構築することが可能です。

とあり、個人データの学習をしないとは考えにくいだろう。ちなみに、Microsoft にはベイズ理論の世界的な専門家が何人も勤務しているそうだ(あれこれ)。

コメント

コメントはありません。

トラックバック

トラックバックは検索対象外です。

この記事にリンクしているページ < >

  1. [4] http://kyms.ne.jp/blog/61.html