POPFile 再び

2003年11月27日(木) by level
B ?
Tags: スパム

結城さんに昨日の夜中の1時ごろメールを出したら、朝7時前に日記に書きましたと返事が来ていました。朝早いんですね。

で、内容は、POPFile の成績の数値をもう少し詳しく教えて欲しいということだったのですが、以下のような内容でした。

全体としてみると、
    分類されたメール数: 2874 (2265 + 609)
    分類エラーの数:       23 (22 + 1)
    精度:                 99.19%

細かく見てみると、
    バケツ  分類数          誤検出      見逃し
    spam    2265            22          32
    work     609             1          31

Mozilla/Thunderbird の場合、スパム判定はスパムかハムかの2値ですが(スパムでないものがハムとなる)、POPFile の場合は、「バケツ」を複数用意して、スパムのバケツに入るか、work のバケツに入るか、、、どのバケツにも入らないという多値の状態を取るようです。よって、単純な比較はできないですね。スパムに注目すると、スパムをスパムとして判定できなかったのが1+32で33件(1.44%)、スパムでないものをスパムと判定してしまったのが22件(3.44%)となるでしょうか。後者のフォールス・ポジティブが3.44%というのはかなり高い数値ですが、これは、最初の学習期間を含めてまだ8日分のデータとしてはまずまずというような気もします。十分な学習結果後のデータも欲しいところです。

コメント

コメントはありません。

トラックバック

トラックバックは検索対象外です。

この記事にリンクしているページ < >

  1. データがありません。