spamdump.pl v1.1リリース

2003年5月29日(木) by level
B ?
Tags: 開発

spamdump.pl v1.1 をリリースしました。これは Mozilla のスパムフィルタリングの学習結果(training.dat)をテキストでダンプする Perl スクリプトで、今回は、ソース全体の見直しと、ソート機能の追加を行いました。

ソートすると、ずいぶん見やすくなりました。デフォルトの、スパム確率によるソート結果の冒頭は以下のようになっていて、これが私の場合の最もスパムな単語となります。

ところで先頭にある x-nortonav-timeoutprotection は何でしょう?うちは Norton AntiVirus を入れているのですが、関係があるのでしょうか。あとで、詳細に調べてみることにします。

[5/30追記] x-nortonav-timeoutprotection は一部のあやしげな添付ファイルつきのメールのヘッダに X-NortonAV-TimeoutProtection: 0 のように、100から300個近くも入っているものでした。原因はどうやらこれのようです

pmin=0.000000 pmax=1.000000 bmin=0
nGood 1313                          #学習した非スパム数
nBad  446                           #学習したスパム数
total non-spam tokens 36578         #非スパムに現れた単語数
total     spam tokens 18756         #スパムに現れた単語数
    0  1376 0.990 x-nortonav-timeoutprotection
    0   766 0.990 0pt               #数値の意味は左から
    0   702 0.990 0in               #1:非スパムに現れた数
    2   570 0.990 strong            #2:スパムに現れた数
    0   553 0.990 msonormal         #3:スパム確率
    0   540 0.990 'font-size
    0   504 0.990 mankind
    2   458 0.990 dir
    0   432 0.990 rtl
    0   382 0.990 usa
    0   380 0.990 0cm
    1   373 0.990 god
    0   325 0.990 roman

コメント

コメントはありません。

トラックバック

トラックバックは検索対象外です。

この記事にリンクしているページ < >

  1. データがありません。