ジャンクメールフィルタ

2004年1月29日(木) by level
B ?
Tags: 開発

mscott によると

私は今週はずっとベイス手法によるジャンクメールフィルタの多くの改善に取り組んでいたが、まだ準備できていない。

とのこと。おそらく bug 230093 のあたりでしょう。comment 4 には charset をトークンとして認識できるようになるとあります。そうそう、中国語のスパムをいくら学習させても big5 がトレーニングデータに入らないのを歯がゆい思いをしていたものですが、これで決してまともなメールを受信することが無いような外国からのメールを簡単にスパム判定できそうです。その他に、短い単語、長い単語、メールアドレス、メールヘッダ、HTMLタグ、セパレータの変更(.@!)などなど、、、。これらはアスキー文字だけが対象のようですが、だれか日本語をもっと賢く処理するコードを書いてくれないかしら。いずれにせよ、来週あたり成果が期待できそうですね :-)

コメント

コメントはありません。

トラックバック

トラックバックは検索対象外です。

この記事にリンクしているページ < >

  1. データがありません。