277354 - 日本語向けベイジアンフィルタ用トークン分割

2005年1月11日(火) by level
B ?

Thunderbird の日本語向けベイジアンフィルタ用トークン分割パッチです。作者のホームページによると、従来、漢字1文字単位でトークン分割していたのを、文字をひらがな、カタカナ、漢字、記号の種類に分類して、文字種が変化するところで分断するようにしたとのこと。1文字単位で処理するのよりは精度が良くなりそう。今後の発展を期待したいです。当初、案山子の組み込みを目指していたものの断念したそうですが、個人的にはそこまで厳密にやることは無いように思っています。バイグラム(2文字単位)なんかどうなんでしょうか?

一方、同じ作者による spamdump extension をいう、training.dat をダンプするエクステンションも公開されています。早速使ってみるとこれはお手軽です。Spam prob. でソートすると拙作 spamdump.pl とまったく同じ結果です(当たり前か)。編集機能もあるようですが、使用する際は自己責任で。

ところで、Mozilla dot Party in Japan 4.0 の発表資料「ジャンクメールフィルタ入門」のリンクが切れていたので修正しておきました。ただし、pdf は紛失してしまったので、ppt のみで。あとで pdf 版も再作成する予定です。 [追記] pdf も置きました。

コメント (2)

1 1/11 00:13 Watson
(c1) [2005/01/11 00:13:29] by Watson

「ジャンクメールフィルタ入門」の記事に対するリンクが、localhostを参照するようになっておりそのままでは記事を閲覧することができないので、お時間があるときに修正していただけないでしょうか。

2 1/11 08:55 link
(c2) [2005/01/11 08:55:40] by link

http://level.s69.xrea.com/mozilla/party4/index.html#presentation
でイケルのではないでしょうか?

トラックバック

トラックバックは検索対象外です。

この記事にリンクしているページ < >

  1. [4] http://junnno.sakura.ne.jp/mozilla/