スパムフィルタリングの仕組み

2003年1月23日(木) by level
B ?

Mozilla 1.3alphaから導入されたスパム(ジャンクメール)フィルタ機能ですが、以前からどういうアルゴリズムでスパムかどうかを判定しているのか気になっていました。

mozilla.orgのドキュメントには詳しいことは出ていませんが、Paul GrahamのA Plan for Spamによるベイズ式(Bayesian)フィルタリングであると書いてあります。英語だけどちょっとがんばって読んでみようかと思ったのですが、何と日本語訳が出ているではないですか!さっそく読んでみると非常にわかりやすく、また読み物としてもかなりおもしろいものでした。是非一読をおすすめします。なお、文中に「コーパス」という聞き慣れない単語が出てきますが、コーパスとは、「電子化された大規模な言語資料」のことだそうです。

翻訳者はLisp系プログラミング言語Schemeの専門家であり、Mozillaとは特に関係はないようです。原作者の方もやはりLisp系の人のようで、彼のページにはスパムフィルタリングに関して多くのコンテンツが掲載されています。また、Spam Conferenceというのがあり、第1回会議が1/17に行われたようです。)
ところで、このアルゴリズムはメールから単語を抽出する必要がありますが、日本語を正しく処理しているのでしょうか?

コメント

コメントはありません。

トラックバック

トラックバックは検索対象外です。

この記事にリンクしているページ < >

  1. データがありません。