ブログにリファラの一覧機能をつけるためのメモ

2007年1月2日(火) 16時59分 by level
B ?

えむもじらに「はてなダイアリー」のようなリファラの一覧機能をつけるためのメモ。

2007/1/16 とりあえず公開。

  • 主要な機能
    • ログから記事ごとのリファラのデータベースを作成する。これが初期状態となる。(2006/1/2)
    • 記事内にリファラの一覧を表示する(2006/1/3)
    • 記事のアクセスごとにリファラのデータベースを更新する(2006/1/7)
    • リファラランキング(2006/1/9)
    • フィルタの掃除機能(あったらよい)
    • フィルタを編集するための UI(あったらよい)
  • リファラの中から、一覧に表示しないものをフィルタリングする必要がある。
    • えむもじら自身
    • 検索エンジン(検索キーワードは別途処理したい)
    • フィードリーダ
    • アンテナ
    • はてなブックマーク(専用APIで表示しているので)
    • その他del.icio.usなどのブックマーク系
    • リファラスパム(意外と多いのに驚いた)
  • 特にリファラスパムは季節変動が激しいと思われるので、意味のないフィルタがいつまでも残らないように適度に掃除する必要がある。過去n日以内にヒットしないフィルタは除去するなどの仕組みが必要。
  • リファラスパムは、ゼネラルなフィルタでかなりの部分が除去できる。これはコメントスパムのフィルタにも応用できそう(コメントから URL を抜き出し、それにこのフィルタを適用する。もっとも現状で十分なので今のところその必要性は少なそうだが)。
    ちなみには、以下はここ2ヶ月のリファラスパムを除去するために作った URL のゼネラルフィルタ(正規表現)。
    '#$',
    '\.edu/',
    '^http://www\.the\w{7}',
    '(casino|black.?jack|roulette|viagra|phentermine|insurance|[Aa]dipex|slot.?machine|bimba|weight.?loss)',
    '(poker|pill).*\.com',
    '(pills|poker|slots)\b',
    
    ギャンブル系が目立つ。アダルト系は少ない。もちろんこれで全てを除去できるわけではないが、対象期間内では半数以上は除去可能だろう。ただし、メンテナンスは必須だろう。
  • リファラスパムを発見したら、全記事に渡って除去する仕組みが必要。とりあえず、フィルタを追加し、表示時にフィルタを再適用することで対応する。データベース更新時にも最新フィルタを反映させる。
  • リファラ表示の制御。
    • 古い記事は表示しないなど。
    • 記事単位での表示制御。デフォルトは、記事の古さ。
    • 新しい記事は全て表示するが、古い記事はn個以上のリファラのみを表示。たぶんスパムは同じ記事に何度も送ってこないので、スパムの対策にもなる。
  • リンクには当然 rel="nofollow" を入れる。
  • 一部の掲示板のように、表示形式を URL のパラメータで制御できるものは、同一のコンテンツがさまざまな URL として表示されてしまうという問題があるので、URL のノーマライズ処理を行うことが好ましい。とりあえず、スラドについては処理を追加したが、サイトによってルールが異なるのでいちいちやっていてはきりが無い。
最終更新: 2007年1月17日(水) 0時37分

コメント

コメントはありません。

トラックバック

トラックバックは検索対象外です。

この記事にリンクしているページ < >

  1. データがありません。