自分のはてブspam判定基準について

基準が池沼並み」というお叱りを受けたので基準を公開しておこうと思います。
以下の要素は1つでも満たしていればspamということではなく、満たす要素が多ければ多いほどspamの可能性が高い、と考えています。

  • そのエントリをブックマークしている人の合計ブックマーク数が極端に少ない

1桁もしくは2桁。botは運営に削除され、短期間でアカウントを取得しなおしているからだと考えられる。もしくは一度に大量のアカウントを取得するため。
例:http://b.hatena.ne.jp/ka0110/

  • そのエントリをブックマークしている人のはてブに参加している期間が極端に短い

1日〜数日。1つ目の条件のカモフラージュのためか1日で500〜1000のブックマークをしている例もある。
例:http://b.hatena.ne.jp/syuhoo/20070406(重いので閲覧注意)

  • 同じサイトの異なるページを大量にブックマークしている、非常に狭い範囲のブックマークしかしていない

ニュースサイトとかではなく。
例:http://b.hatena.ne.jp/anzai3/

  • 上3つの要素を持った人が始めに集中している

とりあえず注目のエントリーに乗せてしまえば、トップページに表示されるので、その後は勝手にブックマーク数が増える(もしくはアクセス数が稼げる)ため。3〜5userという数が標準的。

  • 複数のユーザーとほとんどのブックマークがかぶっている

複数のアカウントで同時にブックマークするため。

  • プライベートモードのブックマークの割合が高い

プライベートモードの方がbotspamだとバレる確率が低いと考えられる。

  • タグをつけていない。

最近は手入力で入れている例も見られる。その場合、できるだけ多くのタグ検索にヒットさせるため比較的多くのタグをつける傾向がある。
例:http://b.hatena.ne.jp/hotcool/

  • そのエントリをブックマークしている人のidがランダムな英数字で構成されている

またはアルファベット+数字という組み合わせ。これは連番でアカウントを取得している可能性がある

  • そのエントリをブックマークしている人のブックマークページのデザインがデフォルトのまま。
  • 〃        にプロフィールアイコンが設定されていない
  • 〃        がはてなダイアリーを持っていない。

まあいちいち設定しないでしょう。


上の要素ほど、より可能性が高くなる。下の方は「spamである可能性がわずかに上がる」程度。
まとめると「目的のエントリをトップページに表示させるためだけに存在する」とみられるユーザーがほとんどである記事をspamと判定しています。