コメントスパム対策法
近年スパム被害が増えています。
誰でも投稿できるブログや掲示板も狙われています。
ここでは手間のかからない、簡単な対処法をいくつか紹介します。
- 主な対処法
- 禁止ワードを設定
- 日本語が使えない環境からの投稿を拒否
- 半角英数字のみの投稿を拒否
- 投稿できるURLの数を制限
- プロキシサーバ経由の投稿を拒否
- リファラーを参照してフォームを経由したか判断
- フォームを表示してから投稿するまでの許容時間を設定する
- ダミー項目を作り入力があった場合に拒否
- ワンタイムトークンを埋め込む
- フォームを解析されない様に、ロボットを排除
- データ送信先を頻繁に変更
- Captcha画像認証
検索ロボットを排除
HTML
- <meta name="robots" content="none,noindex,nofollow,noarchive" />
- <meta name="googlebot" content="noindex,nofollow,noarchive,nosnippet" />
- <meta name="libwww-perl" content="none,noindex,nofollow" />
ロボットを完全に排除するのは難しい様ですが、少しは効果があると思います。googlebotのsnippetは検索結果に表示される該当ページからの抜粋です。これがある方がクリック率が高まるそうです。これを削除(nosnippet)するとキャッシュも削除されます。
リファラーからフォームを経由したか調べる
PHP
- $from = $_SERVER['HTTP_REFERER'];
- $host = $_SERVER['HTTP_HOST'];
- if (!stristr($from, $host)) {
- print '不正なリファラーです。';
- }
リファラーを持たない環境は結構あります。ノートン等のセキュリティソフトによって隠蔽されている可能性もあります。ドコモなど一部携帯でアウト。
逆引き不可能なIPアドレスを拒否
PHP
- $ip = $_SERVER['REMOTE_ADDR'];
- $host = getHostByAddr($ip);
- if ($ip == $host) {
- print '逆引き不可能なIPアドレスです。';
- }
- // これでも可能
- if (!preg_match('/[a-z]/', $host)) {
- print '逆引き不可能なIPアドレスです。';
- }
プロキシ経由を拒否
プロキシ特有の環境変数とホスト名を調べる方法です。
環境変数を吐かない匿名プロキシもあって、すべてを検出できる訳ではありません。
他にはプロキシリストを作成したり、ポートスキャンする方法もあります。
PHP
- $env = $_SERVER + $_ENV;
- $ip = $systems['REMOTE_ADDR'];
- $host = getHostByAddr($ip);
- // ドコモの携帯はproxyが存在するので注意
- // anonym=anonymous,anonymizer
- // prox=proxy,proxify
- $proxhost = preg_match(
- '/anonym|cache|delegate|firewall|gateway|httpd|keeper|prox|squid|via|www/', $host);
- $bool_arr = array(
- isset($env['HTTP_CLIENT_IP']),
- isset($env['HTTP_FORWARDED']),
- isset($env['HTTP_MAX_FORWARS']),
- isset($env['HTTP_PROXY_CONNECTION']),
- isset($env['HTTP_SP_HOST']),
- isset($env['HTTP_TE']),
- isset($env['HTTP_VIA']),
- isset($env['HTTP_X_FORWARDED_FOR']),
- isset($env['HTTP_X_LOCKING']),
- isset($env['HTTP_XONNECTION']),
- isset($env['HTTP_XROXY_CONNECTION'])
- );
- $proxvar = in_array(TRUE, $bool_arr);
- if($proxhost || $proxvar) {
- print 'プロキシ経由です。';
- }
ネットワーク総合辞書 - プロクシとは
サイバーシンドローム
その他の変数
PHP
- // 使用言語(ja以外のen-US等は不可)
- $lang = $_SERVER['HTTP_ACCEPT_LANGUAGE'];
- if (!stristr($lang, 'ja')) {
- print '海外からのアクセスです。';
- }
PHP
- // 接続状況(none,close等は不可)
- $conn = $_SERVER['HTTP_CONNECTION'];
- if (!stristr($conn, 'Keep-Alive')) {
- print '接続状況が不明です。';
- }
これらの方法は携帯では使えない場合が多い。
URL数を制限
PHP
- // URLを3つまでに制限する
- if (substr_count($message, 'http://') > 3) {
- print 'URLは3つ以下に制限されています。';
- }
URLを載せる目的のスパムが多いので効果的。
ひらがなカタカナを含まない投稿を拒否
PHP
- if (!mb_ereg('[ぁ-んァ-ン]', $message)) {
- print 'カナが含まれていません。';
- }
効果的ですが、鎖国的で残念な方法。
禁止ワードの入力を拒否
PHP
- // 投稿されたくないキーワードをカンマ区切りで設定
- $spamword = 'アホ,バカ';
- // 正規表現に変換
- $spamword = preg_quote($spamword);
- $spamword = str_replace(',', '|', $spamword);
- if (mb_eregi($spamword, $message, $matches)) {
- print $matches[0].'が含まれています。';
- }
(preg_quoteはShift_JISでは無効)
日本語のスパムが目立ち始めたので、NGワード集を作成してみました。
まとめ
スパムは、フォーム情報をスキャンして一方的に大量に送りつけられます。以前は英語のスパムが殆どで対処も楽でしたが、最近は日本語のスパムも目立つ様になってきました。フォームを探すだけでなく、手動で登録したり、弾かれても内容を変えてリトライさせるスパム生成アプリまで販売されています。
有名なスクリプトや一般的な対処法はすぐに狙われてしまいます。効果的で簡単な対処方法はなかなかありませんが、ちょっとした「ひねり」を加える事で被害を抑える事ができます。例えばフォームを表示してから投稿するまでの時間を計測して短すぎたら拒否するのも賢い手法といえます。また、セッションを活用するのも効果的です。今後良い方法を入手できたら紹介したいと思います。







