最終修正日 2008.2.17.
基本的に書類検索で、海外からの訪問者(特に日本語の読めない人)は来ると思って下さい。海外の検索エンジンのロボットは、日本語の書類も収集します。
なので、英語の検索サイトから直接日本のページに来ることはできます。
例えば、こういう検索エンジンもあります。
http://www.alltheweb.com/
言語(Language)からJapaneseを選択。ここにDragon ball Zと入れて検索しましょう。
日本語のページが数十万件ひっかかるはずです。
片っ端からクリックしてみましょう。日本の公式画像やファンアートがあっという間に、数百枚コレクションできます。また、このエンジンの画像検索モードを使うと、話はさらにはやいです。らんまでの検索結果。
実際私のページに海外から様々なサーチエンジンで「ジャンル名+fanart」で跳んでくる人がいます。やはりGoogleが多いです。
それから、日本のヤフー等の検索大手。姉妹サイトが海外にあるような検索エンジンです。
実は海外のヤフーから2クリックで簡単に日本に来れるんですね。Y! Internationalが、米ヤフーの他国のヤフー一覧ページです。ちなみに、日本のヤフーの他国一覧はここです。
ですから、日本語が読めないブラウザでも、日本のヤフーまで来て、英語でおめあてのジャンルに関係ありそうな単語を入力すればOK。(例 Fainal
Fantasy)
また、サーパラやTINAMIなどの日本アニメマニアサイトのリンク集も、すでに海外で有名です。
またネット上には、無料で利用できる翻訳サイト等もたくさんあります。画像に関しては困らないネットサーフが、日本語の文字化けするブラウザ使用の外人でもできます。
ですから、「海外からは来て欲しくない」というなら、まずロボット避けをして、メジャーなサーチエンジン等にはURLを申請しない、これが鉄則です。
ある程度潜った外人のみ存在を知ることができるような、マニア向けサーチエンジンに登録して下さい。
ウェブリングはバナーが目立つところにあるのと、「海外でもよく知られたシステム」なので、ひとつリングのバーを張ってるページが見つかると、あっさり全てのリング参加ページが閲覧可能になります。
なので安全性は高くないかも知れません。
実際、外国人が日本のリングに参加を申し出てくることも良くあります。
「出来れば外国人は断りたい」というリングオーナーの方はリングにこういう断り書きを記すことをおすすめします。
Sorry, your website must be written in Japanese in order to join
this web ring.
意味 「このリングは日本語で書かれているサイトのみ参加できます。」
アクセス制限やロボット弾きなどは、そのリンク集やサーチの管理人の方針次第ですので、規約等を読んでみて下さい。
閲覧も登録も、外国人は断りたいという登録制サーチ、閲覧はいいが登録は許可しないという登録制サーチ、色々あるでしょう。
私も海外のリンク集や登録制のサーチ、リングに参加させていただいている身分ですし、本音をいえば外国人でも、がんがんジャンルサーチに登録させればいいとは思います。ですが、「フランス語は読めませんけど、日本アニメサイトに間違いはなさそうでしたので……」とか、安易に参加させるのは考えものです。
特に管理人の方に注意して欲しいのが、「日本のサイトのイラストの無断転載がないか」です。
それがあると、他の日本人がサーチから抜けるでしょう。
申し込まれて断りたい方のための例文もあります。
100億以上ものwebページを独自に保存する、ウェブ図書館というものがあります。
使いたい方は、このフォームに見たいサイトのURLを入れて、年と月、日を選んで下さい。
すでに、登録されていて削除して欲しい場合、削除依頼を英文メールで出して下さい。
登録されたくない場合、robots.txtを置くか、USER_AGENTで判別して、ia_archiverを弾いてください。(後者のやり方は使用ブラウザでの制限にあります)
では、検索エンジンのロボットを避ける方法をご紹介しましょう。
大手検索エンジンの多くは書類検索タイプです。
これはロボットとかスパイダーと呼ばれるプログラムが、リンクをたどってインターネット上のファイルの情報を収集して回るものです。
検索エンジンによるリンクは自動ですので、当然無断リンクです。
日本語で「無断リンク禁止」とか書いても、ロボットにはわかりません。
なので、検索エンジンにリンクされたくない場合は、ロボットにわかる言語で書きましょう。
タグによるロボット避けの長所はほぼ、どのサイトでもできることです。
以下のように <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">を書けば、そのページをサーチエンジンに登録しませんし(NOINDEX)、そのページに含まれているリンクをたどりません(NOFOLLOW)。
<html>
<head>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<meta name="description" content="This webpage...">
<title>
Welcome to my Page
</title>
</head>
<body>
.
.
.
</body>
</html>
参考リンク
The
Web Robots Pages
なお、Googel等のキャッシュのみ防ぎたいためのタグはこれです。
<META NAME="ROBOTS" CONTENT="NOARCHIVE">
このタグによって、ページをロボットのキャッシュ対象から除外します。
Googleツールバーの拡張機能が有効になっている場合、Google は、表示中のウェブページに関する情報を収集できます。Googleツールバー利用者がグーグルロボット対策を施していない裏サイトや隠しページを見た場合、そのURLはGoogleに掲載される可能性があります。
Yahoo!検索の場合、下記のように2つ設定された場合は、タグが正確に解釈されない場合があります。
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOARCHIVE">
robots.txtは全てのロボットに有効ではありません。ですが、メタタグよりは効果があるでしょう。robots.txtでの制限についてはこちらのロボット対策ページをどうぞ。
ロボットも訪問者ですから、.htaccessによるアクセス制限ができます。
もっとも確実に人とロボットをわける方法は、パスワードによるアクセス制限です。
例え、IDとパスワードが入り口のページに書いてあっても、ロボットはそれを入力しません。ロボットだもの。
このやり方は、未知のロボットにも対応できます。やり方は別ページのユーザー認証で紹介しています。
ロボットには、受け入れる言語を設定していないことがあります。(少なくともヤフーとグーグルのロボットは、設定してありません)ですから、「日本語を受け入れないブラウザを弾く」で、ロボット弾きができます。実際、あるディレクトリに「日本語を受け入れないブラウザを弾く」と設定したら、ヤフーとグーグルにひっかからくなりました。ただし、これは日本人の中でも、携帯ブラウザの使用者などで、入れなくなる人がそれなりにいるでしょう。
詳しいやり方は別ページの言語設定によるアクセス制限に書いていますので、そちらをごらんください。
長所は、人が巻き込まれることが少ないことです。短所は、新しいロボットやマイナーなロボットには対応できないことです。それから、ユーザーエージェントは偽れます。日本人の閲覧者相手ならば、ヤフーとグーグルだけ弾けばだいだいは防げます。ですが、諸外国にはその国でメジャーなサーチエンジンがあったりします。
まず、相手のロボットの情報を入手しましょう。
これは「診断くん」というページのキャッシュを、そのサーチエンジンに表示させるとわかります。日本の場合は「診断くん Ver」等、海外のエンジンの場合は「pon/shin/ponchk.cgi」等で検索して下さい。キャッシュがないサーチエンジンの場合は、検索避け支援wiki などのロボットリスト掲載サイトを利用するか、アクセス解析等で対応して下さい。ヤフーとグーグルは日本でもアメリカでも、ロボットの名前に違いはないようです。
このようにしてユーザーエージェントを特定した後で、どうするかは、別ページのブラウザの種類によるアクセス制限をごらんください。
これも長所は、無関係な人が巻き込まれることが少ないことです。そしてIPは偽れません。プロキシを経由しても、そのプロキシのIPが残ります。短所は、新しいロボットやマイナーなロボットには対応できないことです。
詳しいやり方は別ページのIPアドレスによるアクセス制限に書いていますので、そちらをごらんください。
< prev | back | next > |