検索エンジンロボットを制御する
METAタグかrobots.txtを使用して制御が可能です。
検索エンジンロボットは、その名からもわかる通り、Googleやgooといった検索サイトで検索機能を提供するためにWebサイトの情報を集めています(検索以外を目的とするロボットもいますが)。
http://tech.bayashi.net/pdmemo/robots.html
Webサーバに残るロボットのアクセスには以下の様なものがあります。
- googlebot
crawler10.googlebot.com - - [05/Dec/2003:13:49:09 +0900] "GET /st/ds/ HTTP/1.0" 200 39464 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"
- Slurp/cat
j3114.inktomisearch.com - - [05/Dec/2003:21:28:35 +0900] "GET /st/dcp/ HTTP/1.0" 200 9375 "-" "Mozilla/5.0 (Slurp/cat; slurp@inktomi.com; http://www.inktomi.com/slurp.html)"
- Infoseek SideWinder
210.148.160.162 - - [05/Dec/2003:11:33:55 +0900] "GET /st/ HTTP/1.0" 200 11311 "-" "Infoseek SideWinder/2.0B (Linux 2.4 i686)"
- FAST-WebCrawler
mmscrm10-2.sac2.fastsearch.net - - [06/Dec/2003:03:06:50 +0900] "GET /robots.txt HTTP/1.0" 200 121 "-" "FAST-WebCrawler/3.x Multimedia (mm dash crawler at fast dot no)"
- ia_archiver
crawl22-public.alexa.com - - [05/Dec/2003:18:05:16 +0900] "GET /st/pdmemo/fileext.html HTTP/1.0" 200 14714 "-" "ia_archiver"