iyuichiの私的開発ログ

渋谷で働くWebエンジニアのログ. Java, Android, iOS, Docker, GCP, AWS, ゲーム開発

検索エンジンロボットを制御する

METAタグかrobots.txtを使用して制御が可能です。

検索エンジンロボットは、その名からもわかる通り、Googleやgooといった検索サイトで検索機能を提供するためにWebサイトの情報を集めています(検索以外を目的とするロボットもいますが)。

http://tech.bayashi.net/pdmemo/robots.html

Webサーバに残るロボットのアクセスには以下の様なものがあります。

  • googlebot

crawler10.googlebot.com - - [05/Dec/2003:13:49:09 +0900] "GET /st/ds/ HTTP/1.0" 200 39464 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"

  • Slurp/cat

j3114.inktomisearch.com - - [05/Dec/2003:21:28:35 +0900] "GET /st/dcp/ HTTP/1.0" 200 9375 "-" "Mozilla/5.0 (Slurp/cat; slurp@inktomi.com; http://www.inktomi.com/slurp.html)"

  • Infoseek SideWinder

210.148.160.162 - - [05/Dec/2003:11:33:55 +0900] "GET /st/ HTTP/1.0" 200 11311 "-" "Infoseek SideWinder/2.0B (Linux 2.4 i686)"

  • FAST-WebCrawler

mmscrm10-2.sac2.fastsearch.net - - [06/Dec/2003:03:06:50 +0900] "GET /robots.txt HTTP/1.0" 200 121 "-" "FAST-WebCrawler/3.x Multimedia (mm dash crawler at fast dot no)"

  • ia_archiver

crawl22-public.alexa.com - - [05/Dec/2003:18:05:16 +0900] "GET /st/pdmemo/fileext.html HTTP/1.0" 200 14714 "-" "ia_archiver"