Google, Yahoo 的搜尋引擎之所以可以搜尋到很多資料,是因為他們時時刻刻都派著 “robot” 在網路上巡邏,Google 的叫 googlebot, MSN 叫 msnbot, Yahoo! 叫 Yahoo Slurp 等等,任務就是捉新的網頁或更新的網頁回去資料中心. 為了隱私之類的原因,國際組織訂有規則,規範 robot 的行為 — 基本上是 robot 要先參考網站根目錄的一個 robots.txt 的檔案,內容寫著 robot 的名稱及禁止捉取的目錄或檔案,例如:
User-agent: abc
Disallow: /not_for_abc/
User-agent: *
Disallow: /secret/
意思是禁止 abc 這個 robot 捉 /not_for_abc/ 目錄,及禁止所有的 robots 捉 /secret/ 目錄. 網站管理者理論上可以將不喜歡的 robot,或是禁止 robot 捉取的目錄或檔案,寫在這個檔案中.
Continue reading
標籤
分類
最新迴響
Popular Posts
- PhotoCap2–大頭照之製作 (225,344)
- 在已安裝 XP 系統上裝 intel 的 AHCI driver (153,910)
- 日本精工牌 MK SEIKO 麵包機 HB-635K (121,789)
- 懷舊軍歌 Part II (119,878)
- DIY 安裝日本 BS 衛星電視的二三事 (101,406)
- 懷舊軍歌 (100,467)
- PhotoCap2–免費的數位相機最佳軟體拍檔 (92,397)
- DVB-S 衛星電視 (71,374)
- Windows XP 64 bit 與 32 bit 版本的測試 (70,731)
- 客廳的 MCE 家庭劇院電腦 (HTPC) (67,718)