用 Apache 拒絕網路流氓的騷擾

Google, Yahoo 的搜尋引擎之所以可以搜尋到很多資料，是因為他們時時刻刻都派著 “robot” 在網路上巡邏，Google 的叫 googlebot, MSN 叫 msnbot, Yahoo! 叫 Yahoo Slurp 等等，任務就是捉新的網頁或更新的網頁回去資料中心. 為了隱私之類的原因，國際組織訂有規則，規範 robot 的行為 — 基本上是 robot 要先參考網站根目錄的一個 robots.txt 的檔案，內容寫著 robot 的名稱及禁止捉取的目錄或檔案，例如:
User-agent: abc Disallow: /not_for_abc/ User-agent: * Disallow: /secret/
意思是禁止 abc 這個 robot 捉 /not_for_abc/ 目錄，及禁止所有的 robots 捉 /secret/ 目錄. 網站管理者理論上可以將不喜歡的 robot，或是禁止 robot 捉取的目錄或檔案，寫在這個檔案中.

但是這個只防君子不防小人，碰到網路流氓就沒轍了，有些搜尋引擎的 robot 根本不看網站的 robots.txt，就一路抓下去，實在另人髮指. 網路流氓是什麼，就是這些不遵守遊戲規則，到處亂捉別人網站的內容的壞蛋，這樣會造成網站的流量增加，也就是費用的增加，或是不想被搜尋的資料也被捉走了，侵犯網站的隱私. 很可惡是吧. 下面是幾個例子：
iaskspider 是「愛問」屬於中國新浪網的 robot，完全不管 robots.txt
60.28.164.87 - - [06/Jan/2007:06:28:47 +0800] "GET /wp/archives/2005/08/13/12/46/48/ HTTP/1.0" 200 20969 "-" "Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)" 60.28.164.87 - - [06/Jan/2007:06:29:34 +0800] "GET /wp/archives/2005/08/13/21/28/00/ HTTP/1.0" 200 19601 "-" "Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)" 60.28.164.87 - - [06/Jan/2007:06:31:45 +0800] "GET /wp/archives/2005/07/06/22/47/17/ HTTP/1.0" 200 39200 "-" "Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)"

QihooBot，也是來自中國的「奇虎網」，也是垃圾一個，浪費一堆頻寬，來源 IP 有很多個：
220.181.34.162 - - [03/Jan/2007:11:36:27 +0800] "GET /wp/feed/ HTTP/1.1" 200 21947 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)" 220.181.34.170 - - [03/Jan/2007:11:38:14 +0800] "GET /wp/archives/2006/12/ HTTP/1.1" 200 5373 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)" 220.181.34.177 - - [03/Jan/2007:11:38:30 +0800] "GET /wp/archives/category/childtalking/ HTTP/1.1" 200 6554 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)"
另有 larbin，iearthworm，yodaoice，lanshanbot，Outfoxbot 等等一堆，到網路上徵信一下，這些通通不是什麼好東西，還有一個 WebClipping.com 不知是好人壞人…

碰到這種網路流氓，說實在的也沒什麼積極的辦法，不能叫網路警察把它捉起來．．．不過消極的辦法還是有的，把網站門戶看好 — Apache 可以擋住特定 IP，但因為 robots 大多有多重 IP，過濾壞蛋的姓名比較有效，可以用 BrowserMatchNoCase 來過濾，用法像是：
Order allow,deny Allow from all BrowserMatchNoCase "iaskspider" badguy BrowserMatchNoCase "QihooBot" badguy BrowserMatchNoCase "larbin" badguy deny from env=badguy
如此，它們就會收到 Apache 丟回 403 碼：Forbidden

但是，有些更沒品的還會隱姓埋名，不敢用真面目見人的…

別人也看的文章:

(Visited 8,467 times, 1 visits today)

Tagged Apache. Bookmark the permalink.

7 Responses to 用 Apache 拒絕網路流氓的騷擾

曉雯 says:

2007 年 02 月 13 日 at 下午 11:43

哇！這真是太專業了！ 😯
朱朱 says:

2007 年 02 月 14 日 at 上午 9:03

我也試過各種不同的方法，mod_rewrite、php preload… 可是發現不管什麼法方，都是難練易破（童子功？）所以現在只擋幾個惡性重大的了。專心擋垃圾和盜連圖檔的就算了。
Mark says:

2007 年 02 月 14 日 at 下午 12:53

曉雯，謝謝了，都是看 document，try and error，談不上專業．工作跟這些也沒什麼關係.

同學，目前這個方法對有名有姓的壞人很有效的.
朱朱 says:

2007 年 02 月 14 日 at 下午 2:19

擋有名字的當然是有效了。我是用 mod_rewrite 來擋，還可以用 grep，一行擋一群。 🙂 只是有的根本沒名字，或是三不五時換，這個名單就愈來愈長…Apache 比對這些東西也不是不要錢的。

偷圖的是最討厭了。偷我們的作品還用我的頻寬。現在都在我的 404 ErrorDocument 裡把它們轉去看「有趣」的圖。哈哈。
Mark says:

2007 年 02 月 14 日 at 下午 2:41

隱姓埋名的先不管它，沒發現犯行重大的…

偷圖的很久以前就發生過了 — 盜連與Apache反盜連 😀
蓁榛健康生活藥局 says:

2007 年 06 月 30 日 at 上午 2:25

看看我們網站這個月前6名搜尋網站的流量，可怕喔!
BaiDuSpider –1.92 GB
Unknown robot (identified by ‘spider’) –7.41 GB
Inktomi Slurp –5.74 GB
Googlebot — 1.29 GB
Google AdSense –530.33 MB
Unknown robot (identified by ‘robot’) –154.19 MB
MSNBot — 148.81 MB
2hei says:

2007 年 11 月 22 日 at 下午 6:11

那些不遵守游戏规则的确实可恨，有时候robots.txt人家根本不管的。

Mark on 秦孝儀版「蔣公紀念歌」謝謝提供回饋！
we_sea on 秦孝儀版「蔣公紀念歌」Mark 大您好，這首歌我印象深刻，當時好像播了一個月，有時還看得到紀錄片(我
Andrea on 小松鼠原來小奕從小對節奏就特別有感啊!
Mark on 秦孝儀版「蔣公紀念歌」這裡還是可以打開播放啊
Rommel on 秦孝儀版「蔣公紀念歌」博主我是大陸民國派最近看到《總統蔣公哀榮》這段視頻其中背景音樂有一段頌詞：
磐石國安 on 秦孝儀版「蔣公紀念歌」各位大大，好棒棒的互動
Sean Ma on 懷舊軍歌 Part II請問一下步校校歌何時改的？
張良信 on 懷舊軍歌https://fb.watch/tNDn3mRWni/

用 Apache 拒絕網路流氓的騷擾

別人也看的文章:

7 Responses to 用 Apache 拒絕網路流氓的騷擾

分類

最新迴響

Popular Posts

用 Apache 拒絕網路流氓的騷擾

別人也看的文章:

7 Responses to 用 Apache 拒絕網路流氓的騷擾

標籤

分類

最新迴響

Popular Posts