今天早上進(jìn)入Feedsky管理后臺(tái),從實(shí)時(shí)統(tǒng)計(jì)里,驚訝的發(fā)現(xiàn)有個(gè)“Larbin爬蟲(chóng)”!
從地區(qū)顯示來(lái)看,這個(gè)少見(jiàn)的爬蟲(chóng)來(lái)自中國(guó)Shunyi(順義)。
我從來(lái)沒(méi)看到過(guò)有Larbin爬蟲(chóng)的記錄,今天還是第一次遇到。為了解除疑問(wèn),我查了下有關(guān)Larbin爬蟲(chóng)的資料。
Larbin的簡(jiǎn)介
Larbin是一種開(kāi)源的網(wǎng)絡(luò)爬蟲(chóng)/網(wǎng)絡(luò)蜘蛛,由法國(guó)的年輕人Sébastien Ailleret 獨(dú)立開(kāi)發(fā)。Larbin目的是能夠跟蹤頁(yè)面的url進(jìn)行擴(kuò)展的抓取,最后為搜索引擎提供廣泛的數(shù)據(jù)來(lái)源。
Larbin只是一個(gè)爬蟲(chóng),也就是說(shuō)Larbin只抓取網(wǎng)頁(yè),至于如何parse的事情則由用戶自己完成。另外,如何存儲(chǔ)到數(shù)據(jù)庫(kù)以及建立索引的事情 Larbin也不提供。
Larbin的作用
1. Larbin獲取單個(gè)、確定網(wǎng)站的所有聯(lián)結(jié),甚至可以鏡像一個(gè)網(wǎng)站。
2. Larbin建立url 列表群,例如針對(duì)所有的網(wǎng)頁(yè)進(jìn)行url retrive后,進(jìn)行xml的聯(lián)結(jié)的獲取 。
3. Larbin定制后可以作為搜索引擎的信息的來(lái)源(例如可以將抓取下來(lái)的網(wǎng)頁(yè)每2000一組存放在一系列的目錄結(jié)構(gòu)里面)。
后記
終于大致了解了Larbin爬蟲(chóng),原來(lái)Larbin爬蟲(chóng)是網(wǎng)站管理員安裝的,并不是某個(gè)搜索引擎放出來(lái)的蜘蛛。Larbin爬蟲(chóng)爬到的網(wǎng)頁(yè)可以放在一個(gè)特定的文件夾中,這個(gè)文件夾里還可以創(chuàng)建子文件夾,每個(gè)子文件夾存放N個(gè)網(wǎng)頁(yè),并且文件夾里邊有index索引文件,記錄了爬過(guò)的url序列。這樣一來(lái),確實(shí)是可以作為搜索引擎的信息來(lái)源,是一個(gè)非常實(shí)用的SEO武器。
Larbin爬蟲(chóng)目前沒(méi)有支持windows版本,只能在Linux下使用,但它是一個(gè)用C++編寫(xiě)的開(kāi)源的工具。有興趣的人可以研究下,根據(jù)自身情況制定自己的Larbin爬蟲(chóng)。
Larbin官方地址:http://larbin.sourceforge.net/index-eng.html