国产91精品高清一区二区三区,国产无码视频一区二区

Larbin爬蟲驚現(xiàn)Feedsky

作者:Kaka 時(shí)間:2010-5-29 21:10:15 瀏覽: 評論:6

今天早上進(jìn)入Feedsky管理后臺，從實(shí)時(shí)統(tǒng)計(jì)里，驚訝的發(fā)現(xiàn)有個“Larbin爬蟲”！

從地區(qū)顯示來看，這個少見的爬蟲來自中國Shunyi（順義）。

我從來沒看到過有Larbin爬蟲的記錄，今天還是第一次遇到。為了解除疑問，我查了下有關(guān)Larbin爬蟲的資料。

Larbin的簡介

Larbin是一種開源的網(wǎng)絡(luò)爬蟲/網(wǎng)絡(luò)蜘蛛，由法國的年輕人Sébastien Ailleret 獨(dú)立開發(fā)。Larbin目的是能夠跟蹤頁面的url進(jìn)行擴(kuò)展的抓取，最后為搜索引擎提供廣泛的數(shù)據(jù)來源。

Larbin只是一個爬蟲，也就是說Larbin只抓取網(wǎng)頁，至于如何parse的事情則由用戶自己完成。另外，如何存儲到數(shù)據(jù)庫以及建立索引的事情 Larbin也不提供。

Larbin的作用

      1. Larbin獲取單個、確定網(wǎng)站的所有聯(lián)結(jié)，甚至可以鏡像一個網(wǎng)站。
      2. Larbin建立url 列表群，例如針對所有的網(wǎng)頁進(jìn)行url retrive后，進(jìn)行xml的聯(lián)結(jié)的獲取。
      3. Larbin定制后可以作為搜索引擎的信息的來源（例如可以將抓取下來的網(wǎng)頁每2000一組存放在一系列的目錄結(jié)構(gòu)里面）。

后記

終于大致了解了Larbin爬蟲，原來Larbin爬蟲是網(wǎng)站管理員安裝的，并不是某個搜索引擎放出來的蜘蛛。Larbin爬蟲爬到的網(wǎng)頁可以放在一個特定的文件夾中，這個文件夾里還可以創(chuàng)建子文件夾，每個子文件夾存放N個網(wǎng)頁，并且文件夾里邊有index索引文件，記錄了爬過的url序列。這樣一來，確實(shí)是可以作為搜索引擎的信息來源，是一個非常實(shí)用的SEO武器。

Larbin爬蟲目前沒有支持windows版本，只能在Linux下使用，但它是一個用C++編寫的開源的工具。有興趣的人可以研究下，根據(jù)自身情況制定自己的Larbin爬蟲。

Larbin官方地址：http://larbin.sourceforge.net/index-eng.html