長沙網站優化公司

你知道蜘蛛的對你網站的行徑路線嗎?讓真人平台告訴你蜘蛛的原理

浏覽:/ 2017-09-26

timg (17).jpg

一位讀者在蜘蛛抓取配額是什麽這篇帖子留言:

不對呀,這個index標簽,是指告訴蜘蛛可以抓取該頁面,那麽noindex不就是不允許抓取該頁面嗎?!那麽爲什麽文章最後的幾個說明裏有“noindex標簽不能節省抓取份額。搜索引擎要知道頁面上有noindex標簽,就得先抓取這個頁面,所以並不節省抓取份額。”
留言說明,這位讀者並沒有太明白什麽是抓取,什麽是索引,index和noindex標簽的意義又是什麽。noindex標簽不是不允許抓取該頁面,是不允許索引該頁面,這兩者是不同的意思,有不同的功能。

看SEO有關博客和論壇時能感覺到,很多SEO並沒有理解爬行、抓取、索引、收錄這些概念到底指的是什麽,區別在哪,noindex、nofollow、robots文件的功能又是什麽。對這些概念沒有精准理解,處理大型網站結構,決定什麽頁面需要被抓取,什麽需要被索引,哪些頁面需要禁止抓取、索引等等情況時,就很難明白該怎麽做。甚至就像抓取配額那篇帖子的很多留言說的,提到這些情況的處理時,根本看不懂在說什麽。

這麽基本、重要,又比較容易混淆的SEO概念,我以爲以前在博客裏寫過了,看了留言,翻翻以前帖子才知道,原來以前沒寫過。SEO實戰密碼書裏是有寫的,但SEO每天一貼裏並沒有寫過。今天補上。

爬行是什麽?

爬行指的是搜索引擎蜘蛛從已知頁面上解析出鏈接指向的URL,然後沿著鏈接發現新頁面(也就是鏈接指向的URL)的過程。當然,蜘蛛並不是發現新URL馬上就爬過去抓取新頁面,而是把發現的URL存放到待抓地址庫中,蜘蛛按照一定順序從地址庫中提取要抓取的URL。

抓取是什麽?

抓取是搜索引擎蜘蛛從待抓地址庫中提取要抓的URL,訪問這個URL,把讀取的HTML代碼存入數據庫。蜘蛛的抓取就是像浏覽器一樣打開這個頁面,和用戶浏覽器訪問一樣,也會在服務器原始日志中留下記錄。

索引是什麽?

索引指的是將一個URL的信息進行整理,存入數據庫,也就是索引庫,用戶搜索時,搜索引擎從索引庫中提取URL信息並排序展現出來。索引的英文是index。索引庫是用于搜索的,所以被索引的URL是可以被用戶搜索到的,沒有被索引的URL用戶在搜索結果中是看不到的。

要注意的是,所謂“一個URL的信息“,並不限于蜘蛛從URL上抓取來的內容,還有來自其它來源的信息,如外部鏈接、鏈接的錨文字等。有的時候,索引庫中關于這個URL的的信息,根本沒有從這個URL抓取來的內容,但搜索引擎知道這個URL的存在,並且有一些其它信息。

抓取和索引不是一回事。

收錄是什麽?

我個人覺得收錄和索引沒有區別。只不過收錄是從搜索用戶角度看的,搜索時能找到這個URL,就是這個URL被收錄了。從搜索引擎角度看,URL被收錄了,也就是這個URL的信息在索引庫中存在。英文並沒有收錄這個詞,和索引用的是同一個詞index。

noindex的作用是什麽?

页面头信息中放上meta noindex标签是告诉搜索引擎不要索引这个URL,也就是用户搜索时找不到这个URL的信息,这个URL不会返回在搜索结果列表中。

noindex不是告訴搜索引擎不要抓取這個URL,實際上,noindex要起作用,這個URL是必須先被抓取的,不然搜索引擎怎麽看到頁面HTML代碼中有noindex標簽呢?

robots文件的作用是什麽?

robots文件是告訴搜索引擎,某些URL不要抓取。注意,這裏說的是不要抓取,沒說不要索引。和noindex是正相反的。

nofollow的作用是什麽?

給鏈接加上nofollow屬性是告訴搜索引擎,不要沿著這個鏈接爬行,就當這個鏈接不存在。注意,nofollow只是告訴蜘蛛不要爬這個鏈接,沒有說不要抓取鏈接指向的URL,也沒有說不要索引鏈接指向的URL,nofollow既沒禁止抓取,也沒禁止索引。

概念說過後,指出幾個SEO們經常弄不明白的情況:

沒有被抓取的頁面是可以被索引的

也就是說,蜘蛛沒有訪問和抓取這個頁面(比如被robots文件禁止抓取),這個頁面卻有信息存在索引庫中,用戶搜索時還能看到。

比如,淘寶整個網站用robots文件禁止百度蜘蛛抓取,但沒有用noindex禁止索引(如上面說的,禁止抓取後,就沒辦法禁止索引了,不抓取,就看不到noindex標簽了),所以即使百度沒有訪問和抓取淘寶頁面,但淘寶很多頁面是被百度索引的,用戶可以搜到的:

淘寶禁止百度抓取,但沒有禁止索引

百度從網上那麽多鏈接知道淘寶首頁的存在,通過鏈接的錨文字也知道這個頁面標題大概是淘寶之類的,當然更知道百度口碑裏的評價數。所以即使百度蜘蛛沒有抓取淘寶首頁,用戶還是能搜到,並且顯示一些百度知道的信息。

要想百度不能返回淘寶首頁該怎麽辦呢?取消robots文件的禁止抓取,頁面上用noindex禁止索引。

被抓取的頁面是可以不被索引的

最常見的就是上面說過的,頁面頭信息使用noindex禁止索引,頁面被抓取,讀到noindex後,不被索引,不會在搜索結果中返回。

还有可能是因为页面内容是抄袭、转载、低质量的,搜索引擎虽然抓取了页面,索引过程中检测出这些内容问题,被丢弃,没有被索引。所以页面没有被收录,通常要先检查原始日志,看看是否被抓取过,如果被抓取过,可能是内容质量问题,如果根本没被抓取,建议先看看網站结构是否有问题。

加了nofollow的鏈接目標頁面可以被抓取和索引

前面说了,nofollow既不禁止抓取,也不禁止索引。nofollow的作用是告诉蜘蛛不要跟着这个链接爬,就当这个链接不存在,但nofollow只对这个链接起作用,对别的链接没作用,这个链接加了nofollow,不意味着别的地方就没有正常的指向这个URL的链接,只要别的地方出现了没加nofollow的链接,目标URL还是会被发现、抓取(假设没被robotx文件禁止)、索引(假设没加noindex )。

閱讀"你知道蜘蛛的對你網站的行徑路線嗎?讓真人平台告訴你蜘蛛的原理"的人還閱讀

上一篇:詳細介紹白帽手法,解析神秘的白帽技巧

下一篇:關鍵詞排名方法歸納,教你最基礎的關鍵詞排名手法