我們?cè)谧鲫P(guān)鍵詞排名的時(shí)候,第一步就是要讓搜索引擎來抓去我們的網(wǎng)站。作為最先決的條件,今天小編就倆跟大家說說搜索引擎是如何抓取內(nèi)容的。
如何抓取:
第一步:發(fā)現(xiàn)網(wǎng)站網(wǎng)頁
搜索引擎通常通過其他一些鏈接來尋找到新的網(wǎng)站、網(wǎng)頁,所以在搜索引擎發(fā)現(xiàn)網(wǎng)站的過程中,就需要增加適當(dāng)?shù)耐怄?,而且,?nèi)鏈也應(yīng)當(dāng)豐富,能讓搜索引擎派出的spider從內(nèi)鏈中順利爬行,以便抓取新的頁面
第二步:搜索網(wǎng)站頁面
一旦某個(gè)網(wǎng)頁被搜索引擎對(duì)有所了解,比如百度,就會(huì)讓某個(gè)“站點(diǎn)”去搜索這些網(wǎng)頁。你很可能希望整個(gè)網(wǎng)站都被搜索。但是,這很可能會(huì)由于搜索效率低或者基礎(chǔ)結(jié)構(gòu)(阻止站點(diǎn)登陸網(wǎng)站)等因素而受到阻礙。
第三步:提取內(nèi)容
一旦搜索引擎派出的spider登陸某個(gè)頁面,它就會(huì)進(jìn)行選擇性存儲(chǔ),搜索引擎就會(huì)考慮到底需不需要儲(chǔ)存這些內(nèi)容。如果它們認(rèn)為這些內(nèi)容大多都比較空洞或者說價(jià)值不大,那么通常不會(huì)儲(chǔ)存網(wǎng)頁(比如,這些網(wǎng)頁或許是網(wǎng)站上其他網(wǎng)頁內(nèi)容的總和)。重復(fù)內(nèi)容的其中一個(gè)普遍原因就是合并,這就是索引。
注意事項(xiàng):
1、目錄問題
我們可以在訪問日記中看到蜘蛛爬行的軌跡。在后臺(tái),我們會(huì)將不用的頁面放在不同的目錄的當(dāng)中。對(duì)于一些完全不需要蜘蛛爬行的目錄直接給禁了是最好的
。
2、頁面狀態(tài)碼
對(duì)于301跳轉(zhuǎn)以及404頁面的規(guī)劃是非常重要的。外鏈中如果連接對(duì)應(yīng)的頁面,在后臺(tái)已經(jīng)刪除,而404頁面沒有很好的引導(dǎo)客戶,那就麻煩了。且,302和301的效果是不一樣的,302并不能幫助集權(quán)。