我們?cè)谧鲫P(guān)鍵詞排名的時(shí)候,第一步就是要讓搜索引擎來(lái)抓去我們的網(wǎng)站。作為最先決的條件,今天小編就倆跟大家說(shuō)說(shuō)搜索引擎是如何抓取內(nèi)容的。
如何抓取:
第一步:發(fā)現(xiàn)網(wǎng)站網(wǎng)頁(yè)
搜索引擎通常通過(guò)其他一些鏈接來(lái)尋找到新的網(wǎng)站、網(wǎng)頁(yè),所以在搜索引擎發(fā)現(xiàn)網(wǎng)站的過(guò)程中,就需要增加適當(dāng)?shù)耐怄湥?,?nèi)鏈也應(yīng)當(dāng)豐富,能讓搜索引擎派出的spider從內(nèi)鏈中順利爬行,以便抓取新的頁(yè)面
第二步:搜索網(wǎng)站頁(yè)面
一旦某個(gè)網(wǎng)頁(yè)被搜索引擎對(duì)有所了解,比如百度,就會(huì)讓某個(gè)“站點(diǎn)”去搜索這些網(wǎng)頁(yè)。你很可能希望整個(gè)網(wǎng)站都被搜索。但是,這很可能會(huì)由于搜索效率低或者基礎(chǔ)結(jié)構(gòu)(阻止站點(diǎn)登陸網(wǎng)站)等因素而受到阻礙。
第三步:提取內(nèi)容
一旦搜索引擎派出的spider登陸某個(gè)頁(yè)面,它就會(huì)進(jìn)行選擇性存儲(chǔ),搜索引擎就會(huì)考慮到底需不需要儲(chǔ)存這些內(nèi)容。如果它們認(rèn)為這些內(nèi)容大多都比較空洞或者說(shuō)價(jià)值不大,那么通常不會(huì)儲(chǔ)存網(wǎng)頁(yè)(比如,這些網(wǎng)頁(yè)或許是網(wǎng)站上其他網(wǎng)頁(yè)內(nèi)容的總和)。重復(fù)內(nèi)容的其中一個(gè)普遍原因就是合并,這就是索引。
注意事項(xiàng):
1、目錄問(wèn)題
我們可以在訪(fǎng)問(wèn)日記中看到蜘蛛爬行的軌跡。在后臺(tái),我們會(huì)將不用的頁(yè)面放在不同的目錄的當(dāng)中。對(duì)于一些完全不需要蜘蛛爬行的目錄直接給禁了是最好的
。
2、頁(yè)面狀態(tài)碼
對(duì)于301跳轉(zhuǎn)以及404頁(yè)面的規(guī)劃是非常重要的。外鏈中如果連接對(duì)應(yīng)的頁(yè)面,在后臺(tái)已經(jīng)刪除,而404頁(yè)面沒(méi)有很好的引導(dǎo)客戶(hù),那就麻煩了。且,302和301的效果是不一樣的,302并不能幫助集權(quán)。