
搜索引擎優(yōu)化指南:搜索引擎是怎樣工作的
- 2021年10月24日
這是一個簡單的搜索引擎優(yōu)化指南,我們都知道,搜索引擎在使用時非??旖荼憷澈蟮墓ぷ鬟^程卻非常復雜,下面就來簡單介紹一下搜索引擎具體是怎么工作的。
搜索引擎的工作過程可以分作三階段:爬行抓取,預處理和排名。
一,爬行與抓取
搜索引擎的爬行主要是依賴蜘蛛(spider)進行,搜索引擎蜘蛛是一種用來爬行和訪問頁面的程序,它發(fā)送頁面請求訪問,服務器返回HTML代碼,蜘蛛會把這個代碼存入原始數(shù)據(jù)庫。
為了抓取越來越多的頁面,搜索引擎蜘蛛會隨著頁面鏈接從一個頁面到另一個頁面,就像蜘蛛在網(wǎng)上爬行一樣,這也是它名稱的由來。

相互鏈接的網(wǎng)站和頁面組成了整個互聯(lián)網(wǎng),因此,蜘蛛從任何一個頁面出發(fā),理論上可以爬到任何網(wǎng)站(除了那些沒有建立鏈接的網(wǎng)站)。蜘蛛的爬行策略有兩種,一種是深度優(yōu)先,從一個頁面爬到下一個頁面,直到?jīng)]有頁面可以爬了再回到第一個繼續(xù)沿其他鏈接爬。第二種是廣度優(yōu)先,先把頁面所有的第一層鏈接爬一遍,再到下一個頁面去。
無論是哪種策略,只要時間足夠,蜘蛛都可以爬完整個互聯(lián)網(wǎng)。但由于帶寬資源和時間有限,就算是最大的搜索引擎也只是爬行和收錄了互聯(lián)網(wǎng)的一小部分內(nèi)容。
二,預處理
預處理的主要內(nèi)容是進行索引。搜索引擎所抓取的原始頁面并不能用來排名、呈現(xiàn)在用戶面前。如果要在用戶輸入搜索詞后再靠排名程序分析數(shù)萬億的頁面的話,就需要太長時間來返回排名結(jié)果,因此,預處理就是必要的了。
預處理主要是通過提取文字、去停止詞(去掉感嘆詞、沒有意義的副詞等等)、消除不相關(guān)的內(nèi)容、去重等一系列工作,最終將網(wǎng)站進行正向索引和倒排索引,計算鏈接關(guān)系,最終對網(wǎng)站的頁面內(nèi)容質(zhì)量以及外鏈進行判斷,最終得出一個對網(wǎng)站的質(zhì)量評價。
質(zhì)量評價可能包含很多因素,包括但不限于用戶體驗、關(guān)鍵詞提取、頁面排版、內(nèi)容質(zhì)量等等。
三,排名
在進行過預處理后,搜索引擎就可以隨時處理用戶的搜索請求了,當搜索引擎接收到用戶輸入的搜索詞后,需要對搜索詞進行一些處理才能進入排名過程。
這些處理和預處理時類似,需要去停止詞,糾正錯誤拼寫,整合觸發(fā)搜索,判斷用戶的搜索意圖,處理用戶的指令。
經(jīng)過處理的搜索詞是一個以詞為基礎(chǔ)的關(guān)鍵詞集合,搜索引擎會通過這個關(guān)鍵詞集合迅速造出包含關(guān)鍵詞的所有文件,隨后進行相關(guān)性計算,關(guān)鍵詞出現(xiàn)的次數(shù)越多,文件與關(guān)鍵詞的相關(guān)性也就越高,當然,與網(wǎng)頁本身無關(guān),為了出現(xiàn)而出現(xiàn)的關(guān)鍵詞是會被算法排除的。
在進行排名過濾和調(diào)整后,最終就會將結(jié)果頁呈現(xiàn)在用戶面前,這樣一次搜索就完成了。
