做SEO的,如果不懂搜索引擎的工作原理是很難恰當開展工作的。前幾天給學生講SEO課程中的搜索引擎工作原理時,很多同學表示不太懂。后來我畫了搜索引擎主要工作流程的示意圖給大家,很多同學表示“懂了”。
我們先來看搜索引擎的主要工作:頁面收錄、頁面分析、頁面排序及關鍵字查詢。搜索引擎的工作流程是:頁面收錄——頁面分析——頁面排序——關鍵字查詢。
一、搜索引擎工作原理——頁面收錄
搜索引擎工作原理示意圖——頁面收錄流程
頁面收錄的最終目的是將網站上的內容加入到URL列表,積累URL資源。
第一步:搜索引擎的爬行程序(俗稱蜘蛛)發(fā)現(xiàn)網站,來到網站上。也就是說網站首先要存在,且能夠被蜘蛛發(fā)現(xiàn)。比如我的博客如果要被搜索引擎收錄,首先要存在而且要有內容。
第二步:蜘蛛開始對入口頁面進行抓取,并存儲入口的原始頁面,包含頁面的抓取時間、URL、最后修改時間等。存儲原始頁面的目的是為了下次到來比對頁面是否有更新,蜘蛛喜歡經常更新的網站。
第三步:提取URL,提取URl包含兩個兩個內容:域名URL和內部URL。域名URL即網站首頁地址,如;內部URL即網站內部各頁面的地址,如。蜘蛛所提取到的URL資源會持續(xù)添加到URL列表。
二、搜索引擎工作原理——頁面分析
在頁面收錄中,搜索引擎已經抓取到了網站上的URL,接下來,搜索引擎會對所抓取到的頁面內容進行分析。
搜索引擎工作原理示意圖-頁面分析流程
在這個過程中,我們看到了兩個“網頁”。第一個“網頁”指的是剛才搜索引擎已經收錄的URL資源。好,搜索引擎對頁面的分析正式開始。
第一步:提取正文信息。這里所提取的正文信息除了包含頁面內容外,也包含頁面的頭部標簽信息(ion)等。
第二步:提取完信息后,搜索引擎按照機械分詞法和統(tǒng)計分詞法,將正文信息切分為若干關鍵詞,這些關鍵詞組成了關鍵詞列表。我們大家在搜索引擎里查找內容時往往會輸入關鍵詞查找,這里搜索引擎的工作就是按照一定的規(guī)則將內容劃分為詞,以便以后大家搜索。
第三步:上一步搜索引擎已經將正文內容切分為了若干關鍵詞,這些關鍵詞出現(xiàn)的位置、頻率等是不同的,在第三步,搜索引擎會將關鍵詞逐一記錄、歸類、建立索引。比如,關鍵詞出現(xiàn)的頻率我們建議2%——8%是最為合理的,那么搜索引擎在給關鍵詞歸類時,會認為符合2%——8%的關鍵詞是網頁的主關鍵詞,從而在接下來的頁面排序時給予照顧。
第四步:搜索引擎為頁面關鍵詞建立索引后,再將這些關鍵詞重新組合,以關鍵詞的形式重新組建一個新的網頁,這個網頁上的關鍵詞是唯一的,全部不重復。比如,我們剛才在第三步時,A關鍵詞出現(xiàn)了三次,在第四步,我們只記錄A關鍵詞1次,在重組后的網頁后,A關鍵詞再無重復。
至此,搜索引擎對頁面的分析完成,在這一環(huán)節(jié),搜索引擎完成了對頁面正文信息的提取、關鍵詞的切分、關鍵詞的索引、以及搜索引擎角度上的網頁重組。
三、搜索引擎工作原理——頁面排序
在上面一個環(huán)節(jié),搜索引擎完成了對頁面的分析,將頁面以唯一關鍵詞的形式進行了重新組合。接下來開始進入到頁面排序的環(huán)節(jié)。
頁面排序的環(huán)節(jié),實際上是由用戶配合來完成的。當用戶在搜索引擎輸入關鍵詞進行查詢時,搜索引擎便開始了頁面排序的的工作。
我們知道,任意輸入一個關鍵詞就可以在搜索引擎中找到很多網頁,這些網頁的先后順序是怎樣產生的?影響頁面排序的因素有哪些?
實際上,決定頁面排序的因素很多,如關鍵詞、頁面相關性、鏈接權重及用戶行為。
1、先來看關鍵詞。
a、關鍵詞匹配度。我們注意到在全文搜索引擎中,一般情況下搜索引擎列表中都會包含我們所輸入的關鍵詞。當我們輸入關鍵詞進行查詢時,搜索引擎首先會去檢查網頁中是否有該關鍵詞,這是基礎條件。
b、接下來,搜索引擎會去比對頁面中關鍵詞出現(xiàn)的頻率,過高或者過低都不好,最恰當?shù)念l率一般認為是2%——8%左右。
C、關鍵詞分布。即關鍵字在頁面中出現(xiàn)的位置也會影響頁面的排序。一般認為頁面權重的遞減順序是左上>右上>左>右>左下>右下。
d、關鍵詞的權重標簽。權重,可以理解為重要性。權重標簽如、、、—等等這些標簽使得標簽內文字不同于其他文字,搜索引擎會給予相應權重提升。
2、鏈接權重
內部鏈接。網站內部頁面之間的鏈接關系,一般首頁的權重最高。在同等情況下,如果有兩個網站的首頁和內頁進行比較,一般首頁會排在內頁前面。
外部鏈接。網站與站外頁面之間的鏈接關系,通俗的說法叫做“外鏈”。外鏈的數(shù)量、質量、相關性都會影響頁面排序。在頁面相關性上,比baidu更為嚴格,比如,你的網站是做IT的,結果你去鏈接了很多機械化工類的網站,這時候搜索引擎會很不喜歡,甚至會認為你惡意添加外部鏈接。
默認權重分配。搜索引擎將頁面被抓取的日期作為一個參考因素,頁面在單位時間內獲得鏈接的數(shù)量越多,質量越高,則該頁面的質量也相對更高。
3、用戶行為
用戶對搜索結果的點擊行為是衡量頁面相關性的因素之一,是完善排序結果、提高排序結果質量的重要補充。
四、搜索引擎工作原理——關鍵詞查詢
搜索引擎工作原理——關鍵詞查詢
第一步:用戶輸入關鍵詞進行查詢。
第二步:搜索引擎接到用戶關鍵詞指令,將用戶的關鍵詞再次切分。有同學問為什么還要切分呢?這是因為用戶所輸入的關鍵詞可能會和搜索引擎詞典里的關鍵詞不符合,這時候搜索引擎會將用戶的詞再次切分,尤其是長尾關鍵詞。如用戶搜索:肖玉強的博客。這個詞搜索引擎詞典里是沒有的,那么這個詞會被切分為“肖玉強”“的”“博客”三個詞之后再去網頁資源中進行匹配。
第三步:搜索引擎將關鍵詞切分后,進入網頁資源中進行匹配,查詢合適內容,即“關鍵詞反向索引表”。如果網頁資源中有對應關鍵詞,則進行頁面分析,按照頁面權重進行網頁排序。如果沒有對應關鍵詞,則返回給客戶一個“空列表”。比如“很抱歉,沒有找到你要查詢的內容”。
整個搜索引擎的工作過程,我們可以以做飯舉例。比如我們現(xiàn)在要做西紅柿炒雞蛋,接下來開始。
第一步,西紅柿和雞蛋,以及配料要有,這里對應頁面收錄;
第二步,有了西紅柿、雞蛋、配料,接下來我們要分析一下做菜的順序,是先放油呢還是先放雞蛋再放油呢?還是放了西紅柿雞蛋再放油呢?對這個項目進行分析,即搜索引擎工作的第二步:頁面分析;
第三步頁面排序,分析好了這個菜怎么做,接下來要動手了,先刷鍋熱鍋,再放油,再繼續(xù)……這是個合理的順序,先做什么,后做什么。
第四步:菜做好了,上桌了,你可能會選擇先吃雞蛋搜索引擎工作原理分為,也可能會先吃西紅柿,哈哈搜索引擎工作原理分為,這就對應了關鍵詞查詢。如果你要在西紅柿雞蛋里找塊肉吃,抱歉,沒有,這就是關鍵詞的空列表了。
對于例子,請酌情參考。明白了搜索引擎的工作原理就好了。