眾所周知,百度的搜索引擎系統(tǒng)分為:抓取系統(tǒng)、快照存儲系統(tǒng)、頁面分析系統(tǒng)、索引系統(tǒng)、檢索召回系統(tǒng)等幾個重要系統(tǒng)。
關(guān)于百度搜索引擎的基本原理和流程,大家可以參考痞子瑞的《SEO深度解析》一書中的“搜索引擎原理”部分。
碼迷這一部分與痞子瑞老師的略有不同搜索引擎工作原理的第一部是,對百度搜索引擎的基本原理和流程做了更深入的拆解分析。
關(guān)于碼迷
7年SEOer,摩天樓內(nèi)容助手作者,專注SEO算法研究,精益科學SEO鑒定倡導者。
碎碎念
很多同行說做百度SEO越來越難了,說百度等搜索引擎的份額被如今的自媒體搶占了很多流量,SEO沒法做了云云。
但是很多公司反饋,百度的流量轉(zhuǎn)化率還是要高于抖音之類的自媒體。
我覺得SEO并不是越來越難,只是你沒有改變而已。
經(jīng)過十幾年的發(fā)展,百度搜索引擎已經(jīng)發(fā)生了很多很多的變化,而你還在原地踏步。
碼迷從12左右開始接觸SEO搜索引擎工作原理的第一部是,優(yōu)化的手段也不斷的升級迭代,但是很多同行的手段卻一直停留在16年之前。
做SEO沒有長久的“秘笈”,重要的是主動跟上搜索引擎算法步伐,然后做實驗找規(guī)律,再用合理的手段把優(yōu)化做到極致。
基本概述
很多書籍對搜索引擎原理僅僅提到了倒排索引,而更多的書籍只是將內(nèi)容處理、鏈接處理、用戶體驗稍微說了一下。
其實百度搜索引擎是一項十分復雜的工程,搜索引擎除了做正向好事兒,如防作弊、提拔優(yōu)質(zhì)內(nèi)容等等,還有些不乖乖的處理流程,如人工干預、圈流量策略也是很重要的一塊。
碼迷認為搜索引擎的大體架構(gòu)如圖:
大致分為百度爬取、百度查詢2個部分。
百度爬取部分
步驟01
百度爬蟲發(fā)現(xiàn)網(wǎng)頁,爬取網(wǎng)頁html內(nèi)容。
步驟02
百度對爬回來的網(wǎng)頁進行初步的頁面分析。先進行分詞,去除停止詞。
步驟03
這一步主要做初步網(wǎng)頁評定。
對分詞后的網(wǎng)頁通過向量空間模型初步做分類判定;
通過相關(guān)性算法提取相關(guān)詞,判定主題集中程度;
通過結(jié)構(gòu)相似性、文本相似性算法判定原創(chuàng)度;
通過信息熵等手段判定是否有惡意廣告;
最后進入反*黃*賭*毒*系統(tǒng)等等。
步驟04
如果內(nèi)容過關(guān),百度將該網(wǎng)頁分詞結(jié)果存取到有效索引倒排中,并抽取網(wǎng)頁內(nèi)容結(jié)構(gòu)化數(shù)據(jù)(標題、摘要、內(nèi)容等等),快照存檔。
百度查詢部分
步驟01
首先對用戶輸入的查詢詞分詞處理,通過用戶地理位置、個性化信息、機器學習預測查詢詞的實體類型,預測第2需求詞,第3需求詞等。
比如搜“火車票”,那么“火車票查詢”、“火車票12306”、“火車票改簽”這些需求詞也將會納入用戶需求中。
第N需求詞,也叫后續(xù)詞,通過對后續(xù)詞做文章,也可以優(yōu)化排名。
如何用后續(xù)詞獲取排名,碼迷稍微在之前的微信文章做了提及,如果你功夫到家,自然也會明白逆冬的手段。
如果看不出來也沒關(guān)系,碼迷會在以后的章節(jié)中會詳細給大家講。
步驟02 粗排環(huán)節(jié)
“粗排”這個概念,碼迷最先見于Zero的公眾號文章《我是如何把「SEO」這詞排名到百度首頁的》。
粗排是百度通過布爾模型,在海量信息中查找符合需求詞組的N個文檔。
再通過與訓練好的結(jié)果模型做向量距離比較,過濾出M個文檔,再通過結(jié)果距離算法獲取前O個文檔集合,再通過BM25相關(guān)性得分取出文檔集合。
比如百度專利《2.0信息搜索方法和裝置》中舉了,劉德華老婆的例子。你搜“劉德華老婆”的時候,如果你的頁面里面沒有“朱麗倩”,說明網(wǎng)頁內(nèi)容很差,很大程度上進不了粗排隊列。
而摩天輪內(nèi)容助手這款工具,可以精準預測到上述所涉及的相關(guān)詞。
步驟03 細排環(huán)節(jié)
綜合每個文檔對應的鏈接權(quán)重得分、點擊日志得分、網(wǎng)頁加載速度、相關(guān)性得分、查詢結(jié)果類別策略等,再塞入人工干預的內(nèi)容,結(jié)合用戶日志分析(快排)將最終的排序結(jié)果呈現(xiàn)給用戶。
大家喜聞樂見的、經(jīng)久不衰的快速排名手段,如“7天上首頁”,就是干預精排中的點擊策略,影響了百度預測的正向結(jié)果模型,促使短期上首頁。
總結(jié)
其實我們做SEO啊,應該知道,人最寶貴的東西是生命。生命屬于我們只有一次。
SEOer的一生應當這樣度過:
當回憶往事的時候,他不為網(wǎng)站降權(quán)而痛悔,也不為被K站而羞愧;
在臨死的時候,他能夠說:"我的整個生命和全部精力,都已經(jīng)獻給世界上最壯麗的事業(yè)!為跟百度爭SEO流量而斗爭。
百度李老板的終極目的都是為了賺錢,我們做SEO也是為了圈住部分流量來賺錢。
現(xiàn)在的搜索引擎已經(jīng)不再單純很久了,如何在李老板眼皮底下獲取更多的流量,我們從下一節(jié)開始正式開始探討了。