想必做SEO的人,多多少少都會懂點搜索引擎原理,雖說對于專業的算法不必進行深入研究,但還是需要簡單了解一下搜索引擎的工作原理,對其策略及算法原理有個簡單的認知,這樣才能更好地做好SEO工作。正所謂,知其然,更要知其所以然嘛。
那么,搜索引擎到底是怎么工作的呢?
想必如果大家特意了解過的話,無論是網絡上還是做SEO相關的書籍,對于搜索引擎的工作原理講解得都相對清楚,在此小編不會太深入講解其中復雜高深的搜索引擎架構和檢索技術,而是以科普的方式,將搜索引擎工作原理簡單梳理一下,以幫助大家更好地理解認知。
接下來以痞子瑞《SEO深度解釋》一書中關于搜索引擎的大概架構跟大家進行講解:

搜索引擎架構示意圖(圖片來源《SEO深度解釋》)
如上圖所示,搜索引擎的大致架構分為虛線左右兩個部分:
抓取建庫,即主動抓取網頁進行一系列處理后建立索引,等待用戶搜索;
匹配結果,即分析用戶搜索意圖,進而展現用戶所需要的搜索結果。
1、抓取建庫
關于抓取建庫,即搜索引擎主動抓取網頁,并進行內容處理、索引部分的流程和機制一般如下:
第一步:派出爬蟲Spider,按照一定的策略把網頁抓取回到搜索引擎服務器;
第二步:對抓取回來的網頁進行內容處理,消除噪聲、提取該頁面主題文本內容等;
第三步:對網頁的文本內容進行中文分詞;
第四步:分詞完畢后判斷該頁面內容是否與已索引網頁重復,剔除重復頁,對剩余網頁進行倒排索引,然后等待用戶檢索。
2、匹配結果
當有用戶進行搜索查詢時,搜索引擎工作的流程機制一般如下:
第一步:先對用戶所查詢的關鍵詞進行分詞處理,并根據用戶的地理位置和歷史檢索特征進行用戶需求分析,以便使用地域性搜索結果和個性化搜索結果展示用戶最需要的內容;
第二步:查找緩存中是否有該關鍵詞的查詢結果,如果有,進一步綜合該用戶的各種信息分析判斷其真正需求,對緩存中的結果進行微調或直接呈現給用戶;
第三步:如果緩存不存在該用戶所查詢的關鍵詞,那么就在索引庫進行調取排名呈現,并將該關鍵詞和對應的搜索結果加入到緩存中;
第四步:搜索結果網頁排名是根據用戶的搜索詞和搜索需求,對索引庫中的網頁進行相關性、重要性(網站權重)和用戶體驗的高低進行綜合分析所得。