作為一個(gè)合格的SEOer者,了解搜索引擎的工作原理是必須的,今天新川教育網(wǎng)絡(luò)營銷龐老師給大家分享的文章是:搜索引擎的工作原理。搜索引擎工作過程非常復(fù)雜,現(xiàn)在我們簡單介紹搜索引擎是怎樣實(shí)現(xiàn)網(wǎng)頁排名的。這里介紹的工作相對于真正的搜索引擎技術(shù)來說只是皮毛,不過對SEO人員已經(jīng)足夠用了。
一、搜索引擎的工作過程 爬行和抓取:搜索引擎蜘蛛通過跟蹤鏈接訪問網(wǎng)頁,獲得頁面HTML代碼存入數(shù)據(jù)庫。
預(yù)處理:索引程序?qū)ψト淼捻撁鏀?shù)據(jù)進(jìn)行文字提取、中文分詞、索引等處理,以備排名程序調(diào)用。
排名:用戶輸入關(guān)鍵詞后,排名程序調(diào)用索引庫數(shù)據(jù),計(jì)算相關(guān)性,然后按一定格式生成搜索結(jié)果頁面。 二、爬行和抓取
爬行和抓取是搜索引擎工作的*步,完成數(shù)據(jù)收集的任務(wù)。
蜘蛛:搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛(spider),也稱為機(jī)器人(bot)。搜索引擎訪問任何一個(gè)網(wǎng)站時(shí),都會先訪問網(wǎng)站根目錄下的文件。如果文件禁止搜索引擎抓取某些文件或目錄,蜘蛛將遵守協(xié)議,不抓取被禁止的網(wǎng)址。和瀏覽器一樣,搜索引擎蜘蛛也有標(biāo)明自己身份的代理名稱,站長可以在日志文件中看到搜索引擎的特定代理名稱,從而辨識搜索引擎蜘蛛。
預(yù)處理:在一些SEO材料中,“預(yù)處理”也被簡稱為:“索引”,因?yàn)樗饕穷A(yù)處理最主要的步驟。搜索引擎蜘蛛抓取的原始頁面,并不能直接用于查詢排名處理。搜索引擎數(shù)據(jù)庫中的頁面數(shù)都在數(shù)萬億級別以上,用戶輸入搜索詞后,靠排名程序?qū)崟r(shí)對這么多頁面分析相關(guān)性,計(jì)算量太大,不可能在一兩秒內(nèi)返回排名結(jié)果。因此抓取來的頁面必須經(jīng)過預(yù)處理為*的查詢排名做好準(zhǔn)備。和爬行抓取一樣,預(yù)處理也是在后臺提前完成的,用戶搜索時(shí)感覺不到這個(gè)過程。
三、排名 經(jīng)過搜索引擎蜘蛛抓取頁面,索引程序計(jì)算得到的倒排索引后,搜索引擎就準(zhǔn)備好可以隨時(shí)處理用戶搜索了。用戶在搜索框填入關(guān)鍵詞后,排名程序調(diào)用索引庫數(shù)據(jù),計(jì)算排名顯示給用戶,排名過程是與用戶直接互動的。搜索詞處理:搜索引擎接收到用戶輸入的搜索詞后,需要對搜索詞做一些處理,才能進(jìn)入排名過程。
文件匹配:搜索詞經(jīng)過處理后,搜索引擎得到的是以詞為基礎(chǔ)的關(guān)鍵詞集合。文件匹配階段就是找出含有所有關(guān)鍵詞的文件。在索引部分提到的倒搜索引使得文件匹配能夠快速完成。
今日暫且分享到這里,關(guān)于搜索引擎的工作原理后續(xù)還會更新其他的內(nèi)容,請繼續(xù)關(guān)注我們,更多網(wǎng)絡(luò)營銷課程請點(diǎn)擊:網(wǎng)絡(luò)營銷課程培訓(xùn)。
歡迎感興趣的朋友來校咨詢,我們的網(wǎng)址:
也可關(guān)注我校公眾號:pyyuanxing,也可以添加微信號yx-peixun。
地址:番禺區(qū)市橋街橋東路63號銀座中心7樓全層