天堂VA蜜桃一区二区三区,大香蕉在线观看视频,狠狠干熟女,成人片一区二区喷水少妇


    深入分析搜索引擎優(yōu)化的去重原理

    發(fā)布時間:2022-07-19
    18:01:17
    分享到:  

    搜索引擎為什么要進行去重操作?

    不管是那種搜索引擎,百度也好、搜狗也罷希望的都是呈現(xiàn)給用戶新穎且優(yōu)質(zhì)的內(nèi)容,而不是“換湯不換藥”湊數(shù)量的,有句話說得好:“群眾的眼睛是雪亮的”。如果一個搜索引擎都是后面這種類型的文章,久而久之自然不會再有人使用。

    我們在做搜索引擎優(yōu)化的過程中,離不開內(nèi)容的編輯,而搜索引擎的知識點說開了就那么點,說來說去很多人都在用,這就導致了互聯(lián)網(wǎng)中搜索相關的信息很多都是重復的。

    其實這都還好,如果只是個別地方雷同沒什么大問題。如果一個網(wǎng)站存在大量復制他人內(nèi)容、惡劣采集內(nèi)容且不加以修改的話,不僅會影響用戶體驗甚至還會讓搜索引擎認為該網(wǎng)站是個劣質(zhì)網(wǎng)站,從而屏蔽拉黑,且日后不在抓取網(wǎng)站上的任何內(nèi)容。

    搜索引擎抓取網(wǎng)站是很重要的過程,網(wǎng)站收錄、關鍵詞排名都要依靠抓取,不能輕視,至于為什么這么重要,了解下面的搜索引擎工作原理后就清楚了。

     

    1、搜索引擎工作原理

    官方話術(shù):搜索引擎是指根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統(tǒng)。

    其過程主要分為四個步驟:

    第一步:爬取

    可以將搜索引擎理解為一種通過特定規(guī)律的軟件或者追蹤頁面鏈接的工具,,從一個鏈接爬到另外一個鏈接,涉及的范圍很廣跟蜘蛛編制的網(wǎng)一樣,所以搜索引擎抓取網(wǎng)站的時候又被稱為“蜘蛛爬取”,還有一種叫法是“機器人”。

    “蜘蛛”爬取網(wǎng)站后將所識別的內(nèi)容傳回到搜索引擎中,由搜索引擎進行后續(xù)的一系列評分、判斷優(yōu)劣等等,如果沒有搜索引擎派出的“蜘蛛”爬取網(wǎng)站,那么搜索引擎可能連你的網(wǎng)站存不存在都不知道。

     

    搜索引擎優(yōu)化的原理


    第二步:抓取存儲

    蜘蛛跟蹤鏈接爬行到網(wǎng)頁,并將爬行之后的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫(也就是搜索引擎)。

    蜘蛛在爬取頁面時,會進行比較簡單的查重處理,像那些存在大量抄襲、采集內(nèi)容的網(wǎng)站,“蜘蛛”會降低爬取的次數(shù),直至不在爬取任何內(nèi)容。

    過了“蜘蛛”這關的內(nèi)容數(shù)據(jù),則會由“蜘蛛”傳到搜索引擎中,由他們進行下一步的處理。

     

    第三步:預處理

    搜索引擎將蜘蛛抓取回來的頁面、文件等各種信息,進行各種步驟的預處理,如:html頁面文件、pdf、word、wps、xls、ppt、txt文件等。這些文件在搜索結(jié)果中都是可以看見的。

    不過“蜘蛛”也有不能識別的內(nèi)容,如:圖片、視頻、Flash等這些非文字類腳本或程序(html代碼是可以識別的)。無法識別不代表不會抓取,同樣的這些識別不出來的內(nèi)容還是會傳到搜索引擎中,如果連搜索引擎也無法識別那么就有制造低質(zhì)量內(nèi)容的嫌疑。

     

    第四步:排名

    在“蜘蛛”將內(nèi)容傳到搜索引擎之后,經(jīng)過預處理得出最后的評分,這評分關系著網(wǎng)站的排名情況,當用戶在搜索框輸入關鍵詞后排名程序調(diào)用索引庫數(shù)據(jù),將排名顯示給用戶。

    關鍵詞排名每日都會有小的更新,有時就能看到上午還在前幾位,下午有時就排在首頁末尾處了,不過這種影響不是很大。一般情況下搜索引擎的排名規(guī)則是根據(jù)日、周、月三個階段進行不同程度的調(diào)整。所以有時候關鍵詞排名下降了,有可能是搜索引擎調(diào)整的問題。

     

    2、網(wǎng)頁去重的代表性方法

    搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鏈接列表等(是不是沒想到搜索引擎還可為分為這么多種類吧?)。

    而搜索引擎的去重工作一般在“分詞”之后“索引”之前,搜索引擎會在頁面已經(jīng)分出的關鍵詞中,提取部分具有代表性的關鍵詞進行計算,從而得出這個網(wǎng)站中關鍵詞的特征,目前搜索引擎去重的方法主要有3種:

    1)聚類。

    這種方式是以網(wǎng)站頁面內(nèi)容中每6763個漢字作為定量,在這6763個漢字中出現(xiàn)的某組或者某個漢字頻率的高低去計算相似度,以此確定網(wǎng)站是否有相同的頁面。

    2)排除相同鏈接。

    元搜索引擎去重主要采用此方法。通過“蜘蛛”從不同的地方收集網(wǎng)頁鏈接進行判斷, 鏈接相同,則被認為是相同的網(wǎng)頁。

    3)特征碼的方法。

    這種方法是利用內(nèi)容中出現(xiàn)的每個標點符號,進行判斷重復率。如以句號兩邊各5 個漢字作為特征碼來進行查驗內(nèi)容的重復度。

     

    搜索引擎去重所使用的方法


    這3種去重方法中,第1種和第2種大多數(shù)還是基于內(nèi)容來進行判斷的,這兩種類型的去重有很明顯的漏洞,所以很多人在做搜索引擎優(yōu)化時往往會利用到這點而進行偽原創(chuàng),這樣做也不是不可以,但是要保證偽原創(chuàng)的內(nèi)容質(zhì)量要高,才能利于排名、收錄。


    熱門標簽

    撥打電話 復制微信

    微信號:18680393646

    添加微信好友,免費獲取報價