微信號:18680393646
外貿(mào)商城網(wǎng)站制作開發(fā)公司 商城網(wǎng)站所需功能
半導體網(wǎng)站搭建公司 半導體網(wǎng)站定制開發(fā)報價
注塑機網(wǎng)站建設方案 注塑機網(wǎng)站制作開發(fā)公司
深圳外貿(mào)商城網(wǎng)站定制價格(為什么要定制網(wǎng)站)
制造行業(yè)網(wǎng)站建設方案 制造業(yè)網(wǎng)站定制所需功能
深圳企業(yè)網(wǎng)站開發(fā)費用(企業(yè)模板站有什么優(yōu)勢)
深圳網(wǎng)站建設可以500元全包嗎(深圳低價網(wǎng)站建設)
網(wǎng)站優(yōu)化技巧,權(quán)重下降跟什么因素有關
深圳怎么進行網(wǎng)站建設和網(wǎng)站推廣?
深圳金融公司網(wǎng)站定制(金融公司做網(wǎng)站注意事項)
搜索引擎為什么要進行去重操作?
不管是那種搜索引擎,百度也好、搜狗也罷希望的都是呈現(xiàn)給用戶新穎且優(yōu)質(zhì)的內(nèi)容,而不是“換湯不換藥”湊數(shù)量的,有句話說得好:“群眾的眼睛是雪亮的”。如果一個搜索引擎都是后面這種類型的文章,久而久之自然不會再有人使用。
我們在做搜索引擎優(yōu)化的過程中,離不開內(nèi)容的編輯,而搜索引擎的知識點說開了就那么點,說來說去很多人都在用,這就導致了互聯(lián)網(wǎng)中搜索相關的信息很多都是重復的。
其實這都還好,如果只是個別地方雷同沒什么大問題。如果一個網(wǎng)站存在大量復制他人內(nèi)容、惡劣采集內(nèi)容且不加以修改的話,不僅會影響用戶體驗甚至還會讓搜索引擎認為該網(wǎng)站是個劣質(zhì)網(wǎng)站,從而屏蔽拉黑,且日后不在抓取網(wǎng)站上的任何內(nèi)容。
搜索引擎抓取網(wǎng)站是很重要的過程,網(wǎng)站收錄、關鍵詞排名都要依靠抓取,不能輕視,至于為什么這么重要,了解下面的搜索引擎工作原理后就清楚了。
1、搜索引擎工作原理
官方話術(shù):搜索引擎是指根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統(tǒng)。
其過程主要分為四個步驟:
第一步:爬取
可以將搜索引擎理解為一種通過特定規(guī)律的軟件或者追蹤頁面鏈接的工具,,從一個鏈接爬到另外一個鏈接,涉及的范圍很廣跟蜘蛛編制的網(wǎng)一樣,所以搜索引擎抓取網(wǎng)站的時候又被稱為“蜘蛛爬取”,還有一種叫法是“機器人”。
“蜘蛛”爬取網(wǎng)站后將所識別的內(nèi)容傳回到搜索引擎中,由搜索引擎進行后續(xù)的一系列評分、判斷優(yōu)劣等等,如果沒有搜索引擎派出的“蜘蛛”爬取網(wǎng)站,那么搜索引擎可能連你的網(wǎng)站存不存在都不知道。
第二步:抓取存儲
蜘蛛跟蹤鏈接爬行到網(wǎng)頁,并將爬行之后的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫(也就是搜索引擎)。
蜘蛛在爬取頁面時,會進行比較簡單的查重處理,像那些存在大量抄襲、采集內(nèi)容的網(wǎng)站,“蜘蛛”會降低爬取的次數(shù),直至不在爬取任何內(nèi)容。
過了“蜘蛛”這關的內(nèi)容數(shù)據(jù),則會由“蜘蛛”傳到搜索引擎中,由他們進行下一步的處理。
第三步:預處理
搜索引擎將蜘蛛抓取回來的頁面、文件等各種信息,進行各種步驟的預處理,如:html頁面文件、pdf、word、wps、xls、ppt、txt文件等。這些文件在搜索結(jié)果中都是可以看見的。
不過“蜘蛛”也有不能識別的內(nèi)容,如:圖片、視頻、Flash等這些非文字類腳本或程序(html代碼是可以識別的)。無法識別不代表不會抓取,同樣的這些識別不出來的內(nèi)容還是會傳到搜索引擎中,如果連搜索引擎也無法識別那么就有制造低質(zhì)量內(nèi)容的嫌疑。
第四步:排名
在“蜘蛛”將內(nèi)容傳到搜索引擎之后,經(jīng)過預處理得出最后的評分,這評分關系著網(wǎng)站的排名情況,當用戶在搜索框輸入關鍵詞后排名程序調(diào)用索引庫數(shù)據(jù),將排名顯示給用戶。
關鍵詞排名每日都會有小的更新,有時就能看到上午還在前幾位,下午有時就排在首頁末尾處了,不過這種影響不是很大。一般情況下搜索引擎的排名規(guī)則是根據(jù)日、周、月三個階段進行不同程度的調(diào)整。所以有時候關鍵詞排名下降了,有可能是搜索引擎調(diào)整的問題。
2、網(wǎng)頁去重的代表性方法
搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鏈接列表等(是不是沒想到搜索引擎還可為分為這么多種類吧?)。
而搜索引擎的去重工作一般在“分詞”之后“索引”之前,搜索引擎會在頁面已經(jīng)分出的關鍵詞中,提取部分具有代表性的關鍵詞進行計算,從而得出這個網(wǎng)站中關鍵詞的特征,目前搜索引擎去重的方法主要有3種:
1)聚類。
這種方式是以網(wǎng)站頁面內(nèi)容中每6763個漢字作為定量,在這6763個漢字中出現(xiàn)的某組或者某個漢字頻率的高低去計算相似度,以此確定網(wǎng)站是否有相同的頁面。
2)排除相同鏈接。
元搜索引擎去重主要采用此方法。通過“蜘蛛”從不同的地方收集網(wǎng)頁鏈接進行判斷, 鏈接相同,則被認為是相同的網(wǎng)頁。
3)特征碼的方法。
這種方法是利用內(nèi)容中出現(xiàn)的每個標點符號,進行判斷重復率。如以句號兩邊各5 個漢字作為特征碼來進行查驗內(nèi)容的重復度。
這3種去重方法中,第1種和第2種大多數(shù)還是基于內(nèi)容來進行判斷的,這兩種類型的去重有很明顯的漏洞,所以很多人在做搜索引擎優(yōu)化時往往會利用到這點而進行偽原創(chuàng),這樣做也不是不可以,但是要保證偽原創(chuàng)的內(nèi)容質(zhì)量要高,才能利于排名、收錄。
微信號:18680393646