2016-11-17 12:07:04
網站建設有關的重定向技術綜述...
因為response是jsp頁面中的隱含對象,故在jsp網站建設頁面中可以用response.sendRedirect()直接完成重定位。 留意: (1).運用response.sendRedirect時,后面不克...
發表日期:2017-02-19 11:47:41   文章編輯:紅海小編   瀏覽次數:0
為什么要進行地方分類信息網站的重復信息判斷?
答案很簡單,大量的重復的垃圾信息頁面會降低你的網站權重。
由于目前絕大多數地方分類信息網站的信息排序方式,都是采用ID倒序,即按照時間順序排列,新信息在前,舊信息在后。這就無形中讓一些垃圾信息發布者為了獲得較好的排名,而每天甚至每個小時都不停的發布自己的信息,他們才不會管到底這樣會不會制造大量的重復垃圾信息,他們只想著,如果能上了你的網站首頁(因為很多網站都在首頁調用了某欄目的最新信息)或者排在其他同行的前面,累點無所謂。
雖然這樣可以增加網站的人氣,也能夠提高數據量,但是對于SEO方面來說,無疑是致命的。廊坊卡卡在初期,為了盡量滿足廣大信息發布者的要求,并沒有進行這方面信息的判斷,隨著信息量的上升,重復信息也越來越多,而且趨勢也越來越嚴重,直到有一天,發現從店鋪、促銷頻道為入口的流量,驟降50%以上,才發現事情的嚴重性:因為充斥著大量重復、垃圾信息(這些信息發布者往往會同時在很多分類信息網站發布完全相同的內容),店鋪、促銷頻道被降權。
根據關鍵詞排行榜的統計,很多以前排名很好的關鍵詞,排到了第二頁、第三頁甚至完全消失。
一、避免重復信息的幾種方式
于是經過廊坊卡卡團隊的研究,制定出了一套專門針對分類信息網站的重復信息判斷規則和方案,拿出來,與廣大站長共享,也期待著能夠得到大家的批評指正,從而提高方案的可行性和效率。
方法一:改變排序規則
從信息發布者的目的來看,很明確,就是要讓自己排在前面、排在首頁,在網站現有的規則下,他只有通過重新發布信息來獲得好的排名。因此,網站可以更改排序規則,規定店鋪信息按照用戶好評度排序,或按照瀏覽量排序,或者在首頁只調用推薦的信息,而不是最新信息,那么新發布的店鋪,是很難馬上排到前邊的,這樣自然會打擊很多信息發布者的積極性,因為不能看到效果,他們也就不會使勁的發新信息了。同時,信息發布者為了能夠獲得好的排名,反而會去推廣自己的鏈接,讓別人來頂或者瀏覽。缺點:新店鋪難有出頭之日,而信息發布者為了獲得更高的瀏覽量而去推廣鏈接,萬一推廣過度,被QQ、百度貼吧、百度知道等封了域名,可就得不償失了。
方法二:增加更新功能
該操作方法簡單易行,只需要在用戶的個人中心,發布信息的后面增加一個“更新”按鈕,則用戶點擊該按鈕,信息自動更新為當天發布,排到最前面,這樣方便了信息發布者,也避免了制造重復頁面。當然會有一些人一天到晚不停的在那點,排在前邊全是他的信息,怎么辦?那我們可以設置更新次數限制,一天只能更新N次,超過N次,不允許更新。當然,如果你的網站人氣很旺,你甚至可以通過這個功能來收費!不過信息發布者想想就知道了,為了能夠手工的排在最前邊,還不如直接買你的廣告位劃算呢。
方法三:禁止重復信息的發布
這是截流,從根源上禁止重復信息發布,并且不提供任何的解決方案,就是告訴信息發布者,你已經發過了,不用再發了。這樣做的缺點也很明顯:影響信息發布者的情緒。但這樣做也可能會導致你的廣告位銷量上升。
二、重復信息判斷規則
廊坊卡卡在經過多重分析論證的基礎上,決定對不同頻道采取不同的解決方法,例如針對房產頻道,因為房產信息本身的內容差異率就極低,如果信息再重復,那么必然會造成更大的重復,對SEO極為不利。所以,禁止重復信息發布是首要任務。
以房產頻道的房屋出售信息為例,我們先看一下廊坊卡卡的房產出售列表頁http://www.lfkaka.com/fclist-1.html,通過分析,我們發現,該類信息具有以下值得作為判斷依據的字段:
(1) 聯系電話
(2) 小區/樓盤名稱
(3) 地址
(4) 面積
(5) 戶型
(6) 售價
(7) 詳細介紹
(8) 標題
(9) 所在樓層
(10) 總樓層
但是,如果我們僅僅是根據這些字段是否相同來決定一條信息是否重復,那么信息發布者肯定會通過修改詳情中的文字、標題上加個空格之類的方法,來繞過重復判斷機制,成功發布出去。
因此,我們要把容易被修改的和不容易被修改的數據分開對待,姑且稱之為必比條件和輔助條件。其中必比條件,表示不容易被修改的信息,只要有稍微的改動,該信息就不再真實。而輔助條件,是可以被修改,進行小范圍的修改不影響信息真實性的條件。
必比條件:聯系電話、小區/樓盤名稱(廊坊卡卡已經搜集了廊坊地區近400個小區及其別名并記錄在數據庫中,因此小區/樓盤名稱的格式基本固定)、戶型、所在樓層、總樓層
輔助條件:地址、面積(用戶很可能通過修改小數點來繞過重復判斷機制)、售價(理由同面積)、詳細介紹、標題
我們知道,在信息真實性的前提下,當他的必比條件有任何一個不同的時候,該信息肯定是不同的。(關于信息真實性判斷,我們另文詳述)
所以,我們在判斷重復時,首先去判斷必比條件,當必比條件有任何一條不同時,將信息視為非重復信息;當必比條件完全相同時,則去判斷輔助條件,由輔助條件決定信息是否重復。
由于輔助條件比較容易通過微小的修改造假,因此,無法通過完全比較來作為判斷依據,這時候要采用模糊判斷法(模糊判斷必然會造成誤差,但我們只能盡量避免)。
首先,我們判斷輔助條件中的五個條件的相似度,各個條件的判斷方法不同,對于面積和售價,我們要判斷他的一個范圍而非絕對數值或單純的去掉小數點,比如,100平米的房子,我們要去跟所有101>N>90之間的房子去比較,根據差值,計算相似度。而對于地址、標題、詳情,我們要隨機的去截取足夠長的一段文字,在去除標點符號和空格的情況下,比較其相似程度,并計算相似度。
然后,取相似度的平均數,如果該平均數超過了某一固定值M,則判斷該條信息為重復。如果未超過M,則認為該信息不重復。(M值作為一個判斷相似力度的指標,由網站管理員進行調整,M值越高,判斷機制越寬松,但也容易漏掉真正的重復信息;M值越低,則判斷機制越嚴格,但也容易誤傷真實非重復信息。因此,M值需要站長根據自己網站的實際情況,采取抽樣調查的方式獲得,并長期觀察用戶反應,及時調整。)
News
提供網站建設相關資訊、互聯網行業資訊、網站設計知識、空間域名郵箱、網站解決方案、常見問題、簽約新聞等
2016-11-17 12:07:04
因為response是jsp頁面中的隱含對象,故在jsp網站建設頁面中可以用response.sendRedirect()直接完成重定位。 留意: (1).運用response.sendRedirect時,后面不克...
2016-11-18 23:32:44
立異于軟件業,就比方錢于社會人,立異不是全能的,沒有立異卻是萬萬不能的??墒橇愐蚕箦X相同,不是說有就有,乃至不能說跟自個努力有決議聯系。所以許多時分,媒體...
2016-11-18 23:33:21
導讀:本溪紅海傳媒網站12月4日在“特別報道”專欄中撰文指出:伴隨著上個世紀90年代經濟的高速增加,很多的商用軟件層出不窮,而現在如此紛繁復雜的商...
2016-11-18 23:36:31
教學構造單一 人才才能弱化 如今,我國軟件人才的培育首要依托規范院校的學歷教學,集中在本科期間。據統計,我國當時軟件從業人員約有40萬...
2016-11-18 23:37:58
在前不久的殺毒廠商降價熱潮后,有人提出這個疑問?國內通用軟件廠商在將來的存活點終究在哪里?之所以用“存活點”這個詞匯來形容,是因為跟著對于個人...
2016-11-18 23:39:36
《復興軟件工業舉動大綱》日前正式發動。2002年9月18日,國務院辦公廳轉發了《復興軟件工業舉動大綱(2002年至2005年)》(國辦發〔2002〕47號)(以下簡稱《舉動大綱...