寶雞網(wǎng)站建設(shè)公司
網(wǎng)站為什么會有重復內(nèi)容?
時間:2012-04-12 08:26
次來源:未知
下面產(chǎn)生復制內(nèi)容的原因。
(1)前面討論的網(wǎng)址規(guī)范化問題會產(chǎn)生復制內(nèi)容。
(2)代理商和零售商從產(chǎn)品生產(chǎn)商那里轉(zhuǎn)載產(chǎn)品信息。這到?jīng)]什么不對,一般生產(chǎn)商也都同意,沒有版權(quán)問題。但絕大部分代理商、零售商、批發(fā)商都是直接COPY,而不做任何改動,大家用的都是一模一樣的產(chǎn)品說明,所以這些電子商務網(wǎng)站上有大量復制內(nèi)容。
(3)打印版本。很多網(wǎng)站除了正常供瀏覽的網(wǎng)頁外,還提供更適于打印的頁面版本,如果沒有用適當方式禁止抓取,這些打印版本網(wǎng)頁就會變成復制內(nèi)容。
(4)網(wǎng)站結(jié)構(gòu)造成的各種頁面版本。如產(chǎn)品列表按價格、評論、上架時間等排序在前,博客的分內(nèi)存檔、時間存檔等。
(5)網(wǎng)頁內(nèi)容有RSS生成。有很多網(wǎng)站,尤其是新聞,類網(wǎng)站,用其他網(wǎng)站RSS feed生成網(wǎng)站內(nèi)容,這些內(nèi)容在原始出處和很多其他類網(wǎng)站上都已經(jīng)出現(xiàn)過很多次了。
(6)使用Session ID。搜索引擎蜘蛛在不同的時間訪問網(wǎng)頁的時候,被給予了不同的Session ID,實際上網(wǎng)頁內(nèi)容是一樣的。由于Sessin ID參數(shù)不同,就被當成了不同的網(wǎng)頁。
(7)網(wǎng)頁的實質(zhì)內(nèi)容很少,沒個網(wǎng)頁上都不可避免的有通用部分,不如導航條、版權(quán)聲明、廣告等、如果網(wǎng)頁的正文部分內(nèi)容太短,內(nèi)容數(shù)量還低不上通用部分,就有可能被認為是復制內(nèi)容頁面。
(8)轉(zhuǎn)載或抄襲。有時是其他人抄襲了你的內(nèi)容,有時是善意的轉(zhuǎn)載,有時是作者自己在不同的網(wǎng)站發(fā)布同一篇文章,這些都會造成復制內(nèi)容。
(9)鏡象網(wǎng)站。鏡象網(wǎng)站曾經(jīng)很流行,當一個網(wǎng)站太忙太慢時。用戶可以通過替代鏡像來看內(nèi)容或下載。這些也有造成復制內(nèi)容的風險。
(10)產(chǎn)品或服務類型之間的區(qū)別比較小,不如有的網(wǎng)站把自己的服務按地區(qū)進行分類,但實際上提供給每一個地區(qū)的產(chǎn)品或服務都是一樣的。這些按地區(qū)分類的頁面只是把地名改了改,其他服務內(nèi)容說明都一樣。
(11)URL任意加字符還是返回200狀態(tài)嗎。有的網(wǎng)站由于技術(shù)原因,用戶在URL后加上任意字符和參數(shù),服務器 還能正常返回200狀態(tài)碼,并返回沒有加上任意字符時一樣的重復內(nèi)容頁面。
檢查頁面是否有復制版本相對簡單,拿出頁面正文中的一句話,加上雙引號,在搜索引擎中搜索一下,從結(jié)果中就可以看到是否有多個頁面包含這句話。一般來說,隨機挑選的一個句子,完整出現(xiàn)在另一篇文章中的可能性很低。
舉一個比較極端卻很清楚的例子。我為了試驗搜索引擎是否使用關(guān)鍵詞標簽,曾在一篇博客帖子上提到“無論是東方fsdds”這么一個字符串。在我發(fā)這個貼之前,搜索引擎沒有任何這個字符串的結(jié)果。現(xiàn)在搜索一下,可以清楚的看懂啊不少為轉(zhuǎn)載或抄襲形成的復制內(nèi)容。
在Google搜索得到的結(jié)果就更多了,將近1000個頁面。令人無賴的是,絕大部分轉(zhuǎn)載沒有按版權(quán)聲明來鏈接到原出處,更有很多鏈接直接連作者都給修改了。
(1)前面討論的網(wǎng)址規(guī)范化問題會產(chǎn)生復制內(nèi)容。
(2)代理商和零售商從產(chǎn)品生產(chǎn)商那里轉(zhuǎn)載產(chǎn)品信息。這到?jīng)]什么不對,一般生產(chǎn)商也都同意,沒有版權(quán)問題。但絕大部分代理商、零售商、批發(fā)商都是直接COPY,而不做任何改動,大家用的都是一模一樣的產(chǎn)品說明,所以這些電子商務網(wǎng)站上有大量復制內(nèi)容。
(3)打印版本。很多網(wǎng)站除了正常供瀏覽的網(wǎng)頁外,還提供更適于打印的頁面版本,如果沒有用適當方式禁止抓取,這些打印版本網(wǎng)頁就會變成復制內(nèi)容。
(4)網(wǎng)站結(jié)構(gòu)造成的各種頁面版本。如產(chǎn)品列表按價格、評論、上架時間等排序在前,博客的分內(nèi)存檔、時間存檔等。
(5)網(wǎng)頁內(nèi)容有RSS生成。有很多網(wǎng)站,尤其是新聞,類網(wǎng)站,用其他網(wǎng)站RSS feed生成網(wǎng)站內(nèi)容,這些內(nèi)容在原始出處和很多其他類網(wǎng)站上都已經(jīng)出現(xiàn)過很多次了。
(6)使用Session ID。搜索引擎蜘蛛在不同的時間訪問網(wǎng)頁的時候,被給予了不同的Session ID,實際上網(wǎng)頁內(nèi)容是一樣的。由于Sessin ID參數(shù)不同,就被當成了不同的網(wǎng)頁。
(7)網(wǎng)頁的實質(zhì)內(nèi)容很少,沒個網(wǎng)頁上都不可避免的有通用部分,不如導航條、版權(quán)聲明、廣告等、如果網(wǎng)頁的正文部分內(nèi)容太短,內(nèi)容數(shù)量還低不上通用部分,就有可能被認為是復制內(nèi)容頁面。
(8)轉(zhuǎn)載或抄襲。有時是其他人抄襲了你的內(nèi)容,有時是善意的轉(zhuǎn)載,有時是作者自己在不同的網(wǎng)站發(fā)布同一篇文章,這些都會造成復制內(nèi)容。
(9)鏡象網(wǎng)站。鏡象網(wǎng)站曾經(jīng)很流行,當一個網(wǎng)站太忙太慢時。用戶可以通過替代鏡像來看內(nèi)容或下載。這些也有造成復制內(nèi)容的風險。
(10)產(chǎn)品或服務類型之間的區(qū)別比較小,不如有的網(wǎng)站把自己的服務按地區(qū)進行分類,但實際上提供給每一個地區(qū)的產(chǎn)品或服務都是一樣的。這些按地區(qū)分類的頁面只是把地名改了改,其他服務內(nèi)容說明都一樣。
(11)URL任意加字符還是返回200狀態(tài)嗎。有的網(wǎng)站由于技術(shù)原因,用戶在URL后加上任意字符和參數(shù),服務器 還能正常返回200狀態(tài)碼,并返回沒有加上任意字符時一樣的重復內(nèi)容頁面。
檢查頁面是否有復制版本相對簡單,拿出頁面正文中的一句話,加上雙引號,在搜索引擎中搜索一下,從結(jié)果中就可以看到是否有多個頁面包含這句話。一般來說,隨機挑選的一個句子,完整出現(xiàn)在另一篇文章中的可能性很低。
舉一個比較極端卻很清楚的例子。我為了試驗搜索引擎是否使用關(guān)鍵詞標簽,曾在一篇博客帖子上提到“無論是東方fsdds”這么一個字符串。在我發(fā)這個貼之前,搜索引擎沒有任何這個字符串的結(jié)果。現(xiàn)在搜索一下,可以清楚的看懂啊不少為轉(zhuǎn)載或抄襲形成的復制內(nèi)容。
在Google搜索得到的結(jié)果就更多了,將近1000個頁面。令人無賴的是,絕大部分轉(zhuǎn)載沒有按版權(quán)聲明來鏈接到原出處,更有很多鏈接直接連作者都給修改了。