◆網址規范化問題會產生復制內容;
◆代理商和零售商從產品生產商那里轉載產品信息,這倒沒什么不對,一般生產商也都同意,沒有版權問題,但是絕大部升代理商、零售商、批發商都是直接copy而不做任何改動,大家用的都是一模一樣的產品說明,所以這些電子商務網站上充斥著大量復制內容;
◆打印版本,很多網站除了正常供瀏覽的頁面外,還提供更適于打印的頁面版本;
◆如果沒有用適當方式禁止抓取,這些打印版本網頁就會變成復制內容 ;
◆網站結構造成的各種頁面版本。如產品列表按價格、評論、上架時間等排序頁面博客的分類存檔、時間存檔等;
◆網頁內容由RSS生成。有很多網站,尤其是新聞類網站,用其他網站的 RSS feed生成網站內容,這些內容在原始出處和很多其他類似網站上都已經出現過很多次了;
◆使用Session ID,搜索引擎蜘蛛在不同時間訪問網頁的時候,被給予了不同的SessionID,實際上網頁內容是一樣的。由于Session ID參數不同,就被當成了不同的網頁實質內容太少。每個網頁上都不可避免地有通用部分,比如導航條、版權聲明、廣告等。如果網頁的正文部分太短,內容數量還抵不上通用部分,就有可能被認為是復制內容頁面;
◆轉載及抄表。有時是其他人抄襲了你的網站內容,有時是善藯的轉載,有時是作者自己在不同網站發布文章,這些都會造成復制內容
◆鏡象網站,鏡象網站曾經很流行,當一個網站太忙太慢的時候,用戶可以通過替代鏡象來看內容或下載,這也有造成復制內容的風險;
◆產品或服務類型之間的區別比較小,比如有的網站把自己的服務按地區進行分類,但實際上提供給每個地區的產品或服務都是一樣的。這些按地區分類的頁面只是把地名改了改,其他服務內容說明完全一樣;
◆URL任意加字符還是返回200狀態碼。有的網站由于技術原因,用戶在URL后加上任意字符或參數,服務器還能正常返回200狀態碼,并返回沒加上任意字符時樣的重復內容頁面;
檢查頁面是否有復制版本相對簡單。合肥網站設計拿出頁面正文中的一句話,加上雙引號,在搜索引擎中搜索一下,從結果中就能看到是否有多個頁面包含這句話。一般來說,隨機挑選的一個句子,完整出現在另一篇無關文章中的可能性很低 。
本文地址:http://m.123beaconmarketing.com//article/2777.html