網站內容被采集是很多站點的困擾,對于網站的有效效果影響非常之大,但是又無法完成的避免,我們能做的就是盡可能的去保護原創,畢竟只要內容可以被公開訪問。
那么必然無法99.9%的防止內容被采集,之前也已經普及了很多防止被采集的技術手段,但是今天分享一個能加簡單巧妙的防止網站內容被采集的手段。
被采集的影響
網站內容被采集對于站點影響,主要在于內容的原創度上的影響,短期影響內容的收錄排名,長期會影響站點的評價值。
對于搜索引擎站點輸出高質量稀缺性的原創內容是寧波網絡推廣營銷優化的關鍵點,但是對于搜索引擎判斷內容的原創只能通過內容的抓取先后順序來確定。
然而站點的抓取速度收錄時間與站點的質量密切相關,就會出現網絡營銷推廣站點的原創內容被其他站點采集之后,反而憑借站點的優勢優先獲得收錄。
如何防止被采集
之前分享過如何通過識別屏蔽惡意抓取行為,這種方法雖然還是比較不錯的,但是如果技術能力強一點的采集行為,只要通過大量代理ip分時段采集還是很難被識別的。所以建議大家結合今天的防采集方法,兩者結合可以獲得更好的效果。
要更徹底的防止采集,那么好的方法就是讓內容消失,增加訪問難度,沒有訪問入口自然很難被采集到。
內容防止采集方案
今天分享內容防采集方案,是通過隱藏內容的入口的來實現的,失去了采集的入口地址,那么再強的技術通過蜘蛛爬取基本上就很難實現的。
1.內容部分可見
蜘蛛可以爬取到整個網站的內容,首先可以確認的是站點的結構非常的科學,搜索引擎可以不依靠連接提交,從頁面的導航、內鏈等形成全面的抓取環,實現整個站點內容的抓取。而惡意采集與搜索引擎的蜘蛛的抓取原理是一致的,自然也可以采集到整個站點的內容。
多站點的各個欄目主要不斷的加載就可以獲取到整個站點的內容。
另外在詳情頁很多網頁都喜歡顯示上下篇內容,這個也是需要去掉的,首先上下篇內容與本文不一定有內容關聯性,反而通過頁面輪詢可以抓取到所有的內容。
2.內容防預測
假如你的站點做到了上面一點,只能說出具了放抓取的條件,但是很多站點的內容的url的布局就是‘域名/欄目/id’,比如文章的地址‘seodd.cn/seo/222’,這就存在嚴重的問題。
首先一個站點的欄目是有限的很容易獲得,即使把網站內容入口隱藏,但是頁面url位置的部分知識id部分,可以通過暴力枚舉去抓取,依然可以快速的抓取到內容的入口。而且基本上沒有任何的技術難度。
要解決這個問題也是非常的簡單,可以在id后面添加一個隨機數,或者創建內容的時候,可以手動自定義一些內容,比如把關鍵詞的拼音的縮寫添加進去,在利于外貿網絡推廣的同時又起到了頁面加密的效果,有了隨機內容的小尾巴,暴力輪詢抓取基本上沒戲。
屏蔽入口seo的影響
看到這里問題來了,防住了惡意蜘蛛的抓取,同樣的也防住了搜索引擎蜘蛛的內容抓取,但是對于大多數搜索引擎都支持sitemap方式提交連接,所以問題不大。
站點首先把sitemap的路徑要做的足夠的復雜,同時不要對外公開,及時通過sitemap網站地圖的方式提交就可以幫助搜索引擎對全站內容進行抓取。
對用戶體驗的影響
首先用戶基本是通過搜索引擎搜索進入到站點的,而只要網站的內容抓取收錄正常,對用戶不會有任何的影響。對于直接訪問站點的用戶,正常人不會一篇篇文章看過去,基本就是看下新的內容,然后通過站點搜索來獲取需要的內容。