重複性內容:同樣的內容,出現在不同的網址、網站之中

Google搜尋引擎如何看待、處理重複內容?對SEO會有哪些影響?

先簡單定義所謂的重複性內容:相同內容(文字),出現在不同的地方,這個不同的地方可以是同一個網站不同網址,也可以是不同網域的網站。

    出現重複性內容的原因很多,有站內、站外的問題,有惡意、無意產生的內容,針對這些不同的狀況,Google有不同的處理方式。

 

    首先必須要先瞭解,重複性內容是一定會發生的事情,所以面對所謂的重複性內容,要用中性的看法面對,加入其他旁觀因素之後再去認定內容狀況、以及可能發生的問題和處理方式。

    再來重複性內容有分站內問題,以及站外不同網域的情況,有自然產生、無害、不需處理,也有被人盜版、排序被洗掉的重大惡性狀況,碰到狀況要先理解性質、原因,以及Google會如何認定,之後才能擬出正確的處理方式。

    這篇文章與還在用老舊過時的方法操作SEO?錯誤的行為被Google懲罰,降低網站排序 -- 中集:不良內容這篇互相補充,原先那篇文章有大概說明網站移轉過程、盜版文章的重複性內容問題,以及處理方式;這篇主要在說明站內、站外重複性文章出現的原因,以及因應的處理方式,和可能的變化。

 

快速連結:

 

    Matt Cutts指出,網絡上約25-30%的內容是重複的內容。他繼續說,重複的內容確實發生,並不是所有重複的內容都是垃圾。Google尋找重複的內容,然後嘗試分析整理,將分散的內容組合在一起,將其視為一個內容。所以當Google遇到兩個相同的頁面時,Google可能會決定只顯示搜索結果中的一個頁面。並非所有重複的內容都是垃圾 - 它只需要適當地歸納整理。重複的內容一定會出現。但是,如果您建立的網站都是重複的內容,並且您以欺騙性,欺騙性,惡意或操縱性的方式執行此操作,Google將您的內容視為垃圾,並進行處理。

Matt建議,重要的是,您可以為您的內容增加價值

 

 

站內因素重複性內容對SEO的影響

    站內因素重複性內容,指的是自己網站本身的問題:數個不同的網址,可以連結到同樣的內容,排版不一定相同,但是主要內容重複。這個問題在搜尋引擎會造成一些問題,影響SEO成績。

 

頁面分數稀釋

    搜尋引擎會對網站的內容評定分數,這個分數有相關性、品質性的評分,藉由這些相關分數訂出SERP搜尋結果頁的呈現方式、排序先後。如果網站有數個網址都會成現同樣的內容,那這份內容的分數就有可能稀釋到不同的網址。

 

蜘蛛耗費時間檢索同樣內容的網頁

    搜尋引擎檢索我們網站的頻率、以及每次檢索的資料量多寡我們稱之為爬率、檢索率。搜尋引擎對單一網站的爬率是有限的,畢竟整個網路的網站數量太過龐大,如果我們的網站有太多的重複性內容,這些重複內容就會消耗我們網站所分配的爬率,檢索量、品質都會降低,當然對SEO成績會造成影響。

 

搜尋引擎需要額外判斷要顯示哪個網址

    另外一個問題就是,當我們網站有好幾個網址都是同樣的內容,當使用者搜尋之後,搜尋引擎要用哪個網址呈現在搜尋結果當中?搜尋引擎還需要消耗運算資源去分析這些內容,這又會是另一個問題了,額外消費資源的狀況對搜尋引擎是不友善的,這情況也就有可能影響SEO成績。

 

站內重複內容對數據追蹤的影響

    大多數數據追蹤系統,如GA數據追蹤、分析,是以網址作為計算基礎,每一個頁面埋入的追蹤碼都一樣,當瀏覽器執行程式碼時會觸發追蹤碼、將瀏覽的時間點以及網址、cookie送回給GA追蹤系統,從而知道使用者的瀏覽狀態,而Facebook留言系統、社交分享、按讚分數等也都是基於網址而工作的。

    如果我們有數個網址都顯示一樣的內容,在我們人為主觀意識上,這些瀏覽、分享、讚的數據應該都是歸屬在這個內容之上,但是因為有數個網址都可以連到同一個內容,這些數據紀錄也就分散在各個網址的瀏覽紀錄裡。

    這種狀況會造成數據分析的失真、錯誤,無法正確評估這個頁面的各種資料、數據,而各種分數也都分散掉了,如果需要正確分析,還需要將所有的資料取出、將這些不同網址的內容一一清查、並重新加回、計算術據,這實在是一個很蠢的事情@@"

 

造成重複性內容的站內原因

網址www與non-www與IP連線

    試著網址列輸入網址的時候,前面加上www,與不要加上www試試看,看會不會都能開啟網頁,以及輸入IP(自有、專屬IP)是不是都可以開啟網頁?這個問題會讓www.a.com/123、a.com/123與xxx.xxx.xxx.xxx/123都可以開啟同樣頁面。

    這個問題都是伺服器設定問題,IIS、Apache伺服器各有不同的設定方式,另外一個要處理的就是在GSC中用想要呈現的網址註冊網站。

 

http、https

    最近SSL受到重視,這個問題也凸顯出來,有些網站安裝、設定好SSL之後,變成http & https兩個方式都可以連線,也沒有SSL安全警告。對Google來說,http 與 https是兩個不同的網站,當然就會有重複性網址的問題產生。

    除了後台要設定好,使用HSTS自動轉換使用https連線以外,GSC也要做好變更https的網站設定,並且要進行變更網址的網站搬家程序

 

桌機版和行動版網站(大小網)

    行動世代之後,很多網站都知道要建立行動版網站,作法有很多,其中有一個方式是建立獨立的行動版網站,網址獨立出來,俗稱大小網,網址型態大多是www.domain.com & m.domain.com。這種情況要用cononical tag去指定主要、次要網址,讓搜尋引擎知道兩個網頁的相關關係,以及要顯示的網址。

 

普通閱讀版、列印版網頁、以及多分頁內容

    平常網頁的畫面、排版是適合瀏覽器瀏覽的,不論是桌機、手機都一樣,這個畫面如果要使用印表機印出通常都變得不好看,有些網站會特別設計列印版網頁,將適合瀏覽器的網頁重新排版成適合A4列印的畫面,這個作法是很好的UX,但是對搜尋引擎來說就是兩個不同的頁面,卻是同樣的內容。

    處理方法同上,用cononical tag將列印版指定為次要,一般版本指定為主要。

 

CMS網址生成模式-不同方式連進同一個頁面

    CMS系統所建立的動態網站經常出現重複性內容問題,從不同的連結方式進入一個頁面,經常都會產生不同的動態網址,如主選單、內文的站內連結、tag標籤文章列表、搜尋結果,這些方式進入同一篇文章,經常都會產生不同的參數型態動態網址。

    通用知名的CMS系統,如Joomla!、WordPress等都符合SEF規則,內建有網址靜態化的功能,會將這些動態參數網址轉換成單一固定網址,如果是自建網站、或者其他架站系統的,需要跟跟業者要求,以及使用301處理這些網址。

 

標題、摘錄內容

    文章列表、搜尋列表等各種列表頁面,會有很多文章同時呈現,通常都是標題、圖片、以及節錄文章前100~200字的內容。這些也是重複內容,不過現在的Google搜尋引擎會判斷這些內容,並自動歸在內容網址,比較不會出現如以往的目錄頁內容了。

 

  • SEF搜尋引擎友善的需求裡面,就有項目是要求要靜態化的網址,並且一個內容只能一個連結,這部份的要求就是為了避免重複性內容的問題。

 

 

站外、不同網域的重複性內容

    有非常多的情況會產生不同網域,卻擁有相同內容的情況:

  1. 授權同步刊登文章
  2. 授權非同步刊登文章
  3. 人工複製轉貼
  4. 網路爬蟲複制文章
  5. 複製、轉貼高價值文章
  6. 聯盟廣告
  7. 聯盟文章共享、自動轉文
  8. 內容農場爬取、轉貼、盜版其他網站有價值的文章
  9. RSS文章
  10. 廣告自行文章多貼

 

    不只上面的情形,網路文章跑來跑去,不同網址出現同樣內容的情況蠻多的,這些情況有蓄意、有惡意,有人為、有程式跑出來的,甚至有發展策略特別創造的,原因實在是太多了,所以上面影片有說明,Google不討厭重複性內容,但是討厭垃圾!!!

    重複性內容本身並不是問題,有問題的是弄出重複性內容的方式,這些方式通常都會製造出沒有價值、或者有問題的垃圾頁面,所以Google不喜歡這些東西。

 

Google搜尋引擎會因為哪些問題處理重複性內容?

版權問題

    不論是授權轉載、或者是盜文,基本上都視為同一篇文章內容,Google會試者尋找、判斷文章最原始、且擁有版權的發表者,SERP中同樣的文章內容會以原始發表文章為主。

    Google會藉由AI判斷多個指標訊號,試著尋找原始的版權文章,也會人工處理盜版文章,因此如果是授權轉載文章,可以要求轉貼者標注原文出處以及連結,如果是文章被盜取,看心情處理,可以要求對方補上原文出處、作者、連結,可以要求補償費用(可能性較低,法院耗時),也可以要求文章下架。如果Google排序出現的是盜版文章,除了要求對方下架以外,也可以試著向Google檢舉申訴,要求清除盜版文章的收錄。

 

SEO作弊

    過去有人會尋找高價值內容的文章,然後將文章轉貼到自己的網站,希望藉此獲得SEO排名,只是現在Google藉由Panda演算法排除低品質、低價值文章,也會依循版權、UX原則排除重複內容文章,甚至會懲罰大量(借轉)文張的網站,這個行為已經比較少了。

    且SEO除了看文章本身的品質,搜尋行為的相關程度,還有速度、網域信賴度、網域內容主題性等非常多的條件,已經不太可能藉由盜取、轉貼單一文章而獲得SEO排名成績。

 

重複廣告文章

    重複廣告文章有幾個狀況

  • 相同的廣告文案在不同平台出現
  • 廣告在聯盟網站傳遞
  • 文章在聯盟網站轉載、傳遞
  • 文章主動張貼在不同平台

   

    這種情況Google難以判斷原始版權來源,比較有可能的情形是不良內容所以SERP都不會出現,或者是依據整體網站相關性、網域信賴度等其他的條件,選擇一個網址出現。

 

提昇UX,並避免不良感受

    想想看,假設我們搜尋出來的結果,都是同樣的內容,我們會有多麼的不開心?除了導航型搜尋,我們會直接點擊連結前往目標,其他的搜尋模式都會需要蒐集、看過幾個不同的網頁,才會決定接下來的行為,如果這時候搜尋結果都是同樣的內容,即使網站不一樣,但我們的認知是相同的,這樣的搜尋結果對我們並沒有幫助。Google會猜測我們搜尋的目的,試著依據目的給予答案,不同性質的搜尋結果,以及避免避免列出相同內容的網站,這樣的搜尋結果才比較有可能是使用者須要的。

 

  •     由此可知,Google喜歡原創性、具有價值的文章,因為使用者需要有價值的內容,所以Google會將這些內容推薦給使用者,給予原創文章獎勵,讓網站作者可以產出更多的文章;且會盡可能的過濾掉重複的內容,避免使用者UX觀感不好。如果網站文章都是抄襲的,或者品質不佳,Google會依據情形給予適當地處理、懲罰。

 

Google會如何懲罰重複性內容的網站?

    Google的處理有很多種,對於重複性內容比較有可能出現的處理方式有下面四個。

   

演算法分數處理(逐漸降低信賴、品質分數,排名逐漸降低)

    網域有信賴分數,內容、網站有相關、品質分數,如果網站內重複、抄襲文章過多,會逐漸被調整這些分數,當然影響SEO排名也會逐漸將低。

  • 信賴分數:這個網域內容是否值得信任,或者這個網域是否是專門的垃圾內容來源?
  • 相關分數:這個網站內、或者這個分類下的文章大多是哪個方向、哪個主題的內容?主題性與文章的數量,文章與文章之間的關聯程度。
  • 品質分數:這個網站、網址的內容是否具備一定的品質,方便使用者閱讀,具備使用者需要的價值。

 

降低搜尋引擎索引次數、爬取量(搜尋引擎爬率)

    搜尋引擎爬取網站的頻率,以及每次檢索會爬取的資料量叫做搜尋引擎爬率,這個數值不是固定的,高品質的網站、經常更新內容的網站、內容品質好又多的網站,搜尋引擎會增加爬率,盡量多帶點文章回去,當然對於很少更新的網站、或者文章品質差、沒價值的網站就會減少爬率,避免浪費運算效能,減少帶回去的垃圾。

 

網域信賴分數降低,甚至變成垃圾等級網域,原本排名都會被拉下

   如果網站內抄襲的文章太多,或者是沒有內容、不具備的價值的文章過多,網域的信賴分數、品質分數會一直降低,相對的垃圾評分的可能性會越來越高,一旦被列入垃圾網站,不只是這些抄襲、低品質文章的排序會降低,網站內的其他文章排名都會被拉下。

 

可能觸發人為介入處理程序

    如果盜版文章太多、被檢舉太多,或者網站內有太多的不良內容,就不只是演算法、AI機器人處置,一旦被人為介入處理,很可能會面臨排序大量降低,甚至更嚴重的懲罰。

 

不同網域重複性內容的例外情況

    觀察到有些情況重複性內容會有例外狀況,即便不是原創文章也會出現在SERP排序中,依據推測應該是為了UX理由,不同地區的搜尋給予最適合的結果,所以跨地區如果有重複性內容,仍然會被排序。

    只是這個內容很難界定,國外文章國內翻譯轉載之後,即使內容一樣,台灣Google搜尋會出現,只是這個地區有多大、如何界定很難判斷,尤其現在有Local SEO 老鷹 出現,地區的判斷、重複內容的判斷更加複雜。而內容的判斷也是另外一個問題,這個內容排除地區有多大?如台灣企業外銷產品的文章如果轉載到新加坡,會不會出現在新加坡的搜尋結果?或者是台南地方服務性質的網站內容(如牛肉湯介紹、食譜),在高雄或者台北搜尋要不要出現?

 

    也有的網站作法是將版面微調、增減部份內容來避免被搜尋引擎認定為重複性內容,就以數位時代來舉例,數位時代的文章通常都是翻譯中國翻譯網站、或者徵求國內企業、個人文章作者同意轉錄,如果不加以處理一定會被Google認為是重複性內容的網站,這種情形不只單篇文章不會有排序,甚至會面臨Google搜尋引擎降低爬率以及降權的問題,而Facebook又降低了粉絲團的觸及率,不能像以往一樣靠Facebook取得流量,觀察數位時代以前和現在的版面可以發現,文章底下多了一塊數說新語,以整個網頁的排版比率來說還不少,藉由這個方法將文章作一點變化,增加一些內容,讓網頁不會與原始文章一模一樣。

 

未來的變化與影響

    過去搜尋引擎只能靠文字去判斷重複性內容,所以很多人都是稍微更改文字內容之後就將文章轉貼出去,或者有些網站用翻譯程式自動翻譯外文網站,並直接在自己的網站發表,只要文章有一定比例與原始文章不一樣,就可以避過重複性內容,仍然出現在搜尋結果SERP上;Google導入AI之後對於搜尋的規則、變化影響非常巨大,搜尋引擎運作的行為也與以往不同,現在Google AI已經開始逐漸試著判讀網站內容,理解文字背後的語意,並已經用在搜尋行為、語意分析,內容分析,結果配對;之後會不會變成藉由Google AI理解語意,據此處理重複內容的問題?我相信這是有可能的。

    如果要翻譯國外文章,可以試著依據不同國情,調整內容,或者批註、增加觀點內容等,讓文章適合國內型態。轉錄文章可以加入自己的觀點、想法,或者用不同的角度去詮釋同樣的內容。如此都可以文章內容增添更多的價值,當然也就不是重複內容了。

 

其他參考文件:Google Search Console說明文件