: 夢龍筆記; 上層分類: 網路經營; SEO 搜尋引擎優化

Google搜尋引擎如何看待、處理重複內容？對SEO會有哪些影響？

先簡單定義所謂的重複性內容：相同內容(文字)，出現在不同的地方，這個不同的地方可以是同一個網站不同網址，也可以是不同網域的網站。

出現重複性內容的原因很多，有站內、站外的問題，有惡意、無意產生的內容，針對這些不同的狀況，Google有不同的處理方式。

首先必須要先瞭解，重複性內容是一定會發生的事情，所以面對所謂的重複性內容，要用中性的看法面對，加入其他旁觀因素之後再去認定內容狀況、以及可能發生的問題和處理方式。

再來重複性內容有分站內問題，以及站外不同網域的情況，有自然產生、無害、不需處理，也有被人盜版、排序被洗掉的重大惡性狀況，碰到狀況要先理解性質、原因，以及Google會如何認定，之後才能擬出正確的處理方式。

這篇文章與還在用老舊過時的方法操作SEO？錯誤的行為被Google懲罰，降低網站排序 -- 中集：不良內容這篇互相補充，原先那篇文章有大概說明網站移轉過程、盜版文章的重複性內容問題，以及處理方式；這篇主要在說明站內、站外重複性文章出現的原因，以及因應的處理方式，和可能的變化。

快速連結：

站內因素重複性內容對SEO的影響
- 頁面分數稀釋
- 蜘蛛耗費時間檢索同樣內容的網頁
- 搜尋引擎需要額外判斷要顯示哪個網址
站內重複內容對數據追蹤的影響
造成重複性內容的站內原因
- 網址www與non-www與IP連線
- http、https
- 桌機版和行動版網站(大小網)
- 普通閱讀版、列印版網頁、以及多分頁內容
- CMS網址生成模式-不同方式連進同一個頁面
- 標題、摘錄內容

站外、不同網域的重複性內容
Google搜尋引擎會因為哪些問題處理重複性內容？
- 版權問題
- SEO作弊
- 重複廣告文章
- 提昇UX，並避免不良感受
Google會如何懲罰重複性內容的網站？
- 演算法分數處理(逐漸降低信賴、品質分數，排名逐漸降低)
- 降低搜尋引擎索引次數、爬取量(搜尋引擎爬率)
- 網域信賴分數降低，甚至變成垃圾等級網域，原本排名都會被拉下
- 可能觸發人為介入處理程序

不同網域重複性內容的例外情況
未來的變化與影響

Matt Cutts指出，網絡上約25-30％的內容是重複的內容。他繼續說，重複的內容確實發生，並不是所有重複的內容都是垃圾。Google尋找重複的內容，然後嘗試分析整理，將分散的內容組合在一起，將其視為一個內容。所以當Google遇到兩個相同的頁面時，Google可能會決定只顯示搜索結果中的一個頁面。並非所有重複的內容都是垃圾 - 它只需要適當地歸納整理。重複的內容一定會出現。但是，如果您建立的網站都是重複的內容，並且您以欺騙性，欺騙性，惡意或操縱性的方式執行此操作，Google將您的內容視為垃圾，並進行處理。

Matt建議，重要的是，您可以為您的內容增加價值。

站內因素重複性內容對SEO的影響

站內因素重複性內容，指的是自己網站本身的問題：數個不同的網址，可以連結到同樣的內容，排版不一定相同，但是主要內容重複。這個問題在搜尋引擎會造成一些問題，影響SEO成績。

頁面分數稀釋

搜尋引擎會對網站的內容評定分數，這個分數有相關性、品質性的評分，藉由這些相關分數訂出SERP搜尋結果頁的呈現方式、排序先後。如果網站有數個網址都會成現同樣的內容，那這份內容的分數就有可能稀釋到不同的網址。

蜘蛛耗費時間檢索同樣內容的網頁

搜尋引擎檢索我們網站的頻率、以及每次檢索的資料量多寡我們稱之為爬率、檢索率。搜尋引擎對單一網站的爬率是有限的，畢竟整個網路的網站數量太過龐大，如果我們的網站有太多的重複性內容，這些重複內容就會消耗我們網站所分配的爬率，檢索量、品質都會降低，當然對SEO成績會造成影響。

搜尋引擎需要額外判斷要顯示哪個網址

另外一個問題就是，當我們網站有好幾個網址都是同樣的內容，當使用者搜尋之後，搜尋引擎要用哪個網址呈現在搜尋結果當中？搜尋引擎還需要消耗運算資源去分析這些內容，這又會是另一個問題了，額外消費資源的狀況對搜尋引擎是不友善的，這情況也就有可能影響SEO成績。

站內重複內容對數據追蹤的影響

大多數數據追蹤系統，如GA數據追蹤、分析，是以網址作為計算基礎，每一個頁面埋入的追蹤碼都一樣，當瀏覽器執行程式碼時會觸發追蹤碼、將瀏覽的時間點以及網址、cookie送回給GA追蹤系統，從而知道使用者的瀏覽狀態，而Facebook留言系統、社交分享、按讚分數等也都是基於網址而工作的。

如果我們有數個網址都顯示一樣的內容，在我們人為主觀意識上，這些瀏覽、分享、讚的數據應該都是歸屬在這個內容之上，但是因為有數個網址都可以連到同一個內容，這些數據紀錄也就分散在各個網址的瀏覽紀錄裡。

這種狀況會造成數據分析的失真、錯誤，無法正確評估這個頁面的各種資料、數據，而各種分數也都分散掉了，如果需要正確分析，還需要將所有的資料取出、將這些不同網址的內容一一清查、並重新加回、計算術據，這實在是一個很蠢的事情@@"

造成重複性內容的站內原因

網址www與non-www與IP連線

試著網址列輸入網址的時候，前面加上www，與不要加上www試試看，看會不會都能開啟網頁，以及輸入IP(自有、專屬IP)是不是都可以開啟網頁？這個問題會讓www.a.com/123、a.com/123與xxx.xxx.xxx.xxx/123都可以開啟同樣頁面。

這個問題都是伺服器設定問題，IIS、Apache伺服器各有不同的設定方式，另外一個要處理的就是在GSC中用想要呈現的網址註冊網站。

http、https

最近SSL受到重視，這個問題也凸顯出來，有些網站安裝、設定好SSL之後，變成http ＆ https兩個方式都可以連線，也沒有SSL安全警告。對Google來說，http 與 https是兩個不同的網站，當然就會有重複性網址的問題產生。

除了後台要設定好，使用HSTS自動轉換使用https連線以外，GSC也要做好變更https的網站設定，並且要進行變更網址的網站搬家程序。

桌機版和行動版網站(大小網)

行動世代之後，很多網站都知道要建立行動版網站，作法有很多，其中有一個方式是建立獨立的行動版網站，網址獨立出來，俗稱大小網，網址型態大多是www.domain.com & m.domain.com。這種情況要用cononical tag去指定主要、次要網址，讓搜尋引擎知道兩個網頁的相關關係，以及要顯示的網址。

普通閱讀版、列印版網頁、以及多分頁內容

平常網頁的畫面、排版是適合瀏覽器瀏覽的，不論是桌機、手機都一樣，這個畫面如果要使用印表機印出通常都變得不好看，有些網站會特別設計列印版網頁，將適合瀏覽器的網頁重新排版成適合A4列印的畫面，這個作法是很好的UX，但是對搜尋引擎來說就是兩個不同的頁面，卻是同樣的內容。

處理方法同上，用cononical tag將列印版指定為次要，一般版本指定為主要。

CMS網址生成模式-不同方式連進同一個頁面

CMS系統所建立的動態網站經常出現重複性內容問題，從不同的連結方式進入一個頁面，經常都會產生不同的動態網址，如主選單、內文的站內連結、tag標籤文章列表、搜尋結果，這些方式進入同一篇文章，經常都會產生不同的參數型態動態網址。

通用知名的CMS系統，如Joomla!、WordPress等都符合SEF規則，內建有網址靜態化的功能，會將這些動態參數網址轉換成單一固定網址，如果是自建網站、或者其他架站系統的，需要跟跟業者要求，以及使用301處理這些網址。

標題、摘錄內容

文章列表、搜尋列表等各種列表頁面，會有很多文章同時呈現，通常都是標題、圖片、以及節錄文章前100～200字的內容。這些也是重複內容，不過現在的Google搜尋引擎會判斷這些內容，並自動歸在內容網址，比較不會出現如以往的目錄頁內容了。

SEF搜尋引擎友善的需求裡面，就有項目是要求要靜態化的網址，並且一個內容只能一個連結，這部份的要求就是為了避免重複性內容的問題。

站外、不同網域的重複性內容

有非常多的情況會產生不同網域，卻擁有相同內容的情況：

授權同步刊登文章
授權非同步刊登文章
人工複製轉貼
網路爬蟲複制文章
複製、轉貼高價值文章
聯盟廣告
聯盟文章共享、自動轉文
內容農場爬取、轉貼、盜版其他網站有價值的文章
RSS文章
廣告自行文章多貼

不只上面的情形，網路文章跑來跑去，不同網址出現同樣內容的情況蠻多的，這些情況有蓄意、有惡意，有人為、有程式跑出來的，甚至有發展策略特別創造的，原因實在是太多了，所以上面影片有說明，Google不討厭重複性內容，但是討厭垃圾!!!

重複性內容本身並不是問題，有問題的是弄出重複性內容的方式，這些方式通常都會製造出沒有價值、或者有問題的垃圾頁面，所以Google不喜歡這些東西。

Google搜尋引擎會因為哪些問題處理重複性內容？

版權問題

不論是授權轉載、或者是盜文，基本上都視為同一篇文章內容，Google會試者尋找、判斷文章最原始、且擁有版權的發表者，SERP中同樣的文章內容會以原始發表文章為主。

Google會藉由AI判斷多個指標訊號，試著尋找原始的版權文章，也會人工處理盜版文章，因此如果是授權轉載文章，可以要求轉貼者標注原文出處以及連結，如果是文章被盜取，看心情處理，可以要求對方補上原文出處、作者、連結，可以要求補償費用(可能性較低，法院耗時)，也可以要求文章下架。如果Google排序出現的是盜版文章，除了要求對方下架以外，也可以試著向Google檢舉申訴，要求清除盜版文章的收錄。

SEO作弊

過去有人會尋找高價值內容的文章，然後將文章轉貼到自己的網站，希望藉此獲得SEO排名，只是現在Google藉由Panda演算法排除低品質、低價值文章，也會依循版權、UX原則排除重複內容文章，甚至會懲罰大量(借轉)文張的網站，這個行為已經比較少了。

且SEO除了看文章本身的品質，搜尋行為的相關程度，還有速度、網域信賴度、網域內容主題性等非常多的條件，已經不太可能藉由盜取、轉貼單一文章而獲得SEO排名成績。

重複廣告文章

重複廣告文章有幾個狀況

相同的廣告文案在不同平台出現
廣告在聯盟網站傳遞
文章在聯盟網站轉載、傳遞
文章主動張貼在不同平台

這種情況Google難以判斷原始版權來源，比較有可能的情形是不良內容所以SERP都不會出現，或者是依據整體網站相關性、網域信賴度等其他的條件，選擇一個網址出現。

提昇UX，並避免不良感受

想想看，假設我們搜尋出來的結果，都是同樣的內容，我們會有多麼的不開心？除了導航型搜尋，我們會直接點擊連結前往目標，其他的搜尋模式都會需要蒐集、看過幾個不同的網頁，才會決定接下來的行為，如果這時候搜尋結果都是同樣的內容，即使網站不一樣，但我們的認知是相同的，這樣的搜尋結果對我們並沒有幫助。Google會猜測我們搜尋的目的，試著依據目的給予答案，不同性質的搜尋結果，以及避免避免列出相同內容的網站，這樣的搜尋結果才比較有可能是使用者須要的。

由此可知，Google喜歡原創性、具有價值的文章，因為使用者需要有價值的內容，所以Google會將這些內容推薦給使用者，給予原創文章獎勵，讓網站作者可以產出更多的文章；且會盡可能的過濾掉重複的內容，避免使用者UX觀感不好。如果網站文章都是抄襲的，或者品質不佳，Google會依據情形給予適當地處理、懲罰。

Google會如何懲罰重複性內容的網站？

Google的處理有很多種，對於重複性內容比較有可能出現的處理方式有下面四個。

演算法分數處理(逐漸降低信賴、品質分數，排名逐漸降低)

網域有信賴分數，內容、網站有相關、品質分數，如果網站內重複、抄襲文章過多，會逐漸被調整這些分數，當然影響SEO排名也會逐漸將低。

信賴分數：這個網域內容是否值得信任，或者這個網域是否是專門的垃圾內容來源？
相關分數：這個網站內、或者這個分類下的文章大多是哪個方向、哪個主題的內容？主題性與文章的數量，文章與文章之間的關聯程度。
品質分數：這個網站、網址的內容是否具備一定的品質，方便使用者閱讀，具備使用者需要的價值。

降低搜尋引擎索引次數、爬取量(搜尋引擎爬率)

搜尋引擎爬取網站的頻率，以及每次檢索會爬取的資料量叫做搜尋引擎爬率，這個數值不是固定的，高品質的網站、經常更新內容的網站、內容品質好又多的網站，搜尋引擎會增加爬率，盡量多帶點文章回去，當然對於很少更新的網站、或者文章品質差、沒價值的網站就會減少爬率，避免浪費運算效能，減少帶回去的垃圾。

網域信賴分數降低，甚至變成垃圾等級網域，原本排名都會被拉下

如果網站內抄襲的文章太多，或者是沒有內容、不具備的價值的文章過多，網域的信賴分數、品質分數會一直降低，相對的垃圾評分的可能性會越來越高，一旦被列入垃圾網站，不只是這些抄襲、低品質文章的排序會降低，網站內的其他文章排名都會被拉下。

可能觸發人為介入處理程序

如果盜版文章太多、被檢舉太多，或者網站內有太多的不良內容，就不只是演算法、AI機器人處置，一旦被人為介入處理，很可能會面臨排序大量降低，甚至更嚴重的懲罰。

不同網域重複性內容的例外情況

觀察到有些情況重複性內容會有例外狀況，即便不是原創文章也會出現在SERP排序中，依據推測應該是為了UX理由，不同地區的搜尋給予最適合的結果，所以跨地區如果有重複性內容，仍然會被排序。

只是這個內容很難界定，國外文章國內翻譯轉載之後，即使內容一樣，台灣Google搜尋會出現，只是這個地區有多大、如何界定很難判斷，尤其現在有Local SEO 老鷹出現，地區的判斷、重複內容的判斷更加複雜。而內容的判斷也是另外一個問題，這個內容排除地區有多大？如台灣企業外銷產品的文章如果轉載到新加坡，會不會出現在新加坡的搜尋結果？或者是台南地方服務性質的網站內容(如牛肉湯介紹、食譜)，在高雄或者台北搜尋要不要出現？

也有的網站作法是將版面微調、增減部份內容來避免被搜尋引擎認定為重複性內容，就以數位時代來舉例，數位時代的文章通常都是翻譯中國翻譯網站、或者徵求國內企業、個人文章作者同意轉錄，如果不加以處理一定會被Google認為是重複性內容的網站，這種情形不只單篇文章不會有排序，甚至會面臨Google搜尋引擎降低爬率以及降權的問題，而Facebook又降低了粉絲團的觸及率，不能像以往一樣靠Facebook取得流量，觀察數位時代以前和現在的版面可以發現，文章底下多了一塊數說新語，以整個網頁的排版比率來說還不少，藉由這個方法將文章作一點變化，增加一些內容，讓網頁不會與原始文章一模一樣。

未來的變化與影響

過去搜尋引擎只能靠文字去判斷重複性內容，所以很多人都是稍微更改文字內容之後就將文章轉貼出去，或者有些網站用翻譯程式自動翻譯外文網站，並直接在自己的網站發表，只要文章有一定比例與原始文章不一樣，就可以避過重複性內容，仍然出現在搜尋結果SERP上；Google導入AI之後對於搜尋的規則、變化影響非常巨大，搜尋引擎運作的行為也與以往不同，現在Google AI已經開始逐漸試著判讀網站內容，理解文字背後的語意，並已經用在搜尋行為、語意分析，內容分析，結果配對；之後會不會變成藉由Google AI理解語意，據此處理重複內容的問題？我相信這是有可能的。

如果要翻譯國外文章，可以試著依據不同國情，調整內容，或者批註、增加觀點內容等，讓文章適合國內型態。轉錄文章可以加入自己的觀點、想法，或者用不同的角度去詮釋同樣的內容。如此都可以文章內容增添更多的價值，當然也就不是重複內容了。

其他參考文件：Google Search Console說明文件

Share

0

comments

建立: 14 九月 2017

29 十一月 2017

點擊數: 8283

網路經營

6個方法加快網頁下載速度，提昇UX體驗和SEO排序
你可能在想，網站速度有什麼大驚小怪？平均網頁加載速度有什麼重要？ 據Aberdeen Group介紹，頁面加載時間延遲1秒，結果如下：頁面瀏覽量減少11％客戶滿意度下降16％...
讓數字說話，但是數字不會說話
數據，是現在網路經營非常重要得特色；如果只是閱讀數據報告裡的數字，是沒有任何意義的。數字不會說話，數據也不會說話。

Mobile 行動世代

Google提供：行動網站10大優化秘訣
智慧型手機已經是現在人離不開得工具，行動網站的瀏覽量也已經遠高於桌機版網站，如何做好行動版網站，優化使用者體驗，才能獲得更多的使用者，網站也才能夠有更好效益。...

IA 資訊架構

設計中古車、二手車的網站，做好SEO可以節省大筆網路行銷預算
中古車、二手車以往都只有地方性的店家銷售，近幾年來出現了全國連鎖的大型商家，隨著行動世代到來，人們也開始在網路上交換中古車買賣的心得、經驗、以及注意事項。二手車市的經營有哪些模式？中古車行如果要建立網站，需要提供哪些訊息？面對不同且複雜的資訊，網站架構該如何調配？面對競爭激烈的市場，如果能網站能擁有好的SEO，是不是可以省下不少廣告成本？長文，慎入
職業訓練網站的IA資訊架構規劃與SEO搜尋引擎優化
...

EC電子商務

這 6 招商品拍攝方法，讓你產品銷售一空，狂追補貨！
...

Users Centered 使用者中心

從噴漆到噴漆槍，看不到的競爭者與使用者中心思考
前一陣子，我想要重新整理一個鐵櫃，想用噴漆的方式幫鐵櫃重新上漆，我是如何從買噴漆(x龍、鐵x士)，變成買了一把電動噴漆槍？中間碰到了哪些問題？有哪些思考的轉折？
從最近的墾丁、台灣旅遊事件，談UX與價值
墾丁很貴？墾丁很遠？其實價格、距離都只是表面的藉口，最重要的是，沒有被人認同的價值。價值是什麼？價值又與使用者經驗UX有什麼關聯？

最高人氣

隨機文章

https://farm5.staticflickr.com/4345/36410768833_94c853b74e_b.jpg

聽說SEO會看SSL，要怎麼幫網站變成HTTPS？以及有SSL後注意的問題

https://www.kingman.idv.tw/images/article/read-notes/agenda-153555-1024.png

知識：你做過甘特圖嗎？ ── 非營利組織的專案管理(project management)

https://farm5.staticflickr.com/4291/36309791275_53ce7842ca_b.jpg

從最近的墾丁、台灣旅遊事件，談UX與價值

https://c1.staticflickr.com/5/4263/34752671344_677486bce2_o.jpg

Joomla!、WordPress、Drupal，三個CMS系統的比較與選擇；建立網站要用那一個比較符合我的需求？

https://www.kingman.idv.tw/images/article/read-notes/130.jpg

一雙筷子看人品

夢龍筆記

SEO搜尋引擎優化

IA資訊架構

Joomla!筆記簿

學習筆記

夢龍筆記為個人Blog，網站內索引用、摘錄、轉貼之文章、圖片等智慧財產權相關所有權利皆屬於原作者所有，如有侵犯權利請聯絡夢龍筆記刪除。

“夢龍筆記 is not affiliated with or endorsed by the Joomla!® Project or Open Source Matters. The Joomla!® name and logo is used under a limited license granted by Open Source Matters, the trademark holder in the United States and other countries.”

SEO常見問題：重複性內容會有哪些問題?為何需要避免？