重複內容偵測

你可以用它做什麼

重複內容偵測工具幫助你找出網站內重複或相似的頁面：

發現完全重複：找出內容 100% 相同的頁面
偵測近似內容：找出高度相似但不完全相同的頁面
取得處理建議：系統推薦應該保留哪個版本
追蹤處理進度：標記已處理、已忽略的項目

重複內容可能導致：排名稀釋（搜尋引擎不知道該顯示哪個版本）、爬取預算浪費、使用者困惑。建議定期掃描檢查。

快速開始

確認內容地圖已爬取：進入「內容地圖」確認有頁面資料
進入重複內容偵測：從側邊欄「工具 > 重複內容偵測」進入
執行快速掃描：點擊「開始掃描」進行初步檢查
檢視結果：從高優先級項目開始處理
標記處理狀態：完成後標記為 resolved 或 ignored

前置條件

條件	必要性	說明
已完成內容爬取	必要	需要頁面內容資料才能比對
HTML Storage 已啟用	建議	精準 Hash 模式需要完整 HTML
GSC 已連接	建議	用於計算優先級和推薦保留版本

三種掃描模式

根據你的需求選擇掃描模式：

模式	速度	準確度	適用情境
快速掃描	最快	中等	初步檢查、日常監控
精準 Hash	中等	高	找完全相同的內容
近似掃描	較慢	最高	找相似但不完全相同的內容

快速掃描

原理：比較已有的頁面標題和摘要內容
適用：快速了解是否有明顯重複問題
限制：可能漏掉標題不同但內容相似的頁面

精準 Hash

原理：從 Storage 讀取完整 HTML，計算內容 hash 值
適用：找出完全相同的內容（例如重複發佈、模板產生的重複頁）
前置：需要內容爬取時有存 HTML 到 Storage

近似掃描

原理：使用 SimHash/LSH 演算法計算內容相似度
適用：找出被改寫、微調但本質相同的內容
可設定：相似度門檻（Hamming 閾值）、最大配對數量

選擇建議：

第一次使用？
├── 是 → 先跑「快速掃描」了解狀況
│   └── 有發現問題？
│       ├── 是 → 跑「精準 Hash」確認完全相同的頁面
│       └── 還想找相似的 → 跑「近似掃描」
└── 定期維護 → 每月跑一次「快速掃描」即可

重複類型分類

類型	圖示	說明	常見原因
完全相同	🔴 紅色	內容 100% 重複	重複發佈、URL 變體、分頁問題
標題重複	🟠 橙色	標題相同但內容不同	相同系列文章、標題沒改
近似重複	🟡 黃色	內容高度相似	微幅改寫、模板化內容

結果解讀

重複配對卡片

每個發現的重複會顯示為一張卡片，包含：

欄位	說明
頁面 A / 頁面 B	兩個重複的頁面 URL
相似度	0-100%，越高越相似
優先級	高/中/低，基於流量和相似度
推薦保留	系統建議保留的版本
點擊/曝光	GSC 資料（如果有連接）

優先級評分

系統根據以下因素計算優先級：

因素	權重	說明
搜尋流量	高	高流量頁面優先處理
相似度	中	越相似越需要處理
重複類型	中	完全相同 > 近似 > 標題重複

智能推薦

系統會推薦應該保留的版本，基於：

搜尋績效：GSC 28 天內的點擊/曝光資料
URL 品質：URL 結構的清晰度和長度
內容完整度：頁面內容的豐富程度

推薦只是參考，最終決定權在你。有些情況下（如品牌考量）可能需要保留推薦之外的版本。

處理重複的方法

針對每個重複問題，選擇合適的處理方式：

處理方式	適用情境	操作位置
Canonical 標籤	兩個頁面都要保留，但指定主要版本	CMS / HTML
301 重新導向	一個頁面要永久移除	伺服器 / CMS
刪除頁面	完全不需要的重複頁面	CMS
差異化內容	兩個頁面都有價值，需要改寫	CMS

處理決策樹

發現重複配對
├── 兩個頁面都有流量？
│   ├── 是 → 設定 Canonical 指向較優版本
│   └── 否 → 301 重新導向到有流量的版本
├── 兩個頁面都沒流量？
│   ├── 選一個保留，另一個 301 或刪除
│   └── 或者都刪除（如果是無價值內容）
└── 兩個頁面都有獨特價值？
    └── 改寫內容使其差異化

篩選與排序

功能	選項	建議使用時機
類型篩選	全部 / 完全相同 / 標題重複 / 近似	專注處理特定類型
排序	優先級 / 相似度	依優先級排序從重要的開始
狀態篩選	顯示/隱藏已忽略	只看待處理項目
每頁筆數	10/20/50/100	批量處理時選多一點

批量操作

處理大量重複時可以使用批量功能：

勾選多個項目：左側 checkbox 選取
選擇批量動作：
- 標記為 resolved（已處理）
- 標記為 ignored（已忽略）
- 加入任務追蹤
執行：確認後一次處理

匯出報告

點擊「匯出 CSV」可下載完整報告，包含：

欄位	說明
頁面 A URL	第一個頁面
頁面 B URL	第二個頁面
重複類型	exact / title / similar
相似度	百分比
優先級	high / medium / low
推薦保留	A 或 B
A 點擊數	GSC 資料
B 點擊數	GSC 資料
狀態	pending / resolved / ignored

常見問題

掃描很久是正常的嗎？

掃描時間取決於網站規模：

頁面數	快速掃描	精準 Hash	近似掃描
< 100	< 30 秒	1-2 分鐘	2-5 分鐘
100-500	1-2 分鐘	3-5 分鐘	5-10 分鐘
> 500	2-5 分鐘	5-15 分鐘	10-30 分鐘

如果超過預期時間太久，可以重新整理頁面再試。

精準 Hash 沒有結果

可能原因：

原因	解法
HTML Storage 沒有資料	重新爬取內容，確認有存 HTML
真的沒有完全相同的內容	這是好事！試試近似掃描
爬取範圍不完整	擴大爬取範圍

近似掃描結果太多

調整方式：

提高相似度門檻（只顯示更相似的）
降低最大配對數量
用類型篩選只看「完全相同」

要怎麼知道處理有沒有效果？

處理完標記為 resolved
等 1-2 週讓 Google 重新爬取
再次掃描，確認重複已消失
觀察 GSC 的排名和曝光變化

Canonical 和 301 怎麼選？

情境	建議
兩個頁面都有外部連結	Canonical（保留連結價值）
一個頁面明顯更好	301 重新導向
只是 URL 參數變體	Canonical
舊版本要永久淘汰	301

最佳實踐

定期掃描 SOP

建議每月執行：

執行快速掃描
檢視新發現的重複：比對上次掃描
優先處理高優先級項目
標記處理狀態
匯出報告存檔

常見重複來源與預防

來源	預防方式
URL 參數（?sort=、?page=）	用 Canonical 標籤指向無參數版本，或在伺服器端統一處理
www vs non-www	統一並設定 301
http vs https	強制 HTTPS + 301
列印版/行動版	設定 Canonical
CMS 自動產生的頁面	檢查 CMS 設定
分類/標籤頁	考慮 noindex 或合併