重複內容偵測
檢測網站內的重複或相似頁面,避免 SEO 排名受影響
你可以用它做什麼
重複內容偵測工具幫助你找出網站內重複或相似的頁面:
- 發現完全重複:找出內容 100% 相同的頁面
- 偵測近似內容:找出高度相似但不完全相同的頁面
- 取得處理建議:系統推薦應該保留哪個版本
- 追蹤處理進度:標記已處理、已忽略的項目
重複內容可能導致:排名稀釋(搜尋引擎不知道該顯示哪個版本)、爬取預算浪費、使用者困惑。建議定期掃描檢查。
快速開始
- 確認內容地圖已爬取:進入「內容地圖」確認有頁面資料
- 進入重複內容偵測:從側邊欄「工具 > 重複內容偵測」進入
- 執行快速掃描:點擊「開始掃描」進行初步檢查
- 檢視結果:從高優先級項目開始處理
- 標記處理狀態:完成後標記為 resolved 或 ignored
前置條件
| 條件 | 必要性 | 說明 |
|---|---|---|
| 已完成內容爬取 | 必要 | 需要頁面內容資料才能比對 |
| HTML Storage 已啟用 | 建議 | 精準 Hash 模式需要完整 HTML |
| GSC 已連接 | 建議 | 用於計算優先級和推薦保留版本 |
三種掃描模式
根據你的需求選擇掃描模式:
| 模式 | 速度 | 準確度 | 適用情境 |
|---|---|---|---|
| 快速掃描 | 最快 | 中等 | 初步檢查、日常監控 |
| 精準 Hash | 中等 | 高 | 找完全相同的內容 |
| 近似掃描 | 較慢 | 最高 | 找相似但不完全相同的內容 |
快速掃描
- 原理:比較已有的頁面標題和摘要內容
- 適用:快速了解是否有明顯重複問題
- 限制:可能漏掉標題不同但內容相似的頁面
精準 Hash
- 原理:從 Storage 讀取完整 HTML,計算內容 hash 值
- 適用:找出完全相同的內容(例如重複發佈、模板產生的重複頁)
- 前置:需要內容爬取時有存 HTML 到 Storage
近似掃描
- 原理:使用 SimHash/LSH 演算法計算內容相似度
- 適用:找出被改寫、微調但本質相同的內容
- 可設定:相似度門檻(Hamming 閾值)、最大配對數量
選擇建議:
第一次使用?
├── 是 → 先跑「快速掃描」了解狀況
│ └── 有發現問題?
│ ├── 是 → 跑「精準 Hash」確認完全相同的頁面
│ └── 還想找相似的 → 跑「近似掃描」
└── 定期維護 → 每月跑一次「快速掃描」即可重複類型分類
| 類型 | 圖示 | 說明 | 常見原因 |
|---|---|---|---|
| 完全相同 | 🔴 紅色 | 內容 100% 重複 | 重複發佈、URL 變體、分頁問題 |
| 標題重複 | 🟠 橙色 | 標題相同但內容不同 | 相同系列文章、標題沒改 |
| 近似重複 | 🟡 黃色 | 內容高度相似 | 微幅改寫、模板化內容 |
結果解讀
重複配對卡片
每個發現的重複會顯示為一張卡片,包含:
| 欄位 | 說明 |
|---|---|
| 頁面 A / 頁面 B | 兩個重複的頁面 URL |
| 相似度 | 0-100%,越高越相似 |
| 優先級 | 高/中/低,基於流量和相似度 |
| 推薦保留 | 系統建議保留的版本 |
| 點擊/曝光 | GSC 資料(如果有連接) |
優先級評分
系統根據以下因素計算優先級:
| 因素 | 權重 | 說明 |
|---|---|---|
| 搜尋流量 | 高 | 高流量頁面優先處理 |
| 相似度 | 中 | 越相似越需要處理 |
| 重複類型 | 中 | 完全相同 > 近似 > 標題重複 |
智能推薦
系統會推薦應該保留的版本,基於:
- 搜尋績效:GSC 28 天內的點擊/曝光資料
- URL 品質:URL 結構的清晰度和長度
- 內容完整度:頁面內容的豐富程度
推薦只是參考,最終決定權在你。有些情況下(如品牌考量)可能需要保留推薦之外的版本。
處理重複的方法
針對每個重複問題,選擇合適的處理方式:
| 處理方式 | 適用情境 | 操作位置 |
|---|---|---|
| Canonical 標籤 | 兩個頁面都要保留,但指定主要版本 | CMS / HTML |
| 301 重新導向 | 一個頁面要永久移除 | 伺服器 / CMS |
| 刪除頁面 | 完全不需要的重複頁面 | CMS |
| 差異化內容 | 兩個頁面都有價值,需要改寫 | CMS |
處理決策樹
發現重複配對
├── 兩個頁面都有流量?
│ ├── 是 → 設定 Canonical 指向較優版本
│ └── 否 → 301 重新導向到有流量的版本
├── 兩個頁面都沒流量?
│ ├── 選一個保留,另一個 301 或刪除
│ └── 或者都刪除(如果是無價值內容)
└── 兩個頁面都有獨特價值?
└── 改寫內容使其差異化篩選與排序
| 功能 | 選項 | 建議使用時機 |
|---|---|---|
| 類型篩選 | 全部 / 完全相同 / 標題重複 / 近似 | 專注處理特定類型 |
| 排序 | 優先級 / 相似度 | 依優先級排序從重要的開始 |
| 狀態篩選 | 顯示/隱藏已忽略 | 只看待處理項目 |
| 每頁筆數 | 10/20/50/100 | 批量處理時選多一點 |
批量操作
處理大量重複時可以使用批量功能:
- 勾選多個項目:左側 checkbox 選取
- 選擇批量動作:
- 標記為 resolved(已處理)
- 標記為 ignored(已忽略)
- 加入任務追蹤
- 執行:確認後一次處理
匯出報告
點擊「匯出 CSV」可下載完整報告,包含:
| 欄位 | 說明 |
|---|---|
| 頁面 A URL | 第一個頁面 |
| 頁面 B URL | 第二個頁面 |
| 重複類型 | exact / title / similar |
| 相似度 | 百分比 |
| 優先級 | high / medium / low |
| 推薦保留 | A 或 B |
| A 點擊數 | GSC 資料 |
| B 點擊數 | GSC 資料 |
| 狀態 | pending / resolved / ignored |
常見問題
掃描很久是正常的嗎?
掃描時間取決於網站規模:
| 頁面數 | 快速掃描 | 精準 Hash | 近似掃描 |
|---|---|---|---|
| < 100 | < 30 秒 | 1-2 分鐘 | 2-5 分鐘 |
| 100-500 | 1-2 分鐘 | 3-5 分鐘 | 5-10 分鐘 |
| > 500 | 2-5 分鐘 | 5-15 分鐘 | 10-30 分鐘 |
如果超過預期時間太久,可以重新整理頁面再試。
精準 Hash 沒有結果
可能原因:
| 原因 | 解法 |
|---|---|
| HTML Storage 沒有資料 | 重新爬取內容,確認有存 HTML |
| 真的沒有完全相同的內容 | 這是好事!試試近似掃描 |
| 爬取範圍不完整 | 擴大爬取範圍 |
近似掃描結果太多
調整方式:
- 提高相似度門檻(只顯示更相似的)
- 降低最大配對數量
- 用類型篩選只看「完全相同」
要怎麼知道處理有沒有效果?
- 處理完標記為 resolved
- 等 1-2 週讓 Google 重新爬取
- 再次掃描,確認重複已消失
- 觀察 GSC 的排名和曝光變化
Canonical 和 301 怎麼選?
| 情境 | 建議 |
|---|---|
| 兩個頁面都有外部連結 | Canonical(保留連結價值) |
| 一個頁面明顯更好 | 301 重新導向 |
| 只是 URL 參數變體 | Canonical |
| 舊版本要永久淘汰 | 301 |
最佳實踐
定期掃描 SOP
建議每月執行:
- 執行快速掃描
- 檢視新發現的重複:比對上次掃描
- 優先處理高優先級項目
- 標記處理狀態
- 匯出報告存檔
常見重複來源與預防
| 來源 | 預防方式 |
|---|---|
| URL 參數(?sort=、?page=) | 用 Canonical 標籤指向無參數版本,或在伺服器端統一處理 |
| www vs non-www | 統一並設定 301 |
| http vs https | 強制 HTTPS + 301 |
| 列印版/行動版 | 設定 Canonical |
| CMS 自動產生的頁面 | 檢查 CMS 設定 |
| 分類/標籤頁 | 考慮 noindex 或合併 |
處理優先順序
- 完全相同 + 高流量 → 最優先
- 標題重複 → 容易造成混淆
- 近似重複 + 高相似度 → 需要評估
- 低相似度的配對 → 可以先忽略