Otlex Help Center

重複內容偵測

檢測網站內的重複或相似頁面,避免 SEO 排名受影響

你可以用它做什麼

重複內容偵測工具幫助你找出網站內重複或相似的頁面:

  • 發現完全重複:找出內容 100% 相同的頁面
  • 偵測近似內容:找出高度相似但不完全相同的頁面
  • 取得處理建議:系統推薦應該保留哪個版本
  • 追蹤處理進度:標記已處理、已忽略的項目

重複內容可能導致:排名稀釋(搜尋引擎不知道該顯示哪個版本)、爬取預算浪費、使用者困惑。建議定期掃描檢查。

快速開始

  1. 確認內容地圖已爬取:進入「內容地圖」確認有頁面資料
  2. 進入重複內容偵測:從側邊欄「工具 > 重複內容偵測」進入
  3. 執行快速掃描:點擊「開始掃描」進行初步檢查
  4. 檢視結果:從高優先級項目開始處理
  5. 標記處理狀態:完成後標記為 resolved 或 ignored

前置條件

條件必要性說明
已完成內容爬取必要需要頁面內容資料才能比對
HTML Storage 已啟用建議精準 Hash 模式需要完整 HTML
GSC 已連接建議用於計算優先級和推薦保留版本

三種掃描模式

根據你的需求選擇掃描模式:

模式速度準確度適用情境
快速掃描最快中等初步檢查、日常監控
精準 Hash中等找完全相同的內容
近似掃描較慢最高找相似但不完全相同的內容

快速掃描

  • 原理:比較已有的頁面標題和摘要內容
  • 適用:快速了解是否有明顯重複問題
  • 限制:可能漏掉標題不同但內容相似的頁面

精準 Hash

  • 原理:從 Storage 讀取完整 HTML,計算內容 hash 值
  • 適用:找出完全相同的內容(例如重複發佈、模板產生的重複頁)
  • 前置:需要內容爬取時有存 HTML 到 Storage

近似掃描

  • 原理:使用 SimHash/LSH 演算法計算內容相似度
  • 適用:找出被改寫、微調但本質相同的內容
  • 可設定:相似度門檻(Hamming 閾值)、最大配對數量

選擇建議

第一次使用?
├── 是 → 先跑「快速掃描」了解狀況
│   └── 有發現問題?
│       ├── 是 → 跑「精準 Hash」確認完全相同的頁面
│       └── 還想找相似的 → 跑「近似掃描」
└── 定期維護 → 每月跑一次「快速掃描」即可

重複類型分類

類型圖示說明常見原因
完全相同🔴 紅色內容 100% 重複重複發佈、URL 變體、分頁問題
標題重複🟠 橙色標題相同但內容不同相同系列文章、標題沒改
近似重複🟡 黃色內容高度相似微幅改寫、模板化內容

結果解讀

重複配對卡片

每個發現的重複會顯示為一張卡片,包含:

欄位說明
頁面 A / 頁面 B兩個重複的頁面 URL
相似度0-100%,越高越相似
優先級高/中/低,基於流量和相似度
推薦保留系統建議保留的版本
點擊/曝光GSC 資料(如果有連接)

優先級評分

系統根據以下因素計算優先級:

因素權重說明
搜尋流量高流量頁面優先處理
相似度越相似越需要處理
重複類型完全相同 > 近似 > 標題重複

智能推薦

系統會推薦應該保留的版本,基於:

  • 搜尋績效:GSC 28 天內的點擊/曝光資料
  • URL 品質:URL 結構的清晰度和長度
  • 內容完整度:頁面內容的豐富程度

推薦只是參考,最終決定權在你。有些情況下(如品牌考量)可能需要保留推薦之外的版本。

處理重複的方法

針對每個重複問題,選擇合適的處理方式:

處理方式適用情境操作位置
Canonical 標籤兩個頁面都要保留,但指定主要版本CMS / HTML
301 重新導向一個頁面要永久移除伺服器 / CMS
刪除頁面完全不需要的重複頁面CMS
差異化內容兩個頁面都有價值,需要改寫CMS

處理決策樹

發現重複配對
├── 兩個頁面都有流量?
│   ├── 是 → 設定 Canonical 指向較優版本
│   └── 否 → 301 重新導向到有流量的版本
├── 兩個頁面都沒流量?
│   ├── 選一個保留,另一個 301 或刪除
│   └── 或者都刪除(如果是無價值內容)
└── 兩個頁面都有獨特價值?
    └── 改寫內容使其差異化

篩選與排序

功能選項建議使用時機
類型篩選全部 / 完全相同 / 標題重複 / 近似專注處理特定類型
排序優先級 / 相似度依優先級排序從重要的開始
狀態篩選顯示/隱藏已忽略只看待處理項目
每頁筆數10/20/50/100批量處理時選多一點

批量操作

處理大量重複時可以使用批量功能:

  1. 勾選多個項目:左側 checkbox 選取
  2. 選擇批量動作
    • 標記為 resolved(已處理)
    • 標記為 ignored(已忽略)
    • 加入任務追蹤
  3. 執行:確認後一次處理

匯出報告

點擊「匯出 CSV」可下載完整報告,包含:

欄位說明
頁面 A URL第一個頁面
頁面 B URL第二個頁面
重複類型exact / title / similar
相似度百分比
優先級high / medium / low
推薦保留A 或 B
A 點擊數GSC 資料
B 點擊數GSC 資料
狀態pending / resolved / ignored

常見問題

掃描很久是正常的嗎?

掃描時間取決於網站規模:

頁面數快速掃描精準 Hash近似掃描
< 100< 30 秒1-2 分鐘2-5 分鐘
100-5001-2 分鐘3-5 分鐘5-10 分鐘
> 5002-5 分鐘5-15 分鐘10-30 分鐘

如果超過預期時間太久,可以重新整理頁面再試。

精準 Hash 沒有結果

可能原因

原因解法
HTML Storage 沒有資料重新爬取內容,確認有存 HTML
真的沒有完全相同的內容這是好事!試試近似掃描
爬取範圍不完整擴大爬取範圍

近似掃描結果太多

調整方式

  • 提高相似度門檻(只顯示更相似的)
  • 降低最大配對數量
  • 用類型篩選只看「完全相同」

要怎麼知道處理有沒有效果?

  1. 處理完標記為 resolved
  2. 等 1-2 週讓 Google 重新爬取
  3. 再次掃描,確認重複已消失
  4. 觀察 GSC 的排名和曝光變化

Canonical 和 301 怎麼選?

情境建議
兩個頁面都有外部連結Canonical(保留連結價值)
一個頁面明顯更好301 重新導向
只是 URL 參數變體Canonical
舊版本要永久淘汰301

最佳實踐

定期掃描 SOP

建議每月執行:

  1. 執行快速掃描
  2. 檢視新發現的重複:比對上次掃描
  3. 優先處理高優先級項目
  4. 標記處理狀態
  5. 匯出報告存檔

常見重複來源與預防

來源預防方式
URL 參數(?sort=、?page=)用 Canonical 標籤指向無參數版本,或在伺服器端統一處理
www vs non-www統一並設定 301
http vs https強制 HTTPS + 301
列印版/行動版設定 Canonical
CMS 自動產生的頁面檢查 CMS 設定
分類/標籤頁考慮 noindex 或合併

處理優先順序

  1. 完全相同 + 高流量 → 最優先
  2. 標題重複 → 容易造成混淆
  3. 近似重複 + 高相似度 → 需要評估
  4. 低相似度的配對 → 可以先忽略

下一步

On this page