網站爬蟲設定(robots.txt)

post date - 2022/10/08

last update - 2022/10/08

要防止搜尋引擎顯示資料在搜尋列表時可以設定兩個東西，一個是meta另一個是robots.txt，雖然不能直接阻止別人看到頁面不過有名的搜尋引擎基本上都遵守這個規則。

meta robot

一個方法是設定meta，在不想要顯示的頁面中加入在head標籤內。

<meta name="robots" content="noindex, follow">

robots.txt

另一個方式是設定robots.txt擺在網站根目錄，要注意由於這沒有強制性，敏感的目錄在設定時記得使用模糊條件，避免直接暴露了目錄名稱。

設定時不同引擎規定有差，google為500 KiB以內的utf-8檔案，微軟的bing沒有限制大小而且可以支援ASCII和utf-8兩種格式。
範例如下

User-agent: *
Disallow: /

user-agent: 必要，每個群組可指定一或多個 user-agent，用來指定下方規則(到下一個user-agent前)需要遵守的使用者名稱，可以用這個設定A引擎可以爬B引擎不可以。
disallow: 禁止的目錄或網頁。
allow: 允許的目錄或網頁。
sitemap: 選用，網站的 Sitemap 所在位置。網址必須為完整網址。

萬用字元：*
結束符號：$

範例：
拒絕Bing搜尋引擎檢索網站內/wp-admin目錄底下所有內容及網站內開頭為test的所有檔名，禁止結尾為.jpg的檔名，模糊禁止wp-開頭的目錄與檔案。

User-agent: bingbot
Disallow: /wp-admin/
Disallow: ^test*
Disallow:/*.jpg$
Disallow: /wp-*

google測試工具
https://support.google.com/webmasters/answer/6062598?hl=zh-Hant

Tags : html