📜  youtube robots.txt (1)

📅  最后修改于: 2023-12-03 14:48:41.376000             🧑  作者: Mango

Youtube Robots.txt

什么是 Robots.txt?

Robots.txt 是一种位于网站根目录下用于控制爬虫访问的文本文件,它可以告诉搜索引擎哪些页面可以被抓取。

Robots.txt 有什么用处?

Robots.txt 的作用是指导搜索引擎爬虫爬取网站内容,它可以通过阻止索引某些网页,提高网站的安全性和性能,同时帮助搜索引擎更快,更好地了解我们的网站,并提高搜索引擎排名。

Robots.txt 配置示例

我们以 Youtube(www.youtube.com)为例,讲解 Robots.txt 的配置:

User-agent: *
Disallow: /results
Disallow: /channel/
Disallow: /user/
Disallow: /playlist
Disallow: /watchlater
Disallow: /feed/
Disallow: /community/
Disallow: /shared
Disallow: /t/terms
Disallow: /t/privacy

Sitemap: https://www.youtube.com/sitemap.xml

以上配置的含义如下:

  • User-Agent: *:表示对所有爬虫生效,换言之,它用来控制所有的用户代理。

  • Disallow:表示禁止此类页面被检索:

    • /results:表示搜索结果页面;
    • /channel/:表示频道页面;
    • /user/:表示用户页面;
    • /playlist:表示播放列表页面;
    • /watchlater:表示稍后观看页面;
    • /feed/:表示信息流页面;
    • /community/:表示社区页面;
    • /shared:表示共享页面(可能包含敏感信息);
    • /t/terms:表示服务条款页面;
    • /t/privacy:表示隐私政策页面。
  • Sitemap:表示提供 Sitemap 的 URL 地址,这样搜索引擎可以更好地了解我们网站的内容。

如何测试 Robots.txt 是否生效

可以使用 Google 的测试工具 来测试 Robots.txt 文件是否 work as expected。

参考文献: