robots.txt配置方法

别叨叨 1年前 ⋅ 656 阅读

搜索引擎抓取我们网站的内容时有些不想要展示的内容，我们可以通过robots.txt的配置来指定网络蜘蛛抓取内容。

robots.txt配置：

User-agent：指定抓取工具名称；

Disallow：指定不允许抓取的目录或网页，后面为空则表示允许抓取所有页面；

Allow：指定允许抓取的目录或网页；

Sitemap：站点地图的位置，必须是绝对路径；

*：表示通配符；

$：表示网址结束；

/：匹配根目录以及任何下级网址。

1. 禁止所有搜索引擎访问网站
User-agent: *
Disallow: /

2. 允许所有的robots访问(也可以建一个空robots.txt)
User-agent: *
Allow:
3. 禁止某个搜索引擎的访问（禁止百度）
User-agent: BaiDuSpider　
Disallow: /

4. 允许某个搜索引擎的访问
User-agent: Baiduspider
allow:/

5.禁止搜索引擎访问admin目录
User-agent: * 
Disallow: /admin/

6. 仅允许Baiduspider以及Googlebot访问
User-agent: Baiduspider
Allow: /
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /

7. 禁止百度搜索引擎抓取你网站上的所有图片
User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$

注意：本文归作者所有，未经作者允许，不得转载

#robots.txt #搜索引擎 #网络爬虫 #配置

全部评论: 0 条

我有话说:

别叨叨
- 134发布
- 0评论
收藏 0

robots.txt配置方法

全部评论: 0 条

热门文章

最新发布

最新评论