搜索引擎抓取我们网站的内容时有些不想要展示的内容,我们可以通过robots.txt的配置来指定网络蜘蛛抓取内容。
robots.txt配置:
User-agent:指定抓取工具名称;
Disallow:指定不允许抓取的目录或网页,后面为空则表示允许抓取所有页面;
Allow:指定允许抓取的目录或网页;
Sitemap:站点地图的位置,必须是绝对路径;
*:表示通配符;
$:表示网址结束;
/:匹配根目录以及任何下级网址。
1. 禁止所有搜索引擎访问网站
User-agent: *
Disallow: /
2. 允许所有的robots访问(也可以建一个空robots.txt)
User-agent: *
Allow:
3. 禁止某个搜索引擎的访问(禁止百度)
User-agent: BaiDuSpider
Disallow: /
4. 允许某个搜索引擎的访问
User-agent: Baiduspider
allow:/
5.禁止搜索引擎访问admin目录
User-agent: *
Disallow: /admin/
6. 仅允许Baiduspider以及Googlebot访问
User-agent: Baiduspider
Allow: /
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
7. 禁止百度搜索引擎抓取你网站上的所有图片
User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
注意:本文归作者所有,未经作者允许,不得转载