在运营网站过程中,蜘蛛爬虫有时候还会影响到我们网站的运行,大量的蜘蛛无脑的爬取网址占用大量的资源,导致网站又卡有慢。我们有些蜘蛛是不想要的,爬取抓取了大量的网页也有没什么流量,还有些国外的额尔古纳搜索引擎但没有什么用。那么我们可使用robots协议,建立robots.txt 文件来控制我们想要和不想要的蜘蛛,创建robots.txt上传至网站根目录即可。比如:https://tjuj.com/robots.txt,创建robots.txt的同时也记得创建地图:https://tjuj.com/sitemap.txt,更有利于优化搜索引擎收录。
以下面robots为例:(robots检查工具)
User-agent:Baiduspider
allow:/
User-agent:360Spider
allow:/
User-agent:Sogou News Spider
allow:/
User-agent:bingbot
Disallow:/
User-agent:Bytespider
Disallow:/
User-agent:Googlebot
Disallow:/
User-agent:YisouSpider
Disallow:/
User-agent:YoudaoBot
Disallow:/
User-agent:Sosospider
Disallow:/
说明:
allow:/(允许访问所有目录)
Disallow:/(禁止访问所有目录)
建议开放的蜘蛛:
百度蜘蛛:Baiduspider
360蜘蛛:360Spider
SOSO蜘蛛:Sosospider
建议禁止的蜘蛛:
谷歌蜘蛛:Googlebot
雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo!
有道蜘蛛:YoudaoBot,YodaoBot
搜狗蜘蛛:Sogou News Spider、Sogou XXX spider等
MSN蜘蛛:msnbot,msnbot-media
必应蜘蛛:bingbot
常规设置:
屏蔽所有搜索引擎爬取网站的语法:
User-agent: *
Disallow: /
允许所有搜索引擎爬取网站所有内容
User-agent: *
allow:/
只禁止百度抓取你网站的内容
User-agent: Baiduspider
Disallow: /
只允许百度抓取你网站的内容
User-agent: Baiduspider
allow:/
User-agent: *
disallow: /