如何屏蔽国内最疯狂的蜘蛛爬虫yisouspider?

资源来源网络,如需授权,请更换源码,模块仅供学习,如需商用请购买正版授权,本栏目不提供技术服务,积分不够请签到!如何签到?系统升级暂停签到,恢复关注公告!
如遇下载链接蓝奏网盘打不开lanzous替换成lanzoux尝试! 广告

YisouSpider是什么蜘蛛爬虫

国内最疯狂的蜘蛛(没有之一)能让你的网站挂掉,尤其是VPS、小内存虚拟机就别说了。

为什么要屏蔽YisouSpider蜘蛛爬虫

一个网站使用的是阿里的云主机,最近后台监测到网站流量很大,内存占用高,对这个站而言,1个G的内存完全绰绰有余,排查原因,造成这种高流量的因素还比较多,比如阿里云主机本身的逻辑原因、老域名总有黑KE来DDOS和CC、网站程序本身的安全性没做好等等,这些所有因素中,如果可以用百分比来表示,估计YisouSpider这只蜘蛛对此站的贡献程度在50%-70%。它的爬行频率不顾时间,晚上爬白天还爬,爬行频率和次数超过所有其他蜘蛛的总和。

为什么专门写这么一篇屏蔽YisouSpider的文章?

因为YisouSpider太流氓了!自己网上搜吧

 

———————————–重点分割线:如何屏蔽国内最疯狂的蜘蛛爬虫yisouspider?——————————

目录

1 限定Yisouspider访问权限的robots协议写法(已经尝试,无用)

2 Nginx屏蔽爬虫yisouspider访问站点方法(没有尝试过,是apache的)

3 Apache屏蔽爬虫yisouspider访问站点方法(网上的方法,试用过,会造成访问不正常)

4 直接屏蔽封锁yisouspider的IP吧,但是它的IP有点多哦!!

5 Apache屏蔽蜘蛛IP的方法(nginx….)

6 yisouspider蜘蛛爬虫的IP清单(1086个IP)

限定Yisouspider访问权限的robots协议写法(已经尝试,无用)
robots.txt 必须放在网站根目录下,且文件名要小写。

具体写法:

1) 完全禁止 yisouspider 抓取:

User-agent: yisouspiderDisallow: /
2) 禁止 yisouspider 抓取指定目录

User-agent: yisouspiderDisallow: /updateDisallow: /history
禁止抓取 update、history 目录下网页

Nginx屏蔽爬虫yisouspider访问站点方法(没有尝试过,我是apache的)
进入到 nginx 安装目录下的 conf 目录,将如下代码保存为 agent_deny.conf

#禁止 Scrapy 等工具的抓取if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { return 403;}#禁止指定 UA 及 UA 为空的访问if ($http_user_agent ~ “yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$” ) { return 403;}#禁止非 GET|HEAD|POST 方式的抓取if ($request_method !~ ^(GET|HEAD|POST)$) { return 403;}
然后,在网站相关配置中的

location / {try_files $uri $uri/ /index.php?$args;
下方插入如下代码:

include agent_deny.conf;
保存后,执行如下命令,平滑重启 nginx 即可:

/usr/local/nginx/sbin/nginx -s reload
Apache屏蔽爬虫yisouspider访问站点方法(网上的方法,试用过,会造成访问不正常)
1、通过修改 .htaccess 文件

修改网站目录下的.htaccess,添加如下代码即可(2 种代码任选):

可用代码 (1):

RewriteEngine OnRewriteCond %{HTTP_USER_AGENT} (^$|yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) [NC]RewriteRule ^(.*)$ – [F]
可用代码 (2):

SetEnvIfNoCase ^User-Agent$ .*(yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) BADBOTOrder Allow,DenyAllow from allDeny from env=BADBOT
2、通过修改 httpd.conf 配置文件

找到如下类似位置,根据以下代码 新增 / 修改,然后重启 Apache 即可:

DocumentRoot /home/wwwroot/xxx<Directory “/home/wwwroot/xxx”>SetEnvIfNoCase User-Agent “.*(yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms)” BADBOTOrder allow,denyAllow from alldeny from env=BADBOT</Directory>
直接屏蔽封锁yisouspider的IP吧,但是它的IP有点多哦!!
Apache屏蔽蜘蛛IP的方法(nginx我不知道….)
修改htacess文件如下

order allow,denyallow from all#需要屏蔽的IP地址deny from 106.11.152.100deny from 106.11.152.102
yisouspider蜘蛛爬虫的IP清单(1086个IP)
以下YisouSpider的IP是我通过网站日志统计的,并不是全部的YisouSpider的IP,后续会更新这个IP清单。

总共1086个IP!!!!!!! 全部是阿里云的IP,YisouSpider全部使用的是阿里云的服务器….

©下载资源版权归作者所有;本站所有资源均来源于网络,仅供学习使用,请支持正版!
风格酷模板网 » 如何屏蔽国内最疯狂的蜘蛛爬虫yisouspider?
NOTICE:【咨询风格酷】客服QQ:1131734965
NOTICE:【咨询风格酷】客服微信:wwwxmamnet
NOTICE:【风格酷模板网②群】QQ群:288678775
☉免责声明:本站所有模板均来自用户分享和网络收集,仅供学习与参考,请勿用于商业用途,如果损害了您的权利,请联系网站客服,我们核实后会立即删除。
☉如果源码网盘地址失效!或有其他问题,请点我报错,谢谢合作!
☉人民币与积分汇率为1比10,即1元=10积分.有任何疑问请联系客服
☉如有其他问题,请加网站客服QQ(1131734965)进行交流。
☉本站提供的源码、模板、软件工具等其他资源,都不包含技术服务,请大家谅解!
☉源码、模板等资源会随着技术、环境的升级而存在部分问题,还请慎重选择。

发表评论

风格酷模板网www.xmam.net分享优质网站模板

立即查看 了解详情