#教程# 服务器反爬虫攻略 Apache/Nginx/PHP禁止非法抓取内容

前言

最近发现 nginx 日志中出现了好多 MJ12bot 等垃圾爬虫的抓取记录，导致日志体积增大，增加服务器压力。这里整理收集了网络上各种禁止垃圾蜘蛛爬站的方法，在给自己网做设置的同时，也给各位站长提供参考。

解决方法

Nginx

进入到 nginx 安装目录下的 conf 目录，将如下代码保存为 agent_deny.conf

#禁止 Scrapy 等工具的抓取
if ($http_user_agent ~* (Scrapy|HttpClient)) {
     return 403;
}
#禁止指定 UA 及 UA 为空的访问
if ($http_user_agent ~* "FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) {
     return 403;             
}
#禁止非 GET|HEAD|POST 方式的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) {
    return 403;
}

然后，在网站 xxx.conf 相关配置中的 server 段插入如下代码：

include agent_deny.conf;

Apache

通过修改网站目录下的.htaccess，添加如下代码即可（2 种代码任选）：

代码 (1)：

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (^$|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) [NC]
RewriteRule ^(.*)$ - [F]

代码 (2)：

SetEnvIfNoCase ^User-Agent$ .*(FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) BADBOT
Order Allow,Deny
Allow from all
Deny from env=BADBOT

PHP

将如下方法放到贴到网站入口文件 index.php 中的第一个 < ? php 之后即可：

//获取 UA 信息
$ua = $_SERVER['HTTP_USER_AGENT'];
//将恶意 USER_AGENT 存入数组
$now_ua = array('FeedDemon ','BOT/0.1 (BOT for JCE)','CrawlDaddy ','Java','Feedly','UniversalFeedParser','ApacheBench','Swiftbot','ZmEu','Indy Library','oBot','jaunty','YandexBot','AhrefsBot','MJ12bot','WinHttp','EasouSpider','HttpClient','Microsoft URL Control','YYSpider','jaunty','Python-urllib','lightDeckReports Bot');
//禁止空 USER_AGENT，dedecms 等主流采集程序都是空 USER_AGENT，部分 sql 注入工具也是空 USER_AGENT
if(!$ua) {
    header("Content-type: text/html; charset=utf-8");
    die('请勿采集本站，因为采集的站长木有小 JJ！');
}else{
    foreach($now_ua as $value )
//判断是否是数组中存在的 UA
    if(eregi($value,$ua)) {
        header("Content-type: text/html; charset=utf-8");
        die('请勿采集本站，因为采集的站长木有小 JJ！');
    }
}

测试抓取效果

模拟 MJ12bot 蜘蛛抓取：

curl -I -A 'MJ12bot' https://www.yunloc.com

模拟 UA 为空的抓取：

curl -I -A '' https://www.yunloc.com

模拟百度蜘蛛的抓取：

curl -I -A 'Baiduspider' https://www.yunloc.com

抓取结果截图如下：

[root@jxonesys ~]# curl -I -A 'MJ12bot' https://www.yunloc.com
HTTP/1.1 403 Forbidden
Server: nginx
Date: Thu, 22 Aug 2019 07:58:33 GMT
Content-Type: text/html
Content-Length: 146
Connection: keep-alive


[root@jxonesys ~]# curl -I -A '' https://www.yunloc.com
HTTP/1.1 403 Forbidden
Server: nginx
Date: Thu, 22 Aug 2019 07:55:35 GMT
Content-Type: text/html
Content-Length: 146
Connection: keep-aliv

[root@jxonesys ~]# curl -I -A 'Baiduspider' https://www.yunloc.com
HTTP/1.1 200 OK
Server: nginx
Date: Thu, 22 Aug 2019 08:03:06 GMT
Content-Type: text/html; charset=UTF-8
Connection: keep-alive
Vary: Accept-Encoding
X-Powered-By: PHP/7.2.19
Set-Cookie: wp_xh_session_f2266ad63f05d6d9f9e0134d622e4ca4=43b6b7d802097b30e609d872ad6920df%7C%7C1566633786%7C%7C1566630186%7C%7C6ce3059d6fe1ea6acfb27796762ea655; expires=Sat, 24-Aug-2019 08:03:06 GMT; Max-Age=172800; path=/
Strict-Transport-Security: max-age=63072000; includeSubdomains; preload
X-Frame-Options: SAMEORIGIN
X-Content-Type-Options: nosniff
X-XSS-Protection: 1; mode=block

可以看出，MJ12bot 蜘蛛和 UA 为空的返回是 403 服务器没有相应标识，而百度蜘蛛则成功返回 200，说明生效！

我们还可以通过分析网站的访问日志，找出一些没见过的的蜘蛛（spider）名称，经过查询无误之后，可以将其加入到前文代码的禁止列表当中，起到禁止抓取的作用。

UA 收集

下面是网络上常见的垃圾 UA 列表，仅供参考，同时也欢迎你来补充。

FeedDemon             //内容采集
BOT/0.1 (BOT for JCE) //sql 注入
CrawlDaddy            //sql 注入
Java                  //内容采集
Jullo                 //内容采集
Feedly                //内容采集
UniversalFeedParser   //内容采集
ApacheBench           //cc 攻击器
Swiftbot              //无用爬虫
YandexBot             //无用爬虫
AhrefsBot             //无用爬虫
YisouSpider           //无用爬虫（已被 UC 神马搜索收购，此蜘蛛可以放开！）
MJ12bot               //无用爬虫
ZmEu phpmyadmin       //漏洞扫描
WinHttp               //采集 cc 攻击
EasouSpider           //无用爬虫
HttpClient            //tcp 攻击
Microsoft URL Control //扫描
YYSpider              //无用爬虫
jaunty                //wordpress 爆破扫描器
oBot                  //无用爬虫
Python-urllib         //内容采集
Indy Library          //扫描
FlightDeckReports Bot //无用爬虫
Linguee Bot           //无用爬虫

>> 如果您觉得本站文章对您有所帮助，购买 VPS 时候请走本站AFF链接！
>> 某些文章具有时效性，若内容有错误或已失效，欢迎在下方评论区留言向我们反馈.
>> 所有文章均基于分享的原则，所有言论均个人观点，请注意全部都不是推荐，是分享！分享！分享！

THE END

教程
# 服务器反爬虫 # 反爬虫 # Apache爬虫 # Nginx爬虫 # Nginx蜘蛛 # 百度爬虫 # 搜索爬虫 # 搜索蜘蛛

评论共6条

务必使用真实的邮箱地址评论，虚假邮箱的评论将不通过审核及无回复。

提交

- 陶小桃Blog0
  用宝塔设置挺方便的
  2022/05/04
- kangfeng0
  老哥，有没有办法设置谷歌爬取速度的哇。它爬的太厉害了我直接改robots屏蔽了它，结果收录从几百万降到了几十万。按照官方的来根本没有设置的地方，抓取速度设置网址：https://www.google.com/webmasters/tools/settings
  2020/09/24
- - lonefly0
    这个没办法，只能设置是否屏蔽
    2020/09/24@kangfeng
  - - kangfeng0
      好的谢谢老哥。
      2020/09/24@lonefly
- 一个用户0
  测试博主的站点，貌似我的ip进了黑名单
  2019/09/05
- - lonefly0
    本站开启了Nginx_lua_waf防御CC攻击,https://www.yunloc.com/167.html 测试的话可以在自己的站点安装、测试！
    2019/09/05@一个用户

#教程# 服务器反爬虫攻略 Apache/Nginx/PHP禁止非法抓取内容

前言

解决方法

Nginx

Apache

PHP

测试抓取效果

UA 收集

1搬瓦工 – #限量新套餐# 洛杉矶CN2 GIA，1H/768M/15G SSD/[email protected]，$35.4/年起

2Justhost – #限时5折# 达拉斯机房 1H/512M/5G HDD/不限流量@200M端口，$2.16/月起

3BuyVM – #补货# 所有套餐补货$2/月起，G口不限流量，可选四机房，抗投诉/DDoS高防

4DMIT – #补货# 香港/洛杉矶CN2 GIA高防，2H/2GB/40GB/1TB@300Mbps，$139/年起

5CloudCone – #复活节促销# 洛杉矶机房，1H/1GB/55GB/3TB@1Gbps，$16.3/年起

6ColoCrossing – #促销# 纽约机房 KVM-1H/1GB/20G SSD/20TB@1Gbps，可WIN，$10/年起

7digital-VM – #5折优惠# 日本/新加坡/美国等，1H/512M/30gSSD/5T流量@1Gbps带宽，$4/月起

8RAKsmart – #新年专享# 充10美元送10美元,充50美元送50美元,充100美元送100美元

1#教程# Cloudflare 自动脚本提交攻击(恶意)IP到防火墙[修改版]

2#教程# WordPress – 5秒盾防CC（PHP通用代码）

3#教程# 使用脚本自动配置MYSQL数据库主从支持lnmp/宝塔环境

4#教程# Cloudflare 可选择同时自动开启5秒盾和验证码脚本

5#教程# Nginx lua waf 简单防御CC攻击

6#教程# WordPress – 编辑器添加按钮用API上传到Chevereto图床

7#分享# 怎么玩电报（Telegram）及分享TG热门群

8#分享# 无需登录直接下载谷歌商店(Google Play)应用

1#分享# 怎么玩电报（Telegram）及分享TG热门群

2Just My Socks – – 搬瓦工机场新套餐及优惠码/线路/速度/评测

3搬瓦工机场 – Justmysocks(JMS) 优惠码/线路/速度/评测

4JustMySocks – 搬瓦工机场 JMS 线路/速度/评测

5#分享# 无需登录直接下载谷歌商店(Google Play)应用

6justmysocks – 搬瓦工机场(jms)新套餐优惠码/线路/速度/评测

7Just My Socks – 2021搬瓦工机场新套餐及优惠码/线路/速度/评测

8JustMySocks – 搬瓦工机场新套餐促销及优惠码/线路/速度/评测

1#分享# 怎么玩电报（Telegram）及分享TG热门群

2Just My Socks – – 搬瓦工机场新套餐及优惠码/线路/速度/评测

3搬瓦工机场 – Justmysocks(JMS) 优惠码/线路/速度/评测

4JustMySocks – 搬瓦工机场 JMS 线路/速度/评测

5#分享# 无需登录直接下载谷歌商店(Google Play)应用

6justmysocks – 搬瓦工机场(jms)新套餐优惠码/线路/速度/评测

7Just My Socks – 2021搬瓦工机场新套餐及优惠码/线路/速度/评测

8JustMySocks – 搬瓦工机场新套餐促销及优惠码/线路/速度/评测

#教程# 服务器反爬虫攻略 Apache/Nginx/PHP禁止非法抓取内容

前言

解决方法

Nginx

Apache

PHP

测试抓取效果

UA 收集

1搬瓦工 – #限量新套餐# 洛杉矶CN2 GIA，1H/768M/15G SSD/[email protected]，$35.4/年起

2Justhost – #限时5折# 达拉斯机房 1H/512M/5G HDD/不限流量@200M端口，$2.16/月起

3BuyVM – #补货# 所有套餐补货$2/月起，G口不限流量，可选四机房，抗投诉/DDoS高防

4DMIT – #补货# 香港/洛杉矶CN2 GIA高防，2H/2GB/40GB/1TB@300Mbps，$139/年起

5CloudCone – #复活节促销# 洛杉矶机房，1H/1GB/55GB/3TB@1Gbps，$16.3/年起

6ColoCrossing – #促销# 纽约机房 KVM-1H/1GB/20G SSD/20TB@1Gbps，可WIN，$10/年起

7digital-VM – #5折优惠# 日本/新加坡/美国等，1H/512M/30gSSD/5T流量@1Gbps带宽，$4/月起

8RAKsmart – #新年专享# 充10美元送10美元,充50美元送50美元,充100美元送100美元

1#教程# Cloudflare 自动脚本提交攻击(恶意)IP到防火墙[修改版]

2#教程# WordPress – 5秒盾防CC（PHP通用代码）

3#教程# 使用脚本自动配置MYSQL数据库主从 支持lnmp/宝塔环境

4#教程# Cloudflare 可选择同时自动开启5秒盾和验证码脚本

5#教程# Nginx lua waf 简单防御CC攻击

6#教程# WordPress – 编辑器添加按钮 用API上传到Chevereto图床

7#分享# 怎么玩电报（Telegram）及 分享TG热门群

8#分享# 无需登录 直接下载谷歌商店(Google Play)应用

1#分享# 怎么玩电报（Telegram）及 分享TG热门群

2Just My Socks – – 搬瓦工机场新套餐及 优惠码/线路/速度/评测

3搬瓦工机场 – Justmysocks(JMS) 优惠码/线路/速度/评测

4JustMySocks – 搬瓦工机场 JMS 线路/速度/评测

5#分享# 无需登录 直接下载谷歌商店(Google Play)应用

6justmysocks – 搬瓦工机场(jms)新套餐 优惠码/线路/速度/评测

7Just My Socks – 2021搬瓦工机场新套餐及 优惠码/线路/速度/评测

8JustMySocks – 搬瓦工机场新套餐促销及 优惠码/线路/速度/评测

1#分享# 怎么玩电报（Telegram）及 分享TG热门群

2Just My Socks – – 搬瓦工机场新套餐及 优惠码/线路/速度/评测

3搬瓦工机场 – Justmysocks(JMS) 优惠码/线路/速度/评测

4JustMySocks – 搬瓦工机场 JMS 线路/速度/评测

5#分享# 无需登录 直接下载谷歌商店(Google Play)应用

6justmysocks – 搬瓦工机场(jms)新套餐 优惠码/线路/速度/评测

7Just My Socks – 2021搬瓦工机场新套餐及 优惠码/线路/速度/评测

8JustMySocks – 搬瓦工机场新套餐促销及 优惠码/线路/速度/评测

3#教程# 使用脚本自动配置MYSQL数据库主从支持lnmp/宝塔环境

6#教程# WordPress – 编辑器添加按钮用API上传到Chevereto图床

7#分享# 怎么玩电报（Telegram）及分享TG热门群

8#分享# 无需登录直接下载谷歌商店(Google Play)应用

1#分享# 怎么玩电报（Telegram）及分享TG热门群

2Just My Socks – – 搬瓦工机场新套餐及优惠码/线路/速度/评测

5#分享# 无需登录直接下载谷歌商店(Google Play)应用

6justmysocks – 搬瓦工机场(jms)新套餐优惠码/线路/速度/评测

7Just My Socks – 2021搬瓦工机场新套餐及优惠码/线路/速度/评测

8JustMySocks – 搬瓦工机场新套餐促销及优惠码/线路/速度/评测

1#分享# 怎么玩电报（Telegram）及分享TG热门群

2Just My Socks – – 搬瓦工机场新套餐及优惠码/线路/速度/评测

5#分享# 无需登录直接下载谷歌商店(Google Play)应用

6justmysocks – 搬瓦工机场(jms)新套餐优惠码/线路/速度/评测

7Just My Socks – 2021搬瓦工机场新套餐及优惠码/线路/速度/评测

8JustMySocks – 搬瓦工机场新套餐促销及优惠码/线路/速度/评测