个人网站屏蔽爬虫

z珏

2021 年 06 月 04 日

8305 次浏览

暂无评论

1385字数

网站建设

用nginx屏蔽疯狂爬虫的方法

站点总是莫名的cpu100%，检查发现全是mysql占用，网络流量也不高，这就有必要怀疑爬虫问题。
我的个人网站并没有做seo优化的需求，所以采取了一些方法屏蔽爬虫。

1. 使用"robots.txt"规范

在网站根目录新建空白文件，命名为"robots.txt"，将下面内容保存即可。

User-agent: Baiduspider
Disallow:
User-agent: YisouSpider
Disallow:
User-agent: 360Spider
Disallow:
User-agent: Sosospider
Disallow:
User-agent: sogou spider
Disallow: 
User-agent: YodaoBot
Disallow: 
User-agent: Googlebot
Disallow: 
User-agent: bingbot
Disallow: 
User-agent: *
Disallow: /

2. nginx

有些爬虫是不按规则出牌的，我们必须要能自己控制，方法如下：

将下面代码添加到"location / { }" 段里面，比如伪静态规则里面。

#禁止Scrapy等工具的抓取
  if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
    return 403;
   }

 #禁止指定UA及UA为空的访问
  if ($http_user_agent ~ "YandexBot|Bytespider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|Ezooms|^$" ) {
    return 403;
  }
  #禁止非GET|HEAD|POST方式的抓取
   if ($request_method !~ ^(GET|HEAD|POST)$) {
     return 403;
   }

注意： ~ 为模糊匹配，~* 为模糊匹配不区分大小写

测试一下：

curl -I -A  "Mozilla/5.0Macintosh;IntelMacOSX10_12_0AppleWebKit/537.36KHTML,likeGeckoChrome/60.0.6967.1704Safari/537.36;YandexBot"  http://www.demo.com

个人网站屏蔽爬虫

z珏 • 2021 年 06 月 04 日

个人网站屏蔽爬虫

用nginx屏蔽疯狂爬虫的方法

1. 使用"robots.txt"规范

2. nginx

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

用网络头像制作两枚扁平风小动物情头

可以有多少个十年去用来醒悟

苹果cms搭建个人影视站

iptables设置映射通过外网端口代理ssh登录内网服务器

拔刀剑2合成说明

磁盘管理之—— RAID

iptables设置映射通过外网端口代理ssh登录内网服务器

linux设置开机⾃启动

解决“WARNINGThe remote SSH server rejected X11 forwarding request.“警告

CA认证的原理和流程及https原理

个人网站屏蔽爬虫

用nginx屏蔽疯狂爬虫的方法

1. 使用"robots.txt"规范

2. nginx

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

个人网站屏蔽爬虫

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款