不同的爬虫策略,对爬虫的允许访问公开数据也不同
2022-09-23
不同的网站有不同的访问虫策略,对爬虫的允许访问公开数据也不同。一般可分为以下三类:
1.设置不返回网页或延迟返回时间
传统的访问虫方法是不返回网页,即爬虫将要求发送到相应的网站,网站返回404页,表示服务器无法正常提供信息,或服务器没有响应;网站也可能长时间不返回数据,这意味着爬虫被判断IP属性,无法高效采集公开数据。
2.返回的网页不是目标网页
除了不返回页面外,还有一些爬虫程序返回非目标页面,也就是说,该网站返回虚全球住宅IP,高效采集公开数据,例如,当返回空白页面或爬回多个页面时返回同一页面。如果你的爬虫运行顺利,你会很高兴做其他事情。搜索半小时后,你会发现每个页面的搜索结果都是一样的,也就是假网站。
比如去哪儿网票价页面,网上标注的价格和html源代码不一样。比如网上标注的机票价格是530元,而且html源代码中的票价是538元。除了去哪儿网,猫眼电影和斗鱼直播也采用了这种方法,爬下来的数字和真实数字不一样。
3.增加访问难度
该网站还将通过增加获取数据的难度来防止爬虫。一般来说,登录可以看到数据并设置验证码。为了允许访问公开数据爬虫,网站可能会要求您登录并输入要访问的验证码,无论您是否是真正的用户。例如,为了允许访问公开数据自动抢票,12306采用了严格的验证码功能,要求用户在8张图片中正确选择。
这三种情况在爬虫界很常见。爬虫需要根据不同的实际情况制定不同的全球住宅IP,高效采集公开数据策略,以便顺利工作。
声明:本文来自网络投稿,不代表IPIDEA立场,若存在侵权、安全合规问题,请及时联系IPIDEA进行删除。
上一篇:怎么用flask linux部署设置nginx服务器
下一篇:为什么说代理IP池越大越好?