Python爬虫:使用IP代理池保护安全访问你的IP地址继续爬
2022-10-12
让自己的python爬虫假装是浏览器
小帅b主要是想让你知道
在爬取网站的时候
要多的站在对方的角度想问题
其实
这和泡妞差不多
你要多站在妹纸的角度思考
她的兴趣是什么
她喜欢什么
而不是自己感动自己
单方面的疯狂索取
哦..
扯远了
我们回到访问虫
这次教你怎么保护安全访问自己的ip地址
别让对方轻易的就把你给封掉
如何保护安全访问呢
那么
接下来就是
学习python的正确姿势
其实
对于python来说
使用代理访问很简单
就拿我们经常使用的requests库来说
使用代理ip如下
定义代理IP
proxie={http:http://xx.xxx.xxx.xxx:xxxx,http:http://xxx.xx.xx.xxx:xxx,....}
使用代理
response=requests.get(url,proxies=proxies)
这样就可以使用你定义的代理地址去访问网站了
我知道你要问了
代理地址哪里来
在网上有很多免费的代理
随便搜就有一堆了
不过你知道的
免费的话很多人都去使用
所以这些代理IP很不稳定
如果你有钱的话
市面上有人就专门提供代理IP的
直接去买就行了
不想花钱呢?
可以搞一个IP代理池
主要就是通过python程序去抓取网上大量免费的代理ip
然后定时的去检测这些ip可不可以用
那么下次你要使用代理ip的时候
你只需要去自己的ip代理池里面拿就行了
道理都懂
但是不想自己弄一个代理池
有没有现成的?
不瞒你说
接着打开项目中的setting.py
在这里可以配置相关信息
比如Redis的地址密码相关
接着在你clone下来的文件目录中
安装相关所需的python模块
pip3install-rrequirements.txt
接下来开启你的redis
redis的默认端口就是6379
接着就可以运行run.py了
代理池开始运行*Runningonhttp://0.0.0.0:5555/(PressCTRL+Ctoquit)开始抓取代理获取器开始执行 Crawlinghttp:///1.html正在抓取 http:///1.html抓取成功 http:///1.html200 成功获取到代理201.69.7.108:9000 成功获取到代理111.67.97.58:36251 成功获取到代理187.32.159.61:51936 成功获取到代理60.13.42.154:9999 成功获取到代理106.14.5.129:80 成功获取到代理222.92.112.66:8080 成功获取到代理125.26.99.84:60493...
声明:本文来自网络投稿,不代表IPIDEA立场,若存在侵权、安全合规问题,请及时联系IPIDEA进行删除。