IPIDEA:爬虫的基本框架

IPIDEA为大家介绍基本爬虫的基本框架:


 8.263.png


爬虫调度器负责统筹其他四个模块协调工作。

 

HTML解析器用于解析HTML下载器下载的HTML网页,获取URL链接交给URL管理器,提取要获取的数据交给数据存储器。

 

数据存储器用于将HTML解析器解析出来的数据存储到数据库或文件。

 

HTML下载器用于从URL管理器中获取未爬取的链接并下载其HTML网页。

 

URL管理器负责管理URL链接,包括已爬取的链接和未爬取的链接。


声明:本文来自网络投稿,不代表IPIDEA立场,若存在侵权、安全合规问题,请及时联系IPIDEA进行删除。

上一篇:Python在数据处理方面的优势

下一篇:HTTP协议与HTTPS