IPIDEA:爬虫的基本框架
2020-08-26
IPIDEA为大家介绍基本爬虫的基本框架:
爬虫调度器负责统筹其他四个模块协调工作。
HTML解析器用于解析HTML下载器下载的HTML网页,获取URL链接交给URL管理器,提取要获取的数据交给数据存储器。
数据存储器用于将HTML解析器解析出来的数据存储到数据库或文件。
HTML下载器用于从URL管理器中获取未爬取的链接并下载其HTML网页。
URL管理器负责管理URL链接,包括已爬取的链接和未爬取的链接。
声明:本文来自网络投稿,不代表IPIDEA立场,若存在侵权、安全合规问题,请及时联系IPIDEA进行删除。
上一篇:Python在数据处理方面的优势
下一篇:HTTP协议与HTTPS