Python爬虫有哪些常见类型呢?
2021-03-11
网络爬虫,又称网络蜘蛛,是一种计算机程序。它根据一定的逻辑和算法从互联网上抓取和下载互联网页面,是搜索引擎的重要组成部分。简而言之,网络爬虫是一个模拟人类访问互联网的程序,并不断从互联网上获取所需数据的程序。
我们可以定制各种爬虫来满足不同的需求。如果法律允许,你可以在网页上收集你想要的任何数据。
下面和IPIDEA一起来了解爬虫常见的类型吧~
网络爬虫的抓取策略有很多种,按照系统结构和实现技术,大致可以分为以下几种:通用网络爬虫(GeneralPurposeWebCrawler)、聚焦网络爬虫(FocusedWebCrawler)、增量式网络爬虫(IncrementalWebCrawler)、深层网络爬虫(DeepWebCrawler)。
增量式网络爬虫是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证所爬行的页面是尽可能新的页面。
一般网络爬虫的爬行范围和数量很大,爬行速度和存储空间要求很高,爬行页面的顺序也比较低。同时,由于需要高效管理新的页面太多,通常采用并行工作,但高效管理新一页需要很长时间。
聚焦网络爬虫是指选择性地爬行与预定义主题相关的网络爬虫。与普通网络爬虫相比,聚焦爬虫只需爬行与主题相关的网页,大大节省了硬件和网络资源,保存的网页也因数量少而更新快,还能很好地满足一些特定人群对特定领域信息的需求。
DeepWeb爬虫,也就是深层网页爬虫,在深层网页容量是表层网页的数百倍,是互联网上大、发展快的新信息资源。
声明:本文来自网络投稿,不代表IPIDEA立场,若存在侵权、安全合规问题,请及时联系IPIDEA进行删除。
下一篇:IP代理服务器在网络中的应用场景