什么是网络爬虫

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。

 

传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。


 9.213.png


然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。IPIDEA覆盖全球ip资源可以避免爬虫ip允许采集公开数据的问题。

 

网络爬虫又可以分为通用网络爬虫、聚焦网络爬虫增量式网络爬虫和深层网络爬虫 。通用网络爬虫又称全网爬虫 ,爬行对象从URL (网络上每一个文件都有一个地址,即URL) 扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商爬取数据。

 

聚焦网络爬虫(又称主题网络爬虫(Topical Crawler),是只爬行与主题相关网络资源的爬虫。它极大地节省了硬件和网络资源,保存的数据也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。

 

增量式网络爬虫是指只爬行新产生的或者已经发生变化数据的爬虫,它能够在一定程度上保证所爬行的数据是尽可能新的,并不重新下载没有发生变化的数据,可有效减少数据下载量,及时更新已爬行的数据,减小时间和空间上的耗费。

 

深层网络爬虫则可以抓取到深层网页的数据。一般网络页面分为表层网页和深层网页。 表层网页是指传统搜索引擎可以索引的页面,而深层页面是只有用户提交-一些关键词才能获得的页面,例如那些用户注册后内容才可见的网页就属于深层网页。


声明:本文来自网络投稿,不代表IPIDEA立场,若存在侵权、安全合规问题,请及时联系IPIDEA进行删除。

上一篇:爬虫IP不足该怎么解决

下一篇:HTTP协议及工作原理