爬虫是什么-天气预报

爬虫是什么

更新时间: 2020-11-12 00:00:00

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，它们被广泛用于互联网搜索引擎或其他类似网站，可以自动采集所有其能够访问到的页面内容，以获取或更新这些网站的内容和检索方式。从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。

Web网络爬虫系统的功能是下载网页数据，为搜索引擎系统提供数据来源，很多大型的网络搜索引擎系统都是基于Web数据采集的搜索引擎系统，由此可见Web网络爬虫在搜索引擎中的重要性。

在网络爬虫的系统框架中，主过程由控制器、解析器、资源库三部分组成。控制器的主要工作是负责给多线程中各个爬虫线程分配工作任务；解析器的主要工作是下载网页，进行网页的处理，处理的内容包括JS脚本标签、CSS代码内容、空格字符、HTML标签等内容。资源库是用来存放下载到的网页资源，一般会采用大型的数据库存储，并对其建立索引。

标签：爬虫什么

爬虫是什么相关文章

下一篇：发芽的土豆含有毒素吗

爬虫是什么

爬虫是什么相关文章

相关阅读

热点城市2.5pm查询

热点城市天气预报查询

旅游景点天气预报查询

热门国际天气预报查询

查询

爬虫是什么

爬虫是什么 相关文章

相关阅读

热点城市2.5pm查询

热点城市天气预报查询

旅游景点天气预报查询

热门国际天气预报查询

查询

爬虫是什么相关文章