App下载
3. 整体了解Scrapy的运行顺序
Python Scrapy 网络爬虫入门课程 / 3. 整体了解Scrapy的运行顺序
手机也能上课
App下载
1/4

Scrapy组件介绍

掌握执行顺序前,先了解scrapy的组件:
  • 引擎(Engine):负责整个系统的数据流处理,触发事务。
  •  调度器(Scheduler):接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回。 
  • 下载器(Downloader): 下载网页内容,并将网页内容返回给爬虫。 
  • 爬虫(Spider): 爬虫是主要干活的,用来制定特定域名或网页的解析规则。
  •  项目管道(Item Pipeline): 清洗验证存储数据,页面被蜘蛛解析后,被发送到项目管道,并经过几个特定的次序处理数据。 
  • 下载器中间件(Downloader Middleware): 位于引擎和下载器之间,处理引擎与下载器之间的请求及响应。 
  • 爬虫中间件(Spider Middleware):位于引擎和爬虫之间,处理从引擎发送到调度的请求及响应。
如图:

1


+10 经验 +10积分
解析
提示
参考答案
+10 经验 +10积分
视频播放结束,是否学习下一节?