分布式爬虫关闭scrapy

0&1菜菜

2024-04-25 帮助1人

scrapy框架的扩展（推荐）

书写扩展文件extensions.py，在setting中设置一下内容

'EXTENSIONS'= {
'路径信息.extensions.检测爬虫的类方法': 500,
},

详细的可以参考一下文章，这里不多介绍啦

https://cloud.tencent.com/developer/article/1406573

脚本检测

写爬虫的同学对于任务的调度通常不会采用linux系统的contab而是采用专门的调度系统，当然就算是哦使用contab我们也可以写一个shell脚本，然后让contab来定时进行调度,当然这个情况适用的基本上基本上是关于人物的关闭，而不是任务执行结束而执行

脚本案例如下

JOB_NAME = 任务的名称		# 这个名称通常是ps能查看到的任务
# 这个名字一定要尽可能的详细或者唯一，不然在哦pkill的时候将会杀死自己不想杀死的任务
ProcNumber=`ps -ef |grep -w $JOB_NAME|grep -v grep|wc -l`
if [ $ProcNumber -le 0 ];then
   echo "JOB crawler is not run"
else
   echo "JOB crawler is  running,will be killed!"
   pkill -f 任务名称		# 这里前面的任务名是一样的
fi

定时进行关闭

在setting中设置指定的参数，缺点就是无法进行判断队列中的任务是否去哪不消耗

CLOSESPIDER_TIMEOUT

CLOSESPIDER_ITEMCOUNT

CLOSESPIDER_PAGECOUNT

CLOSESPIDER_ERRORCOUNT

详细的可以参考官方文档
https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/overview.html

本人对爬虫的理解不深，可能说的有不对的地方，所以希望有说的不对的地方大家可以帮忙指出

这篇好文章是转载于：学新通技术网

分布式爬虫关闭scrapy

分类

scrapy框架的扩展（推荐）

脚本检测

定时进行关闭

photoshop保存的图片太大微信发不了怎么办

Android 11 保存文件到外部存储，并分享文件

word里面弄一个表格后上面的标题会跑到下面怎么办

《学习通》视频自动暂停处理方法

photoshop扩展功能面板显示灰色怎么办

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

excel打印预览压线压字怎么办

怎样阻止微信小程序自动打开

TikTok加速器哪个好免费的TK加速器推荐