暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Python爬虫:用邮件通知爬虫异常情况(总结)

AI悦创 2020-05-12
667

3.2 应用场景:

3.2.1 正常更新的

例如糗事百科,每天都要爬取一遍插入数据库的时候,需要增加一个字段更新插入时间 refresh_time
如果爬虫 正常,这样就可以保证,每天的 refresh_time
都是最新的。

3.2.2 不正常更新的

如何监控那些不正常更新的渠道(例如:链家租房),你可以写 sql 语句查询每个渠道的更新时间。如果是最新的更新时间则说明是正常;如果不是判断多久没有更新,说爬虫数据异常。这时需要给指定的负责人发邮件,让他修改代码,使得爬虫正常运行。

3.2.3 爬虫中邮件通知一般加在哪呢?

看到这里,表示你已经成功使用并监控你的爬虫,不过你有可能会有疑问:老师,我们一般把异常通知加载呢?

这里小伙伴们在编写代码中要用好 try...except
,这里要注意:except
后面如果指定了报错类型我们可以在你使用 except
的后面添加邮件通知。

发起 get、post、head 等请求时,需要添加异常处理,因为有时候你会遇到一些:Url 异常、headers 所带参数被该网站的反爬技术改变等,这样我们添加之后就能快速定位到哪里报错。

解析网站时,有时会因为网站的 HTML 结构或者 JSON、Ajax 改变,这时我们也需要用到邮件通知。

4. 总结

这里我们讲到了 Python 发送邮件,并在爬虫中调用。在什么地方添加邮件通知会帮助我们快速出现问题的代码位置:

  • try...except :要添加
  • 发起请求时要添加:get、post、head,因为有事还有一些应为你 SSL 造成问题。
  • 解析网站时,有事数据未抓取到,无法提取而造成的报错,也需要在解析网站的位置添加邮件通知。




文章转载自AI悦创,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论