暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

分布式爬虫| 你必须得懂的那些Redis基础

Python进击者 2021-05-10
471


点击蓝色字关注我们!

JAVAandPython君

一个努力中的公众号

长的好看的人都关注了



 Python爬虫| 不会分布式爬虫?带你一步一步写!


Python分布式爬虫-必须掌握的Docker基础!




        这是我们分布式爬虫系列文章的第三篇文章了,这是最后一篇打基础的文章,在下一篇文章中,我们就会通过一个实战,来彻彻底底教会大家分布式爬虫!


       今天,我们主要讲的是Redis数据库,相信大家肯定听说过这个数据库。我们主要分为Redis的安装与启动以及Redis的使用基础两个方面来给大家讲解。




Redis的安装


我们首先进入到容器当中,具体可以看图:



进入之后,我们输入

    apt-get -y install redis-server


    稍作等待,即可安装成功。


    如果这个过程中出现问题,可以升级一下你的apt-get

      apt-get update


      Redis的启动和连接


      我们安装完成之后,就需要启动Redis数据库服务器



        /etc/init.d/redis-server restart


        其实,Redis是分为服务器和客户端两端的,我们上面启动是服务器,就意味着Redis服务打开了,此时我们需要打开客户端去连接服务器。


        不带参数的连接服务器

          redis-cli


          带参数的连接服务器

            redis-cli -h 主机地址 -p 端口


            如果大家在这里遇到了下图的报错:


            提示说Connection refused ,这里我教大家来解决


            首先进入/etc/redis  然后vi redis.conf,来编辑这个文件

            找到这句话,上图是我修改后的,后面的172.18.0.4是我的容器ip,如何查看可以去上一篇docker的文章中找。



            Redis使用基础


            Redis与其他的数据库不同之处在于Redis中的存储格式是键值对。


            1. 例如我们想设置一个数据,我们可以使用set来实现,取出数据使用get



            2. 获取键值的长度    strlen



            3. 批量设置键值对,取出键值对




            在Redis中还有一种存储方式,被称为哈希存储法。它比键值对多了一个“域”。   键 - 域 - 值(key - field - value)


            那么我们怎么设置这种数据呢?



            那么又如何批量设置键- 域 -值?




            其实用于分布式爬虫中的Redis基础就这么多,当然Redis的用法还有很多,如果大家想深入了解,可以去百度搜索一下。




                   那么我们今天学的这些东西到底有什么用呢?我来给大家简单介绍一下,当我们爬取某个网页时,我们可以使用以下命令:


              hset url 123.com 1


                       此时我们将这个url的值设置为1,就代表我们已经爬取过这个网页了,下次爬取时就不会重复爬取这个网页。如果我们没有爬取这个网页,那么它的值就为null,我们就对其爬取。



                    整体的思路还是非常简单的,好了,今天我们就写到这,下一篇文章我们会用一个分布式爬虫实战来教大家完完整整的写一个分布式爬虫,记得持续关注!!!





              原创不易,希望大家点赞转发!


              赞赏就不必,大家若想给JAP君加鸡腿,可以点击左下角的“阅读原文”。



              如有疑惑,加群讨论



              文章转载自Python进击者,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

              评论