Loading...
写在开始之前找的这个东西,因为C/C++和Java之类的都有switch,scala和其他的FP语言都有模式匹配,但是Python用了这么久都没记得哪里有说过多分支结构,所以这次找了一下这个.实现方式其实要我说的话这个就是Python的动态类型和高阶函数做到的,一个人说用dict,然后key是分支的那个条件,然后value对应的是他需要执行的那个函数,这样就行了.简单实现一下吧:def m_...
写在开始最近有在看一些消息队列的东西,偶然之间找到了一个据说是速度最快的消息队列,这个就是我要说的这个ZeroMQ,使用难度也不是很高,但是这个似乎只是封装了一层网络层,所以有一些消息队列的逻辑还是要自己写了,介绍一下使用方法,当然我只介绍Python版本的那个.使用方法导入zmq包然后创建一个Context对象,然后再使用内部的socket函数来建立连接.介绍一下ZeroMQ里面的几种状态...
写在开始scrapy是一个很有名的Python的网络爬虫框架,然后这个好像是设计成单机并行的爬虫,所以可能有些设计的并不是很好,但是也是一个很不错的架构,可以拿来参考一下.scrapy架构这是一张很好的说明scrapy架构的图源自scrapy文档组件Scrapy Engine引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。 详细内容查看下面的数据流(Data Flow)...
写在开始最近有在看一点分布式爬虫的一点东西,然后找到了一点关于分布式爬虫的架构的设计,这里收藏一下.架构其实很简单的说,这个架构是从知乎里面一个人的回答的一个问题里面扒出来的.这个架构把一个爬虫拆成了三部分:下载网页的部分抓取数据的部分持久化的部分如果我没记错的话.然后这里面又有一些其他的细节.下载网页的部分和抓取数据的部分是通过一个消息中间件来连接起来的.抓取数据的部分和持久化的部分也是通...
写在开始最近做一点东西,顺便又用到了virtualenv,所以顺便再记录一下使用方法,省得以后再搜.安装sudo apt install virtualenv就可以了,有人说安装pip之后直接pip install virtualenv也行,这个没试过.创建一个虚拟环境先mkdir anenv,然后创建一个虚拟环境virtualenv anenv或者手动指定Python版本virtualen...