Loading...
写在开始最近有在看一些消息队列的东西,偶然之间找到了一个据说是速度最快的消息队列,这个就是我要说的这个ZeroMQ,使用难度也不是很高,但是这个似乎只是封装了一层网络层,所以有一些消息队列的逻辑还是要自己写了,介绍一下使用方法,当然我只介绍Python版本的那个.使用方法导入zmq包然后创建一个Context对象,然后再使用内部的socket函数来建立连接.介绍一下ZeroMQ里面的几种状态...
写在开始scrapy是一个很有名的Python的网络爬虫框架,然后这个好像是设计成单机并行的爬虫,所以可能有些设计的并不是很好,但是也是一个很不错的架构,可以拿来参考一下.scrapy架构这是一张很好的说明scrapy架构的图源自scrapy文档组件Scrapy Engine引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。 详细内容查看下面的数据流(Data Flow)...
写在开始最近有在看一点分布式爬虫的一点东西,然后找到了一点关于分布式爬虫的架构的设计,这里收藏一下.架构其实很简单的说,这个架构是从知乎里面一个人的回答的一个问题里面扒出来的.这个架构把一个爬虫拆成了三部分:下载网页的部分抓取数据的部分持久化的部分如果我没记错的话.然后这里面又有一些其他的细节.下载网页的部分和抓取数据的部分是通过一个消息中间件来连接起来的.抓取数据的部分和持久化的部分也是通...
写在开始最近做一点东西,顺便又用到了virtualenv,所以顺便再记录一下使用方法,省得以后再搜.安装sudo apt install virtualenv就可以了,有人说安装pip之后直接pip install virtualenv也行,这个没试过.创建一个虚拟环境先mkdir anenv,然后创建一个虚拟环境virtualenv anenv或者手动指定Python版本virtualen...
写在开始这个小窍门是无意间发现的,因为lambda表达式的原因,Python里面的lambda表达式只能有一个表达式,不像是def定义的函数那样里面可以有很多个语句.但是我发现了一个用法可以突破一点这个限制,那就是用tuple.用法本身tuple用的时候会把里面所有的代码都求一次值,所以(print("hello "),print("world"))可...