Loading...
写在开始最近有在看一点分布式爬虫的一点东西,然后找到了一点关于分布式爬虫的架构的设计,这里收藏一下.架构其实很简单的说,这个架构是从知乎里面一个人的回答的一个问题里面扒出来的.这个架构把一个爬虫拆成了三部分:下载网页的部分抓取数据的部分持久化的部分如果我没记错的话.然后这里面又有一些其他的细节.下载网页的部分和抓取数据的部分是通过一个消息中间件来连接起来的.抓取数据的部分和持久化的部分也是通...
写在开始最近做一点东西,顺便又用到了virtualenv,所以顺便再记录一下使用方法,省得以后再搜.安装sudo apt install virtualenv就可以了,有人说安装pip之后直接pip install virtualenv也行,这个没试过.创建一个虚拟环境先mkdir anenv,然后创建一个虚拟环境virtualenv anenv或者手动指定Python版本virtualen...
写在开始最近又在看一点遗传算法方面的文章了,然而这一次突然看懂了,所以顺便来写一点理解.关于遗传算法以下来自维基百科:遗传算法(英语:genetic algorithm (GA) )是计算数学中用于解决最佳化的搜索算法,是进化算法的一种。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的,这些现象包括遗传、突变、自然选择以及杂交等。一些实现方面的理解这个算法的重点我认为是在如何编码基因和...
写在开始这个小窍门是无意间发现的,因为lambda表达式的原因,Python里面的lambda表达式只能有一个表达式,不像是def定义的函数那样里面可以有很多个语句.但是我发现了一个用法可以突破一点这个限制,那就是用tuple.用法本身tuple用的时候会把里面所有的代码都求一次值,所以(print("hello "),print("world"))可...
写在开始这个坑我应该是记得比较清楚,那就是我最开始写的时候出现了一个非常坑的事,'Element is no longer attached to the DOM',这个问题.描述selenium里面所有的定位到的WebElement我认为都只是一个指针指向这个页面的某一个地方,然后如果你这时候get了一个新的url那么之前的那些就全部作废了.解决方法在get新的链接的之前把该爬的爬完就行了...