分布式爬虫架构

Author： ModerRAS
发布时间：September 3, 2017
3830 views
No comments
423 words
Categories：默认分类

写在开始

最近有在看一点分布式爬虫的一点东西,然后找到了一点关于分布式爬虫的架构的设计,这里收藏一下.

架构

其实很简单的说,这个架构是从知乎里面一个人的回答的一个问题里面扒出来的.

这个架构把一个爬虫拆成了三部分:

下载网页的部分
抓取数据的部分
持久化的部分
如果我没记错的话.

然后这里面又有一些其他的细节.

下载网页的部分和抓取数据的部分是通过一个消息中间件来连接起来的.
抓取数据的部分和持久化的部分也是通过一个消息中间件来连接的.
持久化部分持久化的数据如果还可以继续爬那么就通过消息中间件来发送到下载网页那部分,实现循环爬取
这个爬虫的下载网页的部分和抓取数据的部分和持久化的部分都是有多个的,而且可以分布在多台机器上.

写在最后

这个架构看起来还是不错,但是可能实现起来个人感觉有些地方可能不是很好弄,所以这个架构仅供收藏了.

Last modification：January 27, 2020

© Allow specification reprint

如果觉得我的文章对你有用，请随意赞赏

Leave a Comment Cancel reply
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

Comment *

Private comment

Name *

🎲

Email *

Site

逸云
在typecho里面打开debug看看呢，还有发表评论的这个邮...
together
是的，去广告还是客户端浏览器装插件靠谱。路由器上的去广告插件粗...
sure
确实有过此类经历
m的二次方
这样会导致所有请求都走https，我的镜像都拉不到了
赵皓阳
一直想找个好用的服务器搭个博客国内大的厂商限制太严格了