爬虫学习起来并不难,网上有很多这块的教程;但如果需要深入学习一些复杂的爬虫,就得搞懂一些算法,不断优化后,就可以编写一个牛逼的爬虫了。
掌握基本的爬虫工作原理之后,先学习下Scrapy,然后是Bloom Filter: https://llimllib.github.io/bloomfilter-tutorial/。
如果需要大规模网页抓取,需要学习下分布式爬虫的概念。其实也不难,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。
但不管你写的爬虫有多牛逼,总之需要一个云服务器,不然压根跑不起来。
标签:需要,爬虫,学习,不难,搭建,分布式 From: https://www.cnblogs.com/zeenzhou/p/16599147.html