今天使用多线程来获取200页数据
公众号回复 菜价 获取源码
目标网站:
# 新发地菜价
http://www.xinfadi.com.cn/priceDetail.html
打开网站,发现是异步加载,然后点击xhr
可以看到,数据就在这里
然后我们点击负载,观察发现20代表每页展示多少条数据,不用管
current 则是代表页数
点击标头,可以看到 请求url 和 请求方法
然后敲代码
定义一个函数(任务,后期扔给线程)
用post发送请求,加上参数,然后.json()获取字典数据
接下来开始提取数据
whd.writerow(dit) 是写入
没问题,然后在最上方加入以下代码
打开csv文件,写入头部
然后在程序的入口下写上线程池,这里是50个线程
50个线程池会同时进行,50个线程都执行完毕之后,才会再接着执行
如果是单线程这里会执行的很慢,一个一个来,所以用多线程
然后for循环爬取200页数据
最后看效果
3900多行
想要源代码可以在公众号回复 菜价
代码仅供学习
感谢观看