当单线程python爬虫已经不能满足企业需求时,很多程序员会进行改代码或者增加服务器数量,这样虽说也能达到效果,但是对于人力物力也是一笔不小的消耗。如果是技术牛点的,正常都会自己重新改写多线程代码来实现海量数据的获取。下面就是有关python多线程的代码示例。 前期准备 python3、正则表达式库 re、多线程库 multiprocessing 、和第三方库 requests 。安装到这里就差不多了。 引入库
import requests import re from multiprocessing.dummy import Pool多线程 到底什么是多线程?说起多线程我们首先从单线程来说。例如,我在这里看书,等这件事情干完,我就再去听音乐。对于这两件事情来说都是属于单线程,是一个完成了再接着完成下一个。但是我一般看书一边听歌,同时进行,这个就属于多线程了。 之前文章中是一页一页的爬。现在我们把他改成三页三页的爬(可以更加需求添加爬取页数)。 python是如何使用多线程的
# 创建三个线程 pool = Pool(3); # 爬取的页码放在一个列表里 [1,2,3,...,9] orign_num = [x for x in range(1,10)]; # 通过映射返回结果列表 result = pool.map(scrapy,orign_num);pool.map 是使用了映射,把 orign_num 里的每一个数值传给 scrapy ,并返回到对应的结果里。 爬取一页的代码示例
regex = r"<a href=\"(.*)\">[\s]*?<h2 class=\"post-title\">[\s]*(.*)[\s]*</h2>[\s\S]*?</a>" def scrapy(index): page_url = ''; if index>1: page_url=f'page{index}/' url=f'Page not found · GitHub Pages'; html=requests.get(url); if html.status_code == 200: html_bytes=html.content; html_str=html_bytes.decode(); all_items=re.findall(regex,html_str); write_content='' for item in all_items: write_content=f'{write_content}\n{item[1]}\nhttp://lamyoung.com{item[0]}\n' return write_content else: return ''把结果给存起来
write_content = ''; for c in result: write_content+=c; with open('lamyoung_title_multi_out.txt','w',encoding='utf-8') as f: f.write(write_content)我们这次多线程用到的是 multiprocessing.dummy 里的 Pool 。利用map 映射出每一页的爬虫结果。 标签:write,re,Python,编程,content,url,html,多线程 From: https://www.cnblogs.com/q-q56731526/p/17108227.html