【爬虫】多线程下载文件

时间：2023-11-20 23:14:16浏览次数：42

标签：name url 爬虫 content num print pdf 多线程下载

import requests import json from lxml import etree from concurrent.futures import ThreadPoolExecutor 导入多线程所需要的库
def mians(num): url=f"http://www.1o1o.xyz/ctfarticle.asp?offset={num}" domain="http://www.1o1o.xyz/" res=requests.get(url) res.encoding="gb2312" print(res.text) et=etree.HTML(res.text) pdf_url=et.xpath("//th/a/@href")[0:-1] pdf_name=et.xpath("//th/a/text()")[0:-2] print(pdf_url) print(pdf_name) with ThreadPoolExecutor(30) as t: 开启线程池，自动处理线程开启和关闭 for i in range(30): iamurl=domain+pdf_url[i] name=pdf_name[i] t.submit(dow,iamurl,name) print("下载完成")

'''for i in range(30): data=requests.get(domain+pdf_url[i]) pdf_content=data.content name=pdf_name[i] with open(f"E:\WP\{name}",'wb') as f: f.write(pdf_content)'''

def dow(imaurl,name): data=requests.get(imaurl) pdf_content=data.content with open(f"E:\WP\{name}",'wb') as f: f.write(pdf_content)

if __name__ == '__main__': for num in range(0,12451,30): print(num) mians(num)

标签：name,url,爬虫,content,num,print,pdf,多线程,下载
From： https://www.cnblogs.com/GGbomb/p/17845160.html

yolo v5 下载新数据集被防火墙proxy挡住，如何设置proxy. torch.hub.download_url_to_fi
当我们想运行yolov5时候，我们发现有的时候，由于网关问题，proxy会成为阻碍。例如如下错误；将代码如下修改，就能改好：1.原始代码： 2.增加proxy设置： importurllib.requestimporttorch.hub#设置代理信息proxy_support=urllib.request.ProxyHandler({'http':'http......
比官网镜像小了1GB！微软媒体创建工具已支持下载Win11 23H2
近日微软正式更新了媒体创建工具，现在用户可以通过该工具安装最新的Windows1123H2版本。微软前不久推出了Windows1123H2正式版本更新，不过当时并未更新媒体创建工具，依然停留在Windows1122H2版本，据微软表示其正在优化媒体创建工具以减少安装包体积。此次发布的新版本也没有辜......
苹果电脑 Adobe2023 全家桶 Mac 直装版最新下载安装
每一个软件都是亲测上传，都是目前最新的，简化了安装流程适用于小白，全部都是无脑直接安装。Adobe2023全家桶直装版更新日期2023-06-11，包含：AdobeIllustrator、AdobeAcrobatProDC、AdobePremierePro、AdobeAudition、AdobePhotoshop、LightroomClassic、AdobeAfter......
Java多线程消费消息
多线程消费消息关键词：Java，多线程，消息队列，rocketmq多线程一个用例之一就是消息的快速消费，比如我们有一个消息队列我们希望以更快的速度消费消息，假如我们用的是rocketmq，我们从中获取消息，然后使用多线程处理。代码地址Github实现思路不停的拉取消息将拉取的消息分片多个线程......
golang环境和第三方爬虫包下载安装一把成
复制代码在CentOS7.6中命令行中全部粘贴执行，golang环境和第三方爬虫包全部安装一把成。wgethttps://golang.google.cn/dl/go1.21.4.linux-amd64.tar.gztar-zxvfgo1.21.4.linux-amd64.tar.gz-C/usr/local/cat>>.bash_profile<<"EOF"exportGOROOT=/usr/local/goexpo......
android更改模拟器下载地址以及模拟器基本命令
一、修改模拟器下载地址模拟器存放默认路径：C:\Users\Administrator\.android\avd修改模拟器存放路径：点击androidstudio中的help--- EditCustomProperties 在弹出的文本框里输入你要存放的路径，保存即可ANDROID_AVD_HOME=D:\\二、模拟器常用命令查看模拟器列表......
【K哥爬虫普法】不要沾边！涉案 7k 合判 6 年！
我国目前并未出台专门针对网络爬虫技术的法律规范，但在司法实践中，相关判决已屡见不鲜，K哥特设了“K哥爬虫普法”专栏，本栏目通过对真实案例的分析，旨在提高广大爬虫工程师的法律意识，知晓如何合法合规利用爬虫技术，警钟长鸣，做一个守法、护法、有原则的技术人员。案情简介涉事人员......
文件的上传下载测试点
上传超大超多文件的业务：业务举例：对于rvt文件支持上传200个（1）上传了200个rvt文件后系统提交成功时间、是否保存成功、页面加载、附件下载的等性能。（2）上传文件夹后单个删除再上传等边界场景。（3）上传的进度条展示（4）上传的过程中取消（刚上传的时候取消，上传到9......
多线程
多线程创建线程的方法继承Thread类，重写run方法，线程启动调用start方法classMThreadextendsThread{@Overridepublicvoidrun(){for(inti=0;i<100;i++){if(i%2==0){System.out.println(Thread.currentTh......
当图网资源免费下载
1、登录当图网网址https://www.99ppt.com/2、选择自己想要的素材 3、点击进入详情页 4、复制地址框的地址 5、关注微信公众号：竹韵人生6、点击当图网资源下载，获取免费下载方式 ......

【爬虫】多线程下载文件

相关文章

赞助商

阅读排行