首页 > 其他分享 >【爬虫】多线程下载文件

【爬虫】多线程下载文件

时间:2023-11-20 23:14:16浏览次数:31  
标签:name url 爬虫 content num print pdf 多线程 下载

import requests       import json from lxml import etree from concurrent.futures import ThreadPoolExecutor         导入多线程所需要的库
def mians(num):     url=f"http://www.1o1o.xyz/ctfarticle.asp?offset={num}"     domain="http://www.1o1o.xyz/"     res=requests.get(url)     res.encoding="gb2312"     print(res.text)     et=etree.HTML(res.text)     pdf_url=et.xpath("//th/a/@href")[0:-1]     pdf_name=et.xpath("//th/a/text()")[0:-2]     print(pdf_url)     print(pdf_name)     with ThreadPoolExecutor(30) as t:         开启线程池,自动处理线程开启和关闭         for i in range(30):             iamurl=domain+pdf_url[i]             name=pdf_name[i]             t.submit(dow,iamurl,name)     print("下载完成")        

'''for i in range(30):         data=requests.get(domain+pdf_url[i])         pdf_content=data.content         name=pdf_name[i]         with open(f"E:\WP\{name}",'wb') as f:             f.write(pdf_content)'''

def dow(imaurl,name):     data=requests.get(imaurl)     pdf_content=data.content     with open(f"E:\WP\{name}",'wb') as f:         f.write(pdf_content)

if __name__ == '__main__':     for num in range(0,12451,30):         print(num)         mians(num)

标签:name,url,爬虫,content,num,print,pdf,多线程,下载
From: https://www.cnblogs.com/GGbomb/p/17845160.html

相关文章

  • yolo v5 下载新数据集被防火墙proxy挡住,如何设置proxy. torch.hub.download_url_to_fi
    当我们想运行yolov5时候,我们发现有的时候,由于网关问题,proxy会成为阻碍。例如如下错误;  将代码如下修改,就能改好:1.原始代码: 2.增加proxy设置: importurllib.requestimporttorch.hub#设置代理信息proxy_support=urllib.request.ProxyHandler({'http':'http......
  • 比官网镜像小了1GB!微软媒体创建工具已支持下载Win11 23H2
    近日微软正式更新了媒体创建工具,现在用户可以通过该工具安装最新的Windows1123H2版本。微软前不久推出了Windows1123H2正式版本更新,不过当时并未更新媒体创建工具,依然停留在Windows1122H2版本,据微软表示其正在优化媒体创建工具以减少安装包体积。此次发布的新版本也没有辜......
  • 苹果电脑 Adobe2023 全家桶 Mac 直装版 最新下载安装
    每一个软件都是亲测上传,都是目前最新的,简化了安装流程适用于小白,全部都是无脑直接安装。Adobe2023全家桶直装版更新日期2023-06-11,包含:AdobeIllustrator、AdobeAcrobatProDC、AdobePremierePro、AdobeAudition、AdobePhotoshop、LightroomClassic、AdobeAfter......
  • Java多线程消费消息
    多线程消费消息关键词:Java,多线程,消息队列,rocketmq多线程一个用例之一就是消息的快速消费,比如我们有一个消息队列我们希望以更快的速度消费消息,假如我们用的是rocketmq,我们从中获取消息,然后使用多线程处理。代码地址Github实现思路不停的拉取消息将拉取的消息分片多个线程......
  • golang环境和第三方爬虫包下载安装一把成
    复制代码在CentOS7.6中命令行中全部粘贴执行,golang环境和第三方爬虫包全部安装一把成。wgethttps://golang.google.cn/dl/go1.21.4.linux-amd64.tar.gztar-zxvfgo1.21.4.linux-amd64.tar.gz-C/usr/local/cat>>.bash_profile<<"EOF"exportGOROOT=/usr/local/goexpo......
  • android更改模拟器下载地址以及模拟器基本命令
    一、修改模拟器下载地址模拟器存放默认路径:C:\Users\Administrator\.android\avd修改模拟器存放路径:点击androidstudio中的help--- EditCustomProperties 在弹出的文本框里输入你要存放的路径,保存即可ANDROID_AVD_HOME=D:\\二、模拟器常用命令查看模拟器列表......
  • 【K哥爬虫普法】不要沾边!涉案 7k 合判 6 年!
    我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用爬虫技术,警钟长鸣,做一个守法、护法、有原则的技术人员。案情简介涉事人员......
  • 文件的上传下载测试点
    上传超大超多文件的业务:业务举例:对于rvt文件支持上传200个 (1)上传了200个rvt文件后系统提交成功时间、是否保存成功、页面加载、附件下载的等性能。 (2)上传文件夹后单个删除再上传等边界场景。 (3)上传的进度条展示 (4)上传的过程中取消(刚上传的时候取消,上传到9......
  • 多线程
    多线程创建线程的方法继承Thread类,重写run方法,线程启动调用start方法classMThreadextendsThread{@Overridepublicvoidrun(){for(inti=0;i<100;i++){if(i%2==0){System.out.println(Thread.currentTh......
  • 当图网资源免费下载
    1、登录当图网网址https://www.99ppt.com/2、选择自己想要的素材 3、点击进入详情页  4、复制地址框的地址 5、关注微信公众号:竹韵人生6、点击当图网资源下载,获取免费下载方式  ......