异步爬虫

异步爬虫

时间：2023-05-19 14:15:06浏览次数：35

标签：__ 异步 Thread 爬虫 func import main def

异步爬虫

多线程
多进程
协程

多线程与多进程

进程：运行中的程序，每次我们执行一个程序，操作系统对自动的为这个程序准备一些必要的资源（如：分配内存，创建一个能够执行的线程）

线程：程序内，可以直接被CPU调度的执行过程，是操作系统能够进行运算调度的最小单位，它被包含在进程之中，是进程中的实际运作单位

# 两种写法

# 第一种
from threading import Thread


# 创建任务
def func(name):
    for i in range(10):
        print(name, i)


def main():
    # 创建线程
    t1 = Thread(target=func, args=("周杰伦",))
    t2 = Thread(target=func, args=("马斯克",))
    t3 = Thread(target=func, args=("周星驰",))

    # 启动线程
    t1.start()
    t2.start()
    t3.start()

main()

# 第二种 用方法来写 不会

多线程写法

# 两种写法

# 第一种
from threading import Thread


# 创建任务
def func(name):
    for i in range(10):
        print(name, i)


def main():
    # 创建线程
    t1 = Thread(target=func, args=("周杰伦",))
    t2 = Thread(target=func, args=("马斯克",))
    t3 = Thread(target=func, args=("周星驰",))

    # 启动线程
    t1.start()
    t2.start()
    t3.start()

main()

多线程练习

from threading import Thread
import requests
from bs4 import BeautifulSoup

def func(index):
    url = f"http://2chsck.cc/vodtype/1-{index}.html"
    resp = requests.get(url)
    html = resp.text

    page = BeautifulSoup(html, "html.parser")

    # img
    jpg = page.findAll("a", attrs={"class": "stui-vodlist__thumb lazyload"})

    for item in jpg:
        jpgHref = item.get("data-original")
        photo = requests.get(jpgHref)
        jpgName = item.get("title")
        with open(f"images/{index}- {jpgName}.jpg", mode="wb") as f:
            f.write(photo.content)


def main():
    for i in range(101, 201):
        Thread(target=func, args=(f"{i}",)).start()
main()

线程池

# import requests
# from bs4 import BeautifulSoup
# from concurrent.futures import ThreadPoolExecutor
#
#
# def func(page):
#     url = f"https://pic.netbian.com/4kmeinv/index_{page}.html"
#     resp = requests.get(url)
#     resp.encoding = "gbk"
#     html = resp.text
#     page = BeautifulSoup(html, "html.parser")
#     ul = page.find("div", attrs={"class": "slist"})
#     img = ul.findAll("img")
#
#     for item in img:
#         src = "https://pic.netbian.com" + item.get("src")
#         photo = requests.get(src)
#         # print(src)
#         try:
#             with open(f"{src}.jpg", mode="wb") as f:
#                 f.write(photo.content)
#         except:
#             print("error")
#
#
# def main():
#     # 线程池
#     with ThreadPoolExecutor(3) as t:
#         for i in range(2, 10):
#             t.submit(func, i)
#
#
# if __name__ == "__main__":
#     main()


# ----------------------       ^待查询^        -----------------------------

from concurrent.futures import ThreadPoolExecutor

线程池案例

import requests
from lxml import etree
from concurrent.futures import ThreadPoolExecutor
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.48",
}

f = open("新发地.csv", mode="a", encoding="utf-8")


def download(url):
    resp = requests.get(url, headers=headers)
    tree = etree.HTML(resp.text)
    a_list = tree.xpath("//li[@class='market-list-item']/a")
    for a in a_list:
        span = a.xpath("./span/text()")[:4]
        s = ",".join(span)
        f.write(s)
        f.write("\n")
    print(f"{url} 已完成")

for i in range(1, 2):
    with ThreadPoolExecutor(10) as t:
        for i in range(1, 100):

            # 新发地 请求过多需要验证 待解决 2023年4月18日13:16:28
            url = f"https://www.cnhnb.com/hangqing/cdlist-2003192-0-0-0-0-{i}/"
            t.submit(download, url)

多进程

from multiprocessing import Process


def func(name):
    for i in range(1000):
        print(name, i)


if __name__ == '__main__':
    p1 = Process(target=func, args=("周杰伦",))
    p2 = Process(target=func, args=("林俊杰",))
    p1.start()
    p2.start()


"""
何时使用多线程 何时使用多进程
1. 多线程：任务相对统一，互相特别的相似
2. 多进程：多个任务相互独立，很少有交集
"""

标签：__,异步,Thread,爬虫,func,import,main,def
From： https://www.cnblogs.com/sroot/p/17414902.html

爬虫基础
爬虫概述爬虫善：不破坏被爬取的网站的资源恶：影响网站的正常运营（抢票，秒杀，使网站资源宕机）爬虫的矛与盾反爬机制反反爬策略robots.txt协议第一个爬虫fromurllib.requestimporturlopenurl="http://www.baidu.com"resp=urlopen(url)content......
#yyds干货盘点#灵活的 Node.js 多功能爬虫库 —— x-crawl
x-crawlx-crawl是一个灵活的Node.js多功能爬虫库。灵活的使用方式和众多的功能可以帮助您快速、安全、稳定地爬取页面、接口以及文件。如果你也喜欢x-crawl，可以给 x-crawl存储库点个star支持一下，感谢大家的支持！GitHub：https://github.com/coder-hxl/x-crawl特征异步同步......
Python爬虫学习之Requests库
Requests请求库Requests是⽤Python语⾔编写，基于urllib，采⽤Apache2Licensed开源协议的HTTP库。它⽐urllib更加⽅便，可以节约我们⼤量的⼯作，完全满⾜HTTP测试需求。⼀句话——Python实现的简单易⽤的HTTP库1.了解requests库requests库的介绍requests是一个优雅而简单的Py......
关于razor 异步调用的一些新鲜点，记录
很久没有写razor了，今天在做一个小工具的时候，通过查资料等，学习了新东西。关于razor通过js异步提交的问题。（不是访问特定的webapi）1.razro自带防 XSRF攻击，因而，调用后台的OnGet或者Onpost方法的时候，都会返回400错误。第一，razor页面，带上 @Html.AntiForgeryToken()第二，在startu......
SpringMVC 异步(长轮询)实现消息定点推送
$(function(){getMsg();});functiongetMsg(){$.ajax({url:"/polling/msg",type:"get",data:{},success:function(data){if(data......
WPF 异步加载数据，窗体事件
加载WPF界面时，需要获取数据，而数据返回的时间比较长，这个时候可以异步加载数据到界面。 1、首先在XAML中触发窗口载入事件 2、在后台代码中处理窗口载入事件（1）找到主窗口类（2）在MainWindow类中添加XAML中加入的窗口载入事件这个事件中可以放置各种界面预处理代码 n......
基于转子磁链定向的异步电机矢量控制系统仿真模型转速在2
基于转子磁链定向的异步电机矢量控制系统仿真模型转速在2秒由500变为1400，3秒由空载变为额定负载的图如下。转速可调。ID:88160676868051065......
异步编排多任务异步执行
参考: https://blog.csdn.net/teachy/article/details/104971814创建线程池:/***自定义线程池*intcorePoolSize,核心线程数=CPU核数*intmaximumPoolSize,最大线程数=CPU核数*2*longkeepAliveTime,等待时间,线程池线程>核心线程数,没......
通过网站日志做网络爬虫和恶意访问分析
普通爬虫分别查看有爬虫标志的访问次数和合计的总页面访问次数catwww.access.log|grepspider-ccatwww.access.log|wc查看爬虫来ip地址来源catwww.access.log|grepspider|awk'{print$1}'|sort-n|uniq-c|sort-nr在防火墙上对其地址做限制/e......
vue elementui validate异步校验改成同步校验返回结果
异步的校验 <script>import{defineComponent,ref}from'vue'exportdefaultdefineComponent({methods:{getFormDataStatus(){letresult=ref(false)this.ruleForm.validate((valid)=>{if(valid){......

多线程与多进程

多线程写法

多线程练习

线程池

线程池案例

多进程

相关文章

赞助商

阅读排行