首页 > 系统相关 >python爬虫预备知识三-多进程

python爬虫预备知识三-多进程

时间:2024-08-06 21:53:19浏览次数:11  
标签:__ process python 预备 爬虫 进程 getpid print os

python实现多进程的方法:fork、multiprocessing模块创建多进程。

os.fork方法

os.fork方法只适合于unix/linux系统,不支持windows系统。

fork方法调用一次会返回两次,原因在于操作系统将当前进程(父进程)复制出一份进程(子进程),这两个进程几乎完全相同,fork方法分别在父进程和子进程中返回,子进程永远返回0,父进程返回子进程的ID,

例子:

import os

if __name__ == '__main__':
    print('current process(%s) start...'%(os.getpid()))
    pid = os.fork()
    if pid < 0:
        print('error in fork')
    elif pid == 0:
        print('i am child process(%s) and my parent process is (%s)',(os.getpid()),os.getpid())
    else:
        print('i(%s) created a child process (%s).',(os.getpid(),pid))

使用multiprocessing模块

使用multiprocessing模块的Process类来描述一个进程对象。创建时传入一个需要多进程执行的函数和函数的参数即可。

start方法:启动进程。

join方法:实现进程间的同步。

例子:

import os
from multiprocessing import Process

def run_proc(name):
    print('child process %s (%s) running...'%(name,os.getpid()))

if __name__ == '__main__':
    print('parent process %s.'% os.getpid())
    for i in range(5):
        p = Process(target=run_proc,args=(str(i),))
        print('process will start.')
        p.start()
    p.join()
    print('process end.')

但是如果创建大量的进程的话,应当使用进程池

multiprocessing模块进程池实现

可以使用multiprocessing模块的Pool类实现一个进程池,进程的数量默认是cpu的核数。当有新的请求时,如果进程的数量没有达到最大值,那么就会创建一个新的进程,如果进程的数量达到最大值,那么请求就会等待直到进程池中有进程结束,才会创建新的进程来处理这个请求。

例子:创建一个容量为3的进程池,运行5个任务。通过进程pid可以看到始终只有三个进程在执行。

import os,time,random
from multiprocessing import Pool

def run_task(name):
    print('task %s (pid=%s) is running...'% (name,os.getpid()))
    time.sleep(random.random() * 3)
    print('task %s end.'%name)

if __name__=='__main__':
    print('current process %s.'%os.getpid())
    p = Pool(processes=3)
    for i in range(5):
        p.apply_async(run_task,args=(i,))

    print('waiting for all subprocesses done...')
    p.close()
    p.join()
    print('all subprocess done.')

Pool对象调用join方法会等待所有子进程执行完毕,调用join方法之前必须调用close方法,调用close方法不能再添加新的Process。

标签:__,process,python,预备,爬虫,进程,getpid,print,os
From: https://blog.csdn.net/buw369521/article/details/140967303

相关文章

  • PEP 8 – Python 代码风格指南中文版(七)
    编程建议(2) 定义异常时,应该从Exception类继承,而不是从BaseException类继承。直接从BaseException继承的异常通常是那些几乎不应该被捕获的异常。设计异常层次结构时,应该基于捕获异常的代码可能需要进行的区分,而不是基于异常被抛出的位置。目标是通过编程方式回答“出了......
  • 爬虫简易说明
    想必大家都了解爬虫,也就是爬取网页你所需要的信息相比于网页繁多的爬虫教程,本篇主要将爬虫分为三个部分,以便你清楚,代码的功能以及使用,这三部分分别为1.获取到源代码2.根据网页中的标签特征,获取源代码你所需要的部分3.想一下如何根据页面的逻辑将一系列的网页自动化抓取接下来......
  • Python-记录一次迭代求和
    importitertoolsdefget_result(hope,list_input):""":paramhope:#期望相加所得参数:paramlist_input:#所有数值:return:"""defgenerate_combination(items,length):forcombinationinitertools.co......
  • 如何使用 Python 进行数据可视化,比如绘制折线图?
    要使用Python进行数据可视化,可以使用matplotlib库来绘制折线图。以下是一个简单的示例代码:首先,确保已安装matplotlib库。可以使用以下命令安装:pipinstallmatplotlib在Python脚本中导入matplotlib库:importmatplotlib.pyplotasplt准备数据,以x和y坐标列表的形式存......
  • Python 中的生成器函数有什么作用及如何使用?
    生成器函数是一种特殊的函数,可以在迭代过程中动态生成值,而不是一次性返回所有值。它的作用有以下几点:节省内存:生成器函数一次只生成一个值,并在生成后立即释放内存,这样可以减小内存的占用,特别是在处理大数据集时非常有用。延迟计算:生成器函数可以按需生成值,只在需要的时......
  • Python、R银行信用卡客户流失机器学习预测热门文章合集
    原文链接:https://tecdat.cn/?p=37244原文出处:拓端数据部落公众号 分析师: CengjunWang目前,众多银行由于服务质量的降低、同业竞争的日益激烈等因素,面临着信用卡客户流失的棘手难题,这给银行经理施加了沉重的压力。而且,获取新的信用卡用户所需成本通常高于维持现有用户的成本。......
  • Python动态规划
    Python动态规划动态规划(DynamicProgramming,简称DP)是解决多阶段决策过程最优化问题的一种方法。动态规划算法的基本思想是:将待求解的问题分解成若干个相互联系的子问题,先求解子问题,然后从这些子问题的解得到原问题的解;对于重复出现的子问题,只在第一次遇到的时候对它进行求解,......
  • python-分享篇-英文短文自动分词写入文本文件
    文章目录准备代码效果准备代码importstringf=open('./data/split.txt')s=f.read()str1=s.title()print(str1)print("".join([sforsinstr1.splitlines(True)ifs.strip()]))list1=str1.split()#采用默认分隔符进行分割#字符串列表去重l1=list(s......
  • C++ 学习预备知识
    1C++简介 1.1起源    C++与C语言一样,也是在贝尔实验室诞生的,名称C++来自C语言中的递增运算符++,该运算符将变量加1。这也表明,C++是C语言的扩充版本。    C++融合了3种不同的编程方式:C语言代表的过程性语言、C++在C语言基础上添加的类代表的面向对象语言、C+......
  • 【学习笔记】Matlab和python双语言的学习(最大最小化规划)
    文章目录前言一、最大最小化规划二、选址问题三、代码实现----Matlab1.Matlab的`fminimax`函数2.Matlab代码四、代码实现----python总结前言通过模型算法,熟练对Matlab和python的应用。学习视频链接:https://www.bilibili.com/video/BV1EK41187QF?p=28&vd_sour......