首页 > 其他分享 >6、采集公共数据平台归集任务

6、采集公共数据平台归集任务

时间:2023-12-15 17:33:57浏览次数:31  
标签:count name headers cfg 公共数据 任务 采集 归集 data

1、数据需求:

采集当前配置任务及子任务的详细信息,页面请求返回数据是json格式。

 

# -*- coding: utf-8 -*-
# 爬取公共数据平台数据归集任务

import math
import re
import pandas as pd
import requests

#初始化参数
all_data =[]
all_data2=[]
def directory_list(cookie,Authorization):
    global items , items2
    url = 'https://dcollect.wenzhou.gov.cn/dg_job/v1/cfg/?cycle=&engine=&only_self=false&job_type=&catalog=&source_data_source=&page=4&size=10&search='
    #请求头
    headers = {
            "Accept": "application/json, text/plain, */*",
            "Accept-Encoding": "gzip, deflate, br",
            "Accept-Language": "zh-CN,zh;q=0.9",
            "Authorization": Authorization,
            "Connection": "keep-alive",
            "Cookie":  cookie,
            "Referer": "https://dcollect.wenzhou.gov.cn/home/jobconfig/cfg",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
        }
    response = requests.get(url, headers=headers).text
    #获取总页数
    count=re.findall(r'"count":(.*?),"next"',response,re.S)[0]
    pages=math.ceil(int(count)/10)
    for page in range(1,pages+1):
        url=f'https://dcollect.wenzhou.gov.cn/dg_job/v1/cfg/?cycle=&engine=&only_self=false&job_type=&catalog=&source_data_source=&page={page}&size=10&search='
        # response=requests.get(url, headers=headers).text
        response = requests.get(url, headers=headers).json()
        # print(response)
        items = response['data']
        for data in items:
            # 获取id
            id = data['id']
            # 获取任务名称
            name = data['name']
            # 获取联系人
            contact = data['contact']
            # 获取联系电话
            contact_phone = data['contact_phone']
            # 获取子任务数量
            sub_cfg_count = data['sub_cfg_count']
            # 获取周期类型
            cycle_name = data['cycle_name']
            # 获取创建时间
            create_time = data['create_time']
            # 获取更新时间
            update_time = data['update_time']
            all_data.append(
                {
                    'id': id,
                    '任务名称':name,
                    '联系人':contact,
                    '联系电话':contact_phone,
                    '子任务数量':sub_cfg_count,
                    '周期类型':cycle_name,
                    '创建时间':create_time,
                    '更新时间':update_time
                }
            )
            url2 = f'https://dcollect.wenzhou.gov.cn/dg_job/v1/sub_cfg/?cfg={id}&size={sub_cfg_count}&page=1&job_type='
            response2=requests.get(url2, headers=headers).json()
            items2= response2['data']
            for data in items2:
                name2 = data['name']
                all_data2.append({
                '子任务': name2
                })
        # 将数据保存为Excel文件
        df = pd.DataFrame(all_data)
        df2 = pd.DataFrame(all_data2)
        df.to_excel('公共数据平台归集任务数据采集.xlsx', index=False)
        df2.to_excel('公共数据平台归集任务数据采集-子任务.xlsx', index=False)
#授权、cookie 都具有时效性每次执行获取最新
Authorization='******'
cookie='******'
directory_list(cookie,Authorization)

标签:count,name,headers,cfg,公共数据,任务,采集,归集,data
From: https://www.cnblogs.com/lvjing/p/17903844.html

相关文章

  • 振弦采集仪:科技引领,保障工程可靠性
    振弦采集仪:科技引领,保障工程可靠性振弦采集仪是一种能够测量和记录振弦信号的仪器设备。它利用振弦传感器将振弦信号转化为电信号,然后使用数据采集系统将信号采集并处理。振弦采集仪广泛应用于工程领域,可用于监测和评估各种结构的振动性能,以保障工程的可靠性。 振弦采集仪的......
  • AD采集卡设计方案:630-基于PCIe的高速模拟AD采集卡
    基于PCIe的高速模拟AD采集卡一、产品概述   基于PCIe的一款分布式高速数据采集系统,实现多路AD的数据采集,并通过PCIe传输到存储计算服务器,实现信号的分析、存储。    产品固化FPGA逻辑,适配2路1Gsps/2路2Gsps采集,实现PCIe的触发采集,单次采集容量2GB,开源......
  • 综合设计——多源异构数据采集与融合应用综合实践
    综合设计——多源异构数据采集与融合应用综合实践[码云地址](多源异构数据采集与融合应用综合实践:CallofSilence数据采集与融合综合实验(gitee.com))这个项目属于哪个课程2023数据采集与融合技术组名、项目简介组名:CallofSilence项目需求:设计出一个交互友好的......
  • 综合设计——多源异构数据采集与融合应用综合实践
    综合设计——多源异构数据采集与融合应用综合实践​这个项目属于哪个课程2023数据采集与融合技术组名、项目简介组名:Double20000、项目需求:设计出一个交互友好的多源异构数据的采集与融合的小应用、项目目标:通过在网页中上传文本、图片、视频或音频分析其中的情感......
  • 综合设计——多源异构数据采集与融合应用综合实践
    多源异构数据采集与融合应用综合实践这个项目属于哪个课程https://edu.cnblogs.com/campus/fzu/2023DataCollectionandFusiontechnology组名、项目简介组名:泥头车项目需求:设计一个包含视频、文本、图片、音频的多源异构数据采集与融合的、能够判断相关性、客观性......
  • 综合设计——多源异构数据采集与融合应用综合实践
    综合设计——多源异构数据采集与融合应用综合实践​这个项目属于哪个课程2023数据采集与融合技术组名、项目简介组名:Double20000、项目需求:设计出一个交互友好的多源异构数据的采集与融合的小应用、项目目标:通过在网页中上传文本、图片、视频或音频分析其中的情感......
  • 综合设计——多源异构数据采集与融合应用综合实践
    多源异构数据采集与融合应用综合实践这个项目属于哪个课程https://edu.cnblogs.com/campus/fzu/2023DataCollectionandFusiontechnology组名、项目简介组名:泥头车项目需求:设计一个包含视频、文本、图片、音频的多源异构数据采集与融合的、能够判断相关性、客观性......
  • 多源异构数据采集与融合应用综合实践
    这个项目属于哪个课程2023数据采集与融合技术(福州大学-福州大学计算机与大数据学院)组名、项目简介组名:你在跟我作队项目需求:(1)音视频转文字准确性(2)实时性(3)多语种支持(4)扩展性项目目标:①搭建轻量级网站平台提供交互。②利用大模型及第三方库解析音视频及图......
  • 多源异构数据采集与融合应用综合实践
    多源异构数据采集与融合应用综合实践这个项目属于哪个课程https://edu.cnblogs.com/campus/fzu/2023DataCollectionandFusiontechnology组名、项目简介组名:泥头车项目需求:设计一个包含视频、文本、图片、音频的多源异构数据采集与融合的、能够判断相关性、客观性......
  • 综合设计——多源异构数据采集与融合应用综合实践
    项目代码这个项目属于哪个课程2023数据采集与融合技术组名、项目简介组名:Double20000、项目需求:设计出一个交互友好的多源异构数据的采集与融合的小应用、项目目标:通过在网页中上传文本、图片、视频或音频分析其中的情感、项目开展技术路线:前端3件套、Python、fasta......