首页 > 其他分享 >国资央企招聘平台的招聘信息爬取

国资央企招聘平台的招聘信息爬取

时间:2024-07-25 19:18:46浏览次数:8  
标签:__ name 央企 company 招聘 爬取 job data cn

前言

国资央企招聘平台集成了众多国企央企的招聘。写一个脚本实现一下各个岗位的招聘

接口

当抓包的时候发现,这些岗位信息都是通过接口发布的。因此可以通过获取这个接口的数据爬取。
image

编写代码:

'''
基于国资央企招聘平台的招聘信息。
https://cujiuye.iguopin.com/
'''


import requests
class get_guoqi_job():
    def __init__(self):
        self.url = "https://gp-api.iguopin.com/api/jobs/v1/list"

        self.headers = {
            "Content-Type": "application/json;charset=UTF-8",
            "Accept": "application/json, text/plain, */*",
            "Device": "pc",
            "Subsite": "cujiuye",
            "Version": "5.0.0",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36"
        }

    '''
    默认关键词 keyword = 网络安全 信息安全,工作数量爬取最大为200,页数为1,如果工作数量大于等于200,将page改为2再次爬取.
    直接调用 get_guoqi_job()
    关键词调用:
    get_guoqi_job('销售‘)
    '''

    def __call__(self,keyword='网络安全 信息安全',job_num=200 , page=1):
        data = {
            "page": page,
            "page_size": job_num,
            "keyword": keyword,
            "nature": ["115xW5oQ"]
        }

        response = requests.post(self.url, json=data, headers=self.headers)


        jobs = []
        # 打印响应的 JSON 内容
        res_json = response.json()

        data = res_json['data']
        # print(data)
        data_list = data['list']
        print(f'-------------有{len(data_list)}个相关{keyword}岗位正在校招-------------')
        num =1
        for company in data_list:
            job_id = company['job_id']
            job_url = 'https://www.iguopin.com/job/detail?id=' + str(job_id)
            job_name = company['job_name']
            company_name = company['company_name']
            salary = str(company['min_wage']) + '-' + str(company['max_wage'])
            education_cn = company['education_cn']
            contents = company['contents']
            area_cn = company['district_list'][0]['area_cn']
            start_end_time = company['start_time'] + '——' + company['end_time']
            company_info = company['company_info']['nature_cn']
            print('岗位:',job_name, '工作地点:', area_cn, '薪资:', salary, education_cn)
            print('公司:', company_name , company_info)
            print('岗位链接:', job_url)
            print('招聘时间:', start_end_time)
            print('职位要求:', contents)
            print(f'------------------------------------------------------{num}')
            num +=1
            job = {
                '岗位' : job_name,
                '工作地点': area_cn,
                '薪资': salary,
                '学历': education_cn,
                '公司信息': company_name + ' ' + company_info,
                '岗位链接:': job_url,
                '招聘时间':start_end_time,
                '职位要求': contents

            }
            jobs.append(job)
        return jobs

if __name__ == '__main__':

    get = get_guoqi_job()
    get()

效果:
image

网页爬虫

暂时不。

标签:__,name,央企,company,招聘,爬取,job,data,cn
From: https://www.cnblogs.com/iruan/p/18323973

相关文章

  • 爬虫爬取免费代理ip(附源码)
    在爬取某些网站的时候我们有可能遇到ip反爬措施,通常可以使用代理ip的方法应对,本次我们要爬取的是国内某知名的代理ip网站,并挑选出其中响应速度符合我们要求的IP。爬取代码如下:defget_ip(last):proxies_list=[]#ip池forpageinrange(1......
  • python中scrapy爬取数据get()与getall()区别
    在使用scrapy进行爬取数据的时候,有些时候需要爬取的是一段文本,或者一个div里面有很多内容,这时候我们就要使用到get()或者getall()来获取数据: get():是获取的满足条件的第一个数据。getall():是获取的满足条件的所有数据。scrapyget()getall()原理在Scrapy中,get(......
  • pyqt5-网易云热歌列表爬取
    利用pyqt5实现网易云热歌列表爬取简单思路说明:利用QScrollArea滚动显示,QFlowLayout做布局,放置自定义的WidgetQNetworkAccessManager异步下载网页和图片QScrollArea滚动到底部触发下一页加载自定义控件说明:主要是多个layout和控件的结合,其中图片QLabel为自定义,通过setPixmap......
  • 24年广东“双百社工”招聘报名流程详细步骤
    还在蹲公告的宝子们注意啦!......
  • 利用request + BeautifulSoup 模块批量爬取内容,实现批量获取书名对应的豆瓣评分
    文章目录代码代码解释控制台输出结果代码#-*-coding:utf-8-*-frombs4importBeautifulSoupimportrequests,time,jsonheaders={"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/79.0.394......
  • 爬虫:爬取王者荣耀技能信息
    爬虫:爬取王者荣耀技能信息(代码和代码流程)代码#王者荣耀英雄信息获取importtimefromseleniumimportwebdriverfromselenium.webdriver.common.byimportByif__name__=='__main__':fp=open("./honorKing.txt","w",encoding='utf8')#......
  • 《0基础》学习Python——第二十四讲__爬虫/<7>深度爬取
    一、深度爬取        深度爬取是指在网络爬虫中,获取网页上的所有链接并递归地访问这些链接,以获取更深层次的页面数据。        通常,一个简单的爬虫只会获取到初始页面上的链接,并不会进一步访问这些链接上的其他页面。而深度爬取则会不断地获取链接,并继续访问......
  • 哔哩哔哩_B站_Bilibili视频弹幕爬取与数据分析python
    ​B站弹幕爬取与数据分析一、项目背景在互联网时代,用户生成内容(UGC)成为了研究社交行为和文化趋势的重要数据来源。B站(哔哩哔哩)作为一个主要的弹幕视频分享平台,聚集了大量的用户评论和互动数据。弹幕作为一种实时的用户反馈形式,具有即时性和高互动性的特点,为数据分析提供了丰富......
  • Python爬虫实战案例(爬取文字)
    爬取豆瓣电影的数据首先打开"豆瓣电影Top250"这个网页:按F12,找到网络;向上拉动,找到名称栏中的第一个,单机打开;可以在标头里看到请求URL和请求方式,复制URL(需要用到);在表头的最下面有"User-Agent",也复制下来(也可以下载pipinstallfake_useragent库,用别人写好的UA)。定位......
  • 爬虫爬取网页的信息与图片的方法
    爬虫爬取网页的信息与图片的方法爬取人物信息importrequestshead={"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/126.0.0.0Safari/537.36Edg/126.0.0.0"}#这是get请求带参数的模式defget......