爬取腾讯职位

爬取腾讯职位

时间：2022-12-08 21:57:27浏览次数：40

标签：url 职位 detail 爬取 urls 腾讯 position infos

# coding=gbk
import requests

from lxml import etree

import time

# 每页的职位数
PAGE_SIZE = 10

BASE_DOMAIN = 'https://hr.tencent.com/'

HEADERS = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36",
    'Referer': 'https://hr.tencent.com/position.php?lid=&tid=&keywords=python&start=10',
    'Cookie': '_ga=GA1.2.1222789966.1535530525; pgv_pvi=8193187840; pgv_si=s2985358336; PHPSESSID=22e3m8aknd19s1gqkh0i9eisk0; Hm_lvt_0bd5902d44e80b78cb1cd01ca0e85f4a=1536726429,1536908218,1537154694,1537166987; Hm_lpvt_0bd5902d44e80b78cb1cd01ca0e85f4a=1537167106'
}


def get_jo_detail_urls(page_url):
    """
	1.根据当前页面url地址获取每一个职位的详情页面url
	:param page_url:当前页面的url
	:return:
	"""
    response = requests.get(page_url, headers=HEADERS)

    html_element = etree.HTML(response.text)

    # print(etree.tostring(html_element, encoding='utf-8').decode('utf-8'))

    detail_urls = html_element.xpath('//tr[@class="even" or @class="odd"]//a/@href')

    # 获取所有职位详情页面的url
    detail_urls = map(lambda detail_url: BASE_DOMAIN + detail_url, detail_urls)

    return detail_urls


def get_detail_msg(detail_url):
    """
	2.获取某个职位的详细数据
	:param detail_url: 职位详细页面的url
	:return: 职位数据
	"""
    # print('请求的详细地址是:' + detail_url)
    response = requests.get(detail_url, headers=HEADERS)
    html_element = etree.HTML(response.text)

    position = {}

    # 获取职位标题
    title = html_element.xpath('//tr[@class="h"]/td/text()')[0]
    position['title'] = title

    # 工作地点/职位类别
    top_infos = html_element.xpath('//tr[@class="c bottomline"]//text()')
    position['location'] = top_infos[top_infos.index('工作地点：') + 1]
    position['category'] = top_infos[top_infos.index('职位类别：') + 1]

    content_infos = html_element.xpath('//ul[@class="squareli"]')
    # 工作职责
    work_do_info = content_infos[0]
    position['duty'] = work_do_info.xpath("./li/text()")

    # 工作要求
    work_ask_info = content_infos[1]
    position['ask'] = work_ask_info.xpath('./li/text()')

    return position


def spider():
    # 0.待返回的职位数据
    positions = []

    # 1.获取前10页的职位数据
    for page_num in range(0, 10):
        print('开始爬取第{}页数据'.format(page_num + 1))

        # 2.每一页的地址
        url = 'https://hr.tencent.com/position.php?keywords=python&lid=0&tid=0&start={}#a'.format(page_num * PAGE_SIZE)

        # 3.获取当前页所有职位的【详情页面的url】
        detail_urls = get_jo_detail_urls(url)

        # 4.一个个去解析详情页面的数据
        for detail_url in detail_urls:
            position = get_detail_msg(detail_url)
            positions.append(position)

        time.sleep(1)

    print('爬取完成！')
    print(positions)


if __name__ == '__main__':
    spider()

标签：url,职位,detail,爬取,urls,腾讯,position,infos
From： https://www.cnblogs.com/socoo-/p/16967448.html

腾讯地图坐标拾取器(自实现，可回调结果)
简介腾讯地图坐标拾取器。基于腾讯地图API和Layui实现类似于微信小程序wx.getLocation(Objectobject)效果。演示JQ22GitHub（优先更新!）示例<!doctypehtml><......
腾讯云服务器迁移云硬盘
使用场景：将同个地区的云服务器A上的硬盘挂在到挂载到云服务器B上（必须是同一服务地区）第一步:进入云服务A控制台用shell命令:umount+ 硬盘例如云服务器A上的硬盘目录......
Python爬虫实战，Request+urllib模块，批量下载爬取网易云音乐飙歌榜所有音乐文件
前言今天给大家介绍的是Python爬取飙歌榜所有音频数据并保存本地，在这里给需要的小伙伴们代码，并且给出一点小心得。首先是爬取之前应该尽可能伪装成浏览器而不被识别出来......
关于开机老弹出腾讯网迷你网首页，关闭后又弹出www.37ss.com的问题
endurer2006-11-06第1版有位网友的电脑开机老弹出腾讯网迷你网首页，关闭后又弹出www.37ss.com。并把HijackThis扫描的log发了过来。在log中发现如下可疑项目：/------......
2022最新可用，喜马拉雅付费音频爬取工具，给力推荐！
之前找了几个Python爬取喜马拉雅付费音频的脚本，但是无奈好多都用不了了，毕竟经常算法更新什么的，然后自己又不会写代码，太难了。找了好久，终于找到一款不需要会代码就能爬......
爬取的数据存入csv文件-用excel直接打开乱码解决方法
如图所示：解决方法：用记事本打开另存为,编码格式为ansicsv部分源码......
Python爬虫实战，requests模块，Python爬取网易云歌曲并保存本地
前言今天给大家简单演示的爬取了一下某易云歌曲的排行榜信息,最后将音乐保存到本地开发工具Python版本：3.6.4相关模块：requests模块re模块os模块环境搭建安装Pyth......
腾讯自选股如何实现单位小时内完成千万级数据运算
简介：大家好，我是枫哥，......
爬取图片并合成
爬取的网址：urlimportrequestsfromlxmlimportetreefromtimeimportsleep#爬取多页页的代码defpageTotall(num=None):foriinrange(num):#从0到68......
通过navicat 远程连接腾讯云服务器
首先开放3306端口再去mysql数据库下的user表中改权限，让被访问的user的host改为% 用腾讯云的连接，主机改成服务器的ip，用户名保持两方数据库一样运行s......

相关文章

赞助商

阅读排行