首页 > 其他分享 >站长素材免费简历模板爬取

站长素材免费简历模板爬取

时间:2022-11-21 12:22:22浏览次数:39  
标签:down 简历 name url text 爬取 headers print 模板

import requests
import os
from lxml import etree

if __name__ == '__main__':
    # 如果没有JianLi文件夹存在 则创建文件夹
    if not os.path.exists('./JianLi'):
        os.makedirs('./JianLi')
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36 Edg/89.0.774.48'
    }
    url = 'https://sc.chinaz.com/jianli/free.html'
    page_text = requests.get(url=url, headers=headers).text
    # print(page_text)
    tree = etree.HTML(page_text)
    # print(tree)
    all_src = tree.xpath('//div[@class="sc_warp  mt20"]//p/a/@href')
    # print(all_src)
    for src in all_src:
        all_srcs = 'https:' + src
        # print(all_srcs)
        jianli_content = requests.get(url=all_srcs, headers=headers).text
        # print(jianli_url)
        tree = etree.HTML(jianli_content)
        down_url_list = tree.xpath('//div[@class="down_wrap"]//ul/li/a/@href')[0]
        jianli_data = requests.get(url=down_url_list, headers=headers).content
        # print(down_url_list)
        # name = down_url_list.split('/')[-1]
        name = tree.xpath('//div[@class="ppt_tit clearfix"]/h1/text()')[0] + '.rar'
        down_name = name.encode('ISO-8859-1').decode('UTF-8')
        # print(name,down_name)
        JianLi_path = './JianLi/' + down_name
        with open(JianLi_path, 'wb') as fp:
            fp.write(jianli_data)
        print(down_name, '下载成功!!!')
    print('下载完成!!!')

标签:down,简历,name,url,text,爬取,headers,print,模板
From: https://www.cnblogs.com/yangSad/p/16911051.html

相关文章

  • Python爬取酷狗音乐Top500首歌曲并下载到本地
    #@Author:林云#@Time:2022/11/2018:05#@File:KuGouYinyue.py#@Project:PycharmProjectsimportjsonimportosfromtimeimportsleepimportrequestsfromlx......
  • P4556 [Vani有约会]雨天的尾巴 /【模板】线段树合并
    有一说一,雨天的尾巴我其实骂了很久。主要是题面之前一直没耐心读,然后后面在其他地方看到了形式化题意,就做掉了。其实感觉有很多题都比这玩意适合当板子,所以这个迟到的板子......
  • python爬取招聘网岗位(仅供学习)
    1、某某**集招**信息2、使用到了requests,bs4,openpyxl,time模块(1)分析页面,发送请求,并把请求返回定义为一个模块。url='https://***.*****.com/company/{0}/jobs/?n={1}'.f......
  • c++:模板
    一、模板的基本概念c++除了面向对象的编程思想之外,还有泛型编程,主要技术是模板。c++提供两种模板机制:函数模板,类模板。函数模板:建立一个通用函数,其函数返回值和形参类型......
  • 街景爬取/百度街景爬取/谷歌街景爬取/街道全景图/历史街景数据获取
    相信许多朋友都有街景图像分析的需求,这时便需要爬取公开的百度街景,如果是境外的城市,就需要从谷歌街景上爬取数据。街景获取的重要参数关于街景的爬取,不管是百度街景......
  • 遗传算法 模板
    利用python中的geatpy库实现单目标和多目标优化importnumpyasnpimportgeatpyaseaclassMyProblem(ea.Problem):#继承Problem父类def__init__(self):......
  • 爬取笔趣阁小说-xpath
    1、获取小说标题、详情页链接url='https://www.bqg99.com/book/109323/'list_html=requests.get(url=url,headers=headers)selector=etree.HTML(list_html.text)lis=s......
  • 4. Vue 【进阶】- 模板引擎
    Vue【进阶】-模板引擎vue的源码学习流程和知识点分析本次您将学习到的东西前期准备1.简介1.1什么是模板引擎模板引擎是将数据要变为视图最优雅的解决方案1......
  • Idea Live Templates 代码模板
    我们每天都在写代码,有些代码有结构性的相似,但不是所有的代码都可以被抽成方法。在这种情况下,我们应该考虑使用template的方式加快我们的开发速度。这篇文章会先介绍Intell......
  • CTF模板注入入门学习
    对于知识框架的了解,站在巨人的肩膀梭哈大佬文章,很全很nice:https://blog.csdn.net/LYJ20010728/article/details/120205725?ops_request_misc=%257B%2522request%255Fid%25......