首页 > 其他分享 >网络爬虫及openyxl模块

网络爬虫及openyxl模块

时间:2022-10-26 19:13:47浏览次数:40  
标签:name list openyxl excel 爬虫 模块 pip company

网络爬虫及openyxl模块

一、第三方模块简介

1.第三方模块的用处

    python之所以在这么多的编程语言中脱颖而出的优点是有众多的第三方库函数,可以更高效率的实现开发

2.第三方模块的使用

1.第三方模块必须下载才能使用
 格式:pip install 模块名 -i 源地址
        清华大学 :https://pypi.tuna.tsinghua.edu.cn/simple/
        阿里云:http://mirrors.aliyun.com/pypi/simple/
        中国科学技术大学 :http://pypi.mirrors.ustc.edu.cn/simple/
        华中科技大学:http://pypi.hustunique.com/
        豆瓣源:http://pypi.douban.com/simple/
        腾讯源:http://mirrors.cloud.tencent.com/pypi/simple
        华为镜像源:https://repo.huaweicloud.com/repository/pypi/simple/
2.可在终端借助pip工具下载
格式:
    下载第三方模块的句式:pip install 模块名
    下载第三方模块临时切换仓库的句式:pip install 模块名 -i 仓库地址
    下载第三方模块指定版本(不指定默认是最新版):pip install 模块名 == 版本号 -i 仓库地址
注:在下载解释器pip解释器工具的时候,电脑上有多个版本的解释器时一定要注意到底用的是哪一个,在使用或者添加的时候一定要看清楚对应的版本号
3.在pycharm中也可以直接下载
图片名称

3.下载第三方模块的注意点

1.pip版本过低并有警告信息
 # WARNING: You are using pip version 20.3.1; 
 原因是pip版本过低,只需要输入命令行更新模块就好了
 python -m pip install --upgrade pip
2.报错含有Timeout关键字
  说明当前计算机的网络不稳定,只需要换网或者程序执行几次即可
3.报错没有关键字
  将关键字复制到百度进行搜索,然后进行解决
4.下载速度很慢
  		pip默认下载的仓库地址是国外的 python.org
		我们可以切换下载的地址
		pip install 模块名 -i 仓库地址
		pip的仓库地址有很多 百度查询即可

二、网络爬虫基础实战

import requests
import re

headers = {
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}
res = requests.get('http://www.redbull.com.cn/about/branch', headers=headers)
data = res.text
res.encoding = 'utf-8'  # 可以直接用utf-8对数据进行转码
with open(r'hn.html', 'wb') as f:
    f.write(res.content)
# 1.获取所有的分公司名称
company_name_list = re.findall('<h2>(.*?)</h2>', data)
# 2.获取所有的分公司地址
company_addr_list = re.findall("<p class='mapIco'>(.*?)</p>", data)
# 3.获取所有的分公司邮箱
company_email_list = re.findall("<p class='mailIco'>(.*?)</p>", data)
# 4.获取所有的分公司电话
company_phone_list = re.findall("<p class='telIco'>(.*?)</p>", data)
# 5.将上述四个列表中的数据按照位置整合
res = zip(company_name_list, company_addr_list, company_email_list, company_phone_list)
# 6.处理数据(展示 保存 excel)
for i in res:
    print("""
    ----------------------------公司名称:%s----------------------------
    公司地址:%s
    公司邮箱:%s
    公司电话:%s
    -----------------------------------------------------------------------------
    """ % i)
图片名称

三、openpyxl模块

1.openpyxl模块的作用
  主要用于操作excel表格,实现自动化办公
2.Excel文件的后缀名的问题
   03版本之前 ---->>> .xls
   03版本之后 ---->>> .xlsx
3.操作excel表格的第三方模块
  xlwt往表格写入数据、wlrd从表格读取数据
    兼容性强
  openpyxl最近几年比较火热的操作excel表格的模块
    03版本之前的兼容性较差
实战:
from openpyxl import Workbook

user_excel = Workbook()  # 创建excel
grades = user_excel.create_sheet('成绩表')  #成绩表
physique = user_excel.create_sheet('体质表')  #体质表
name = user_excel.create_sheet('姓名表',0)  #姓名表
physique.title = '体能表'
name.sheet_properties.tabColor = '8B0000' #修改姓名表的颜色
# 第一种写入方式
name['A1'] = '小明同学'
name['B1'] = '男'
# 第二种写入方式
name.cell(row=1, column=3, value='28')
name.cell(row=1, column=4, value='小菜鸡')
# 第三种写入方式(批量写入)
name.append(['小红同学', '女', '18', '貌美如花'])
name.append(['小天同学','男', '20', '一顿能吃'])
name.append(['小维同学', '男', 18, '多看书'])

user_excel.save(r'user_excel.xlsx')  # 保存文件
图片名称

标签:name,list,openyxl,excel,爬虫,模块,pip,company
From: https://www.cnblogs.com/zx0524/p/16829670.html

相关文章

  • 第三方模块的下载与使用、request模块、openpyxl模块
    第三方模块的下载与使用第三方模块:别人写的模块一般情况下功能都特别强大我们如果想使用第三方模块第一次必须先下载后面才可以反复使用(等同于内置模块)下载......
  • 第三方模块
    今日内容概要目录今日内容概要今日内容详情第三方模块下载与使用第三方模块的下载第三方模块可能会出现的错误网络爬虫模块之requests模块网络爬虫模块之爬取链家二手房数......
  • MILIANKE-CZ01-7010/7020400-核心模块硬件手册(ZYNQ)
    1产品概述    自2017年MLK-CZ01-7010/7020-400(MZ7XCORE400)系列开发平台发布以来,该系列开发平台和核心模块经过多次迭代升级,在工业自动化、水利电力控制设备、医疗图......
  • 爬虫前戏
    第三方模块的下载与使用第三方模块:别人写的模块一般情况下功能都特别强大我们如果想使用第三方模块第一次必须先下载后面才可以反复使用(等同于内置模块)下载第三......
  • 第三方模块
    目录一.第三方模块的下载与使用二.网络爬虫模块之requests模块三.网络爬虫实战之爬取链家二手房数据四.自动化办公领域之openpyxl模块1.excel文件的后缀名问题2.操作excel......
  • VM系列振弦传感器读数模块常见问题
    1、计算机无法与模块通讯应通过以下步骤逐一排查问题(1)观察振弦模块状态灯是否正常闪烁,若不正常则应基本断定是模块问题,此时应尝试对模块进行出厂参数恢复。在高速测量时,因......
  • 【k哥爬虫普法】简历大数据公司被查封,个人隐私是红线!
    我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的......
  • 爬虫不使用HTTP代理会怎样
    很多人知道爬虫工作需要HTTP代理的支持,但却不知道爬虫为什么要使用代理,不使用代理会怎样呢,今天我们一起来讨论下。网络爬虫主要是一种通过代码模拟真实用户批量......
  • 爬虫使用免费HTTP代理会怎样
     我们都知道,爬虫工作想要效率全开,必须要高效的HTTP代理支持。但是很多人为了节省成本,会找一些不要钱的代理来使用。那么爬虫程序用了这些免费的HTTP代理到底会怎样......
  • 怎么使用HTTP代理才能让爬虫工作效率更高
    我们都知道,想要提高爬虫每天的工作效率,必须要大量的HTTP代理来支持。那么,怎么使用HTTP代理才能让爬虫工作效率更高呢?1、爬虫程序效率优化我们在设计爬虫程......