首页 > 编程语言 >python 爬虫

python 爬虫

时间:2022-08-16 17:24:10浏览次数:47  
标签:utf encoding python resp 爬虫 urlopen

1. 手写第一个 python 爬虫

# 爬虫: 用程序来获取网站上的资源
# 常用 encoding='utf-8'  encoding='gbk'

# 1. 导入 urllib.request  urlopen 第三方库
from urllib.request import urlopen

# 2. 设置目标网址,并使用urlopen来访问
# 访问完成是有返回数据的 使用resp来接收
url = 'http://www.baidu.com'
resp = urlopen(url)

# encoding('utf-8') 将字节转换为字符串
# 使用 utf-8 编码格式 还有 gbk 格式
# as 起别名
with open('mybaidu.html', mode='w', encoding='utf-8') as f:
    f.write(resp.read().decode('utf-8'))

print('over')

2. 手写第一个 python 爬虫


标签:utf,encoding,python,resp,爬虫,urlopen
From: https://www.cnblogs.com/wuqxblog/p/16592250.html

相关文章

  • python数据结构学习整理-集合
    """集合的定义-无序的唯一对象集合-用大括号{}包围,对象相互之间使用逗号分隔-集合是动态的,可以随时添加或删除元素-集合是异构的,可以包含不同类型的数据"""集合的使......
  • Python3_2022
    1、Python中__init__的通俗解释是什么?  2、Python数据结构之序列(Sequence)、集合(Set)、映射(Mapping)不可变序列(ImmutableSequence):字符串(class str)、元组(cl......
  • Python os.system()
    os.system()是\(os\)模块最基础的方法,其他方法一般在该基础上封装完成。os.system()原理\(system()\)可将字符串转化成命令行在服务器上运行;其原理是每条\(syste......
  • Python - PyMuPDF模块的简单使用
    1.简介能够用来对PDF文档进行操作的Python包有好几个,如用于提取内容的PdfPlumber、PDFMiner,可以用来对PDF文件进行修改操作的PyPDF2等等,如果只是需要简单地对PDF文件实现......
  • python 排版模块
    #科技类文本#用阿拉伯数字连续编号,不同层次的数字之间加下圆点相隔(即圆点加在数字的右下角),最后数字后面不加标点,如“1”“1.1”“1.1.1”……#人文类文本#第一层用“一......
  • pip install Appium-Python-Client 报Failed to build cryptography错误解决办法
    使用Pthon编写自动化脚本时,导入appium失败,百度查到需要安装Appium-Python-Client,于是CMD执行pipinstallAppium-Python-Client,报错:Buildingwheelsforcollectedpacka......
  • python中for ... in ...
    forin说明:也是循环结构的一种,经常用于遍历字符串、列表,元组,字典等格式:12for x in y:    循环体执行流程:x依次表示y中的一个元素,遍历完所有......
  • python写入txt 和python写入csv 202208
     ##写入csvdic=[1,2,3,4,5]# # file = open('21.txt', mode='w',encoding='UTF-8')# # file.write(dic)# # # 关闭文件,不关闭文件可能会出问题# # fil......
  • Python-元组 & 创建字典并利用循环在字典里面添加key和value
      【元组】:有序且不可更改的集合,在Python中是用圆括号编写的,不能删除元组中的元素但是可以通过del完全删除元组https://www.w3school.com.cn/python/python_tuples.a......
  • python删除两个文件夹中不同文件
    importos#读取真实标签文件列表,不含文件后缀path_A='./ground-truth'set_A=set(i.split('.')[0]foriinos.listdir(path_A))print(path_A,"files:",len(......