测开学习一阶段（2）编程思维训练---爬虫小案例

时间：2023-01-10 14:11:06浏览次数：48

标签：content 测开 url 爬虫 ele --- html div rsp

基础版本

　　流程：

　　　　1.访问url

　　　　2.转换格式，抓取数据

　　　　3.格式化输出，保存到本地文件

import requests
from lxml import etree
url = 'http://www.51testing.com/html/90/category-catid-90.html'
# 访问url
rsp = requests.get(url)
# 进行页面字符集转换
cod = rsp.apparent_encoding
rsp.encoding = 'gbk'
content = rsp.text
# 将页面信息转为dom格式
doc = etree.HTML(content)
# 查看返回结果
#print(content)
# 新建文件
file = open('data.txt','w')
for j in range(2,5):
    print(j - 1)
    file.write(r'第{}页'.format(j-1)+'\n')
# 提取数据
    for i in range(1,11):
        ele = doc.xpath('/html/body/div[2]/div[3]/div[2]/div['+str(i)+']/div/p/text()')[0]
        print("第：{} 行--{}".format(i, ele))
        # ele里面存在不可识别的字符，防止写入文件时报错，需要进行处理
        new_ele = ''.join(ele.split())
        file.write(r"第：{} 行{}".format(i, new_ele)+'\n'+'\n')

    # 获取第二页
    url = 'http://www.51testing.com/html/90/category-catid-90-page-'+str(j)+'.html'
    rsp = requests.get(url)
    cod = rsp.apparent_encoding
    rsp.encoding = 'gbk'
    content = rsp.text
    doc = etree.HTML(content)

标签：content,测开,url,爬虫,ele,---,html,div,rsp
From： https://www.cnblogs.com/testKK/p/17040145.html

abc267 F - Exactly K Steps
题意：给定一棵树，每次询问\(u\k\)，回答任意一个到\(u\)的距离距离为\(k\)的点\(n\le2e5,p\le2e5\)思路：想了很久换根dp+倍增没想出来，对树的直径太不熟悉了性质......
elementui表格中实现点击单个单元格和表头--带参数触发事件/跳转路由
对于element表格做点击跳转的功能有两大类：1，表头的点击跳转2，表格内容单元格进行点击跳转是因为该表格只有tabs标签也第二个选项被选中的时候才能让他起效果，所以先做判断，第......
日常开发记录-js的Date对象中的toLocaleDateString()
就是把Date对象的日期部分转换为字符串，并返回结果。代码示例：console.log(newDate())//2023-01-10T05:42:41.926Zconsole.log(newDate().toLocaleDateString())//......
微信支付-Sean遇到的那些问题
现在，越来越多公司，选择借微信的势来发展自己的平台，进入工作没多久，Sean也被告知了要对接微信支付的需求。原本以为这样的对接，跟着文档走，应该没多大的难度的，可是后来，Sean才发......
elastic使用时报错Text fields are not optimised for operations that require per-d
一、elasticsearch在做聚合查询的时候报错"root_cause":[{"type":"illegal_argument_exception","reason":"Textfieldsarenotoptimis......
优化mybatis-plus批量新增（只对MySql生效Oracle不生效）
因为mybatis-plus的批量新增是一条一条的耗费资源和慢所以进行批量优化 1.自定义Sql注入器MySqlInjector继承DefaultSqlInjectorpublicclassMySqlInjectorexten......
oracle-增加字段注释
由于表和表字段没有添加注释，会在执行查看的时候无法理解每个表或者字段代表的含义，所以尽量给表或者字段添加上注释。语法：commentoncolumn表名.字段名is'注释信息......
cdc-file-transfer 谷歌开源的windows 到linux 同步工具
cdc-file-transfer是基于contentdefinedchunking以及fastcdc技术，cdc-file-transfer目前提供了两种工具cdc_rsync类似rsync的同步能力，进行文件拷贝，但是性能相比rsyn......
ES6-展开运算符
一。数组展开运算符1.怎么用：注：扩展运算符，可以将一个数组转为用逗号分隔的参数序列；...[1,2,3]-----1,2,3console.log(Math.max(...[1,2,3,4]));//相当于以下......
ZABBIX php-fpm占用内存高的解决办法
0x00故障： 0x01TopPIDUSER PR NI VIRT RES SHRS %CPU%MEM TIME+COMMAND1605apache20010692407264003920S......

测开学习一阶段（2）编程思维训练---爬虫小案例

相关文章

赞助商

阅读排行