爬取风险库

爬取风险库

时间：2022-12-03 11:47:02浏览次数：39

没有读取到内容信息，有iframe：ele_iframe = driver.find_element_by_xpath('xpath') # 再将定位对象传给 switch_to_frame()方法 driver.switch_to.frame(ele_iframe)

没有跳到下一三级侧边栏，直接跳到二级侧边栏了：将其切换为continue即可

传入的参数未被定义：引用未实例化的Excelop类的时候没有加括号

只写了第一行：没有递增行数，一直在写读取的行数那一行，应写到读取的行数下一行

每个四级侧边栏都只写入了四条信息，xpath报错：只读了第一条就点击翻页键

单条数据信息没有写全：字典key没对上

翻页后只读了一条数据：翻页后结束了四级侧边栏内的最后一句循环，切换侧边栏了，在四级侧边栏的for里面加上一个翻页次数的for和对应的try-except（break）即可

数据写完后没有切换下一个侧边栏：内层的异常用的continue，会执行完10次以后才切换，又因为没有下一条数据，因此字典没有被覆盖，里面有内容可以被写入，修改为break即可

不可继续翻页状态下，翻页元素依旧可以点击：改为读取条数，确定翻页次数

找不到xpath：静态库对应的xpath有改变，更改循环内的xpath

效率奇低，一分钟十条：对于大量爬取来说，逐条读写太慢了，①：更改爬虫方式，request抓包爬取，发送请求，接受整个返回包【https://chenxuefan.cn/posts/2021/5/python-requests/】②：更改逻辑：逐条读写改为读-存-写，减少写入次数，逐条写入的话每次调用启动及写入时间接近2秒

标签：xpath,风险,读取,翻页,写入,侧边,爬取
From： https://www.cnblogs.com/Zhengzilong/p/16947231.html

CISAW风险管理学习笔记(5)-信息安全风险管理标准ISO/IEC27005
个人学习总结，CISAW学习笔记之信息安全风险管理标准ISO/IEC27005......
CISAW风险管理学习笔记(4)-风险管理标准ISO31000
个人学习总结，CISAW学习笔记之风险管理标准ISO31000......
【Python】【爬虫】爬取豆瓣电影评分
importrequestsimportreimportcsvurl="https://movie.douban.com/top250"headers={"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537......
【k哥爬虫普法】爬取数据是否一定构成不正当竞争？
我国目前并未出台专门针对网络爬虫技术的法律规范，但在司法实践中，相关判决已屡见不鲜，K哥特设了“K哥爬虫普法”专栏，本栏目通过对真实案例的分析，旨在提高广大爬虫工程师的......
【k哥爬虫普法】爬取数据是否一定构成不正当竞争？
我国目前并未出台专门针对网络爬虫技术的法律规范，但在司法实践中，相关判决已屡见不鲜，K哥特设了“K哥爬虫普法”专栏，本栏目通过对真实案例的分析，旨在提高广大爬虫工程师的......
CISAW风险管理学习笔记(3)-风险管理标准体系
个人学习总结，CISAW学习笔记之风险管理标准体系......
其他应收款其他应收款-股东的涉税风险
股东借款一般计入其他应收款，且为无偿占用，长期挂账会造成其他应收款余额较大，引起税务预警，会面临以下税务风险。一、自然人股东的个人所得税风险存在依照“利息、股息、红......
以技术御风险，护航云原生 | 同创永益 X 博云举办产品联合发布会
引言在产业数字化的驱动下，云原生凭借其敏捷、可靠、轻量、高弹性、易扩展、资源利用率高等优势，推动企业数字化业务创新，带来了信息技术架构体验应用模式的颠覆性变革。同时......
爬虫实战-爬取小说信息
importrequestsimportparselimportcsvforiinrange(1,5):print(f"--------爬取第{i}页-----------")url=f'https://www.slyqw.com/sort/{i}'hea......
JAVA爬虫爬取网页数据数据库中,并且去除重复数据
pom文件<dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><versio......

相关文章

赞助商

阅读排行