首页 > 其他分享 >爬取风险库

爬取风险库

时间:2022-12-03 11:47:02浏览次数:33  
标签:xpath 风险 读取 翻页 写入 侧边 爬取

 

没有读取到内容信息,有iframe:ele_iframe = driver.find_element_by_xpath('xpath') # 再将定位对象传给 switch_to_frame()方法 driver.switch_to.frame(ele_iframe)

 

没有跳到下一三级侧边栏,直接跳到二级侧边栏了:将其切换为continue即可

传入的参数未被定义:引用未实例化的Excelop类的时候没有加括号

 

只写了第一行:没有递增行数,一直在写读取的行数那一行,应写到读取的行数下一行

 

每个四级侧边栏都只写入了四条信息,xpath报错:只读了第一条就点击翻页键

 

单条数据信息没有写全:字典key没对上

 

翻页后只读了一条数据:翻页后结束了四级侧边栏内的最后一句循环,切换侧边栏了,在四级侧边栏的for里面加上一个翻页次数的for和对应的try-except(break)即可

 

数据写完后没有切换下一个侧边栏:内层的异常用的continue,会执行完10次以后才切换,又因为没有下一条数据,因此字典没有被覆盖,里面有内容可以被写入,修改为break即可

 

不可继续翻页状态下,翻页元素依旧可以点击:改为读取条数,确定翻页次数

 

找不到xpath:静态库对应的xpath有改变,更改循环内的xpath

 

效率奇低,一分钟十条:对于大量爬取来说,逐条读写太慢了,①:更改爬虫方式,request抓包爬取,发送请求,接受整个返回包【https://chenxuefan.cn/posts/2021/5/python-requests/】②:更改逻辑:逐条读写改为读-存-写,减少写入次数,逐条写入的话每次调用启动及写入时间接近2秒

标签:xpath,风险,读取,翻页,写入,侧边,爬取
From: https://www.cnblogs.com/Zhengzilong/p/16947231.html

相关文章