日期 : September Nine
记录人 : jack.ma
specail tak : 1
Dream Fire : Learning Ruby & OperaterSystem & Python dev
red or green : red
questions:
1. 滑块验证 + 同步问题。
obei_spider4
一个同步的问题 大致问题是:代码里用的浏览器模拟点击的操作,因为有滑块验证。但是网站信息动态更新的很频繁,业务方说会有极个别标题和正文不符的情况,我去看代码感觉没什么问题,我蹲了一个星期去排查,发现出现问题的信息在列表页中,总是临近的,猜测是因为网站数据刷新导致的,title在列表页中去获取后拼接得到的,触发点击之前网页刚好刷新,此时再进去会出现标题与正文不符,因为title中的发布时间只能在列表页获取,所以不能将title改为在详情页中获取。 我的思路:判断列表页拼接后的标题是否包含详情页拿到的标题。如果不同就重新运行整个程序。
标签:滑块,title,September,列表,recording,Nine,标题 From: https://www.cnblogs.com/Mr-yinghexiaoma/p/18394159