首页 > 其他分享 >爬虫常用方法

爬虫常用方法

时间:2023-04-20 15:57:16浏览次数:34  
标签:常用 bs4 text 爬虫 节点 查找 方法 find resultPages

1. selenium转beautifulsoup:

pageSource = driver.page_source soup = BeautifulSoup(pageSource,'html.parser')   2. bs4 查找页面内容: resultPages = soup.find(text=re.compile(u'查询失败,请重新查询!$')) print('resultPages: ' + str(resultPages))   if resultPages == '查询失败,请重新查询!':     driver.close()   3. bs4查找页面class内容的ul节点中,查找li节点: resultPages = soup.find("ul",class_="pagination").find_all('li') resultNum = len(list(resultPages))-2 pageNum = int(resultPages[resultNum].text)  #获取第resultNum 个节点的文本   4. bs4 查找节点的内容:
li.find('div',class_='time').text   5. bs4下一个节点: try:       xmID = xmSoup.find(text=re.compile(u'采购编号:$')).next_element.text except:       xmID = xmSoup.find(text=re.compile(u'采购编号:$')).next_sibling.text

标签:常用,bs4,text,爬虫,节点,查找,方法,find,resultPages
From: https://www.cnblogs.com/feifeidxl/p/17337138.html

相关文章

  • xShell终端中文乱码完全解决方法
    转至:https://www.shuzhiduo.com/A/gVdnq0y85W/xShell(xShell5)以及其他终端中文乱码的原因无非有三种:(1)Linux系统的编码问题;(2)xShell终端的编码问题; (3)两端的语言编码不一致;1.Linux系统的编码问题(1)执行locale命令查看系统语言;(2)设置系统环境变量LANG为e......
  • linux查看端口被哪个进程被占用的六个方法
    1:lsof命令lsof(listopenfiles)命令可以列出当前系统中打开的所有文件,包括网络端口。可以使用lsof命令查看某个端口被哪个进程占用。具体的命令为:sudolsof-i:端口号,其中端口号为需要查询的端口号。    ......
  • 轻松应对同一IP被封禁的问题:HTTP代理对于爬虫的重要性
    在网络爬虫的世界里,遇到IP被封禁的问题是非常普遍的。不过,我们可以采取一些措施来应对这个问题,其中一个重要的措施就是使用HTTP代理。HTTP代理是一种能够隐藏真实IP地址并改变访问路径的技术,它可以将爬虫的请求发送到代理服务器中,再由代理服务器向目标服务器发起请求,从而避......
  • 从根源上解决反爬虫问题——HTTP代理的应用
    你是不是经常遇到在爬取网站数据时被封IP,或者访问速度过慢的情况呢?这就是因为网站为了保护自己的数据不被恶意利用,采取了反爬虫技术。但是,现在有一种解决方法——HTTP代理。HTTP代理可以将你的请求都转发到一个代理服务器上,然后由代理服务器再去访问目标网站。这样的好处在......
  • 常用正则表达式
    1、日期格式yyyy-MM-dd包括正确性验证^[0-9]{4}-(((0[13578]|(10|12))-(0[1-9]|[1-2][0-9]|3[0-1]))|(02-(0[1-9]|[1-2][0-9]))|((0[469]|11)-(0[1-9]|[1-2][0-9]|30)))$2、日期格式yyyy-MM包括正确性验证^[0-9]{4}-(((0[13578]|(10|12)))|(02-(0[1-9]|[1-2][0-9]))|((0......
  • Linux常用命令
    1.PWD命令:显示用户当前所在目录2.ls命令:对于目录,该命令列出该目录下的所有子目录与文件。对于文件,将列出文件名以及其他信息格式ls[选项][目录或文件]3.cd命令:改变工作目录。将当前工作目录改变到指定的目录下4.grep命令:用于查找文件里符合条件的字符串5.find命令:用来......
  • MySQL常用命令
    查询所有数据库名![image]showdatabases;(https://img2023.cnblogs.com/blog/2805463/202304/2805463-20230420144431240-201364771.png)(使用哪个数据库)use[databasename];(查询数据库下的所有表名)showtables;(查询表中数据)select*from[tablename];(查询表结构)des[tab......
  • Python常用数据结构之元组
    前面的两节课,我们为大家讲解了Python中的列表,它是一种容器型的数据类型,通过列表类型的变量,我们可以保存多个数据并通过循环实现对数据的批量操作。当然,Python中还有其他容器型的数据类型,接下来我们就为大家讲解另一种容器型的数据类型,Python常用数据结构之元组(tuple)。元组的定义......
  • JS中定时执行,setTimeout和setInterval的区别,以及l解除方法
    评:setTimeout(Expression,DelayTime),在DelayTime过后,将执行一次Expression,setTimeout运用在延迟一段时间,再进行某项操作。setTimeout("function",time)设置一个超时对象setInterval(expression,delayTime),每个DelayTime,都将执行Expression.常常可用于刷新表达式.set......
  • Android之调用service的方法
    MainActivity.java:privateBackgroundMusicServicecaller;@OverrideprotectedvoidonCreate(BundlesavedInstanceState){Intentsvc=newIntent(getApplicationContext(),BackgroundMusicService.class);if(Build.VERSION.SDK_INT>=Build.VERSIO......