首页 > 其他分享 >爬虫入门--xpatch

爬虫入门--xpatch

时间:2023-03-14 23:45:56浏览次数:39  
标签:xpath XPath xpatch -- 爬虫 html __ div class

XPath 是一门在 XML 文档中查找信息的语言。XPath 使用路径表达式在 XML 文档中进行导航 。XPath 包含一个标准函数库 。XPath 是 XSLT 中的主要元素 。XPath 是一个 W3C 标准

安装lxml

pip install lxml

简单案例

from lxml import etree

if __name__ == '__main__':
    # 从本地获取
    html = etree.parse('test.html')
    # 从网络获取
    # html = etree.HTML('HTML_TEXT')
    # 层级定位,/表示从指定tag开始
    # r = html.xpath('/html//div')
    # 层级定位,//表示从任意tag开始
    # r = html.xpath('/html//div')
    # 属性定位@attrName="attrValue"
    # r = html.xpath('//div[@class="song"]')
    # 索引定位tag[n],注:n从1开始
    # r = html.xpath('//div[@class="song"]/p[3]')
    # 取标签直系文本值/text()
    # r = html.xpath('//div[@class="tang"]/ul/li[4]/a/text()')[0]
    # 取标签所有文本值,包括非直系//text()
    # r = html.xpath('//div[@class="tang"]/ul/li[7]//text()')[0]
    # 取属性值@attrName
    r = html.xpath('//div[@class="song"]//img/@src')
    print(r)
```python

标签:xpath,XPath,xpatch,--,爬虫,html,__,div,class
From: https://www.cnblogs.com/mangoai/p/17216246.html

相关文章

  • 北京地铁系统第二日
     首先设计了系统的读入文件模块其次进行了一些代码的编写packagemain;importmanager.*;publicclassMain{//主函数publicstaticvoidmain(String......
  • connnectController分析(暂未插图)
    1.     CoreConnectController函数1.1.    函数介绍实现BootServices的connectController接口,该函数将尝试连接一个或多个驱动程序到一个设备。ControllerHa......
  • 蓝桥杯嵌入式——KEY模块(长按)
    其实这是上一篇的升级版,此处只呈现和上文中的差异之处编程.h文件中的结构体新增了两个变量 1#ifndef_interrupt_H_2#define_interrupt_H_34#include"m......
  • 算法模板总结 1
    算法模板总结1.基础算法1.1快速排序voidquick_sort(intq[],intl,intr){if(l>=r)return;inti=l-1,j=r+1,x=q[l+r>>1];wh......
  • 1. 初识Kubernetes
    WhatIsK8S狭义上讲,K8S是一个应用编排器。绝大部分情况下,它被用于 编排 容器化 的云原生微服务应用。具体的,它可以实现:自动化部署应用按需对应用进行扩容或缩容应......
  • 光流:用RAFT模型预测的移动
    光流是预测两个图像之间运动的任务,通常是视频的两个连续帧。光流模型以两张图像作为输入,并预测一个流:流表示第一张图像中每一个像素的位移,并将其映射到第二张图像中对应的......
  • Vjudge 3.14 训练解题报告
    比赛传送门\(\color{white}{password:3.1415926}\)A.Fibonacci-ish题意:定义一个序列为“Fibonacci-ish”的,当且仅当对任意\(2<i\len,a_i=a_{i-1}+a_{i-2}\)。给定......
  • 实验1
    实验任务1实验源码:1#task12print('hey,u')34print('hey','u')56x,y,z=1,2,37print(x,y,z)89print('x=%d,y=%d,z=%d'%(x,y,z))10print('x......
  • python之路86 路飞项目终于上线 上线架构图、阿里云购买、云服务器安装mysql、云服
    上线结构图服务器,公网ip地址云服务器:阿里云,腾讯云上线架构图阿里云购买阿里云官网,点选购买ssh客户端xshellfinalshell:http://www.hostbuf.com/t/9......
  • zynq串口接收超时加软件FIFO
    zynq的PS端裸跑时,其串口带有硬件FIFO,可大大降低中断频率。配合接收超时中断,可实现任意长度数据的非阻塞收发。应用与驱动解耦为实现驱动层与应用层解耦,不在中断服务函数......