首页 > 编程语言 >python爬虫连载20

python爬虫连载20

时间:2024-09-14 12:25:07浏览次数:12  
标签:classroom 20 name python age 元素 爬虫 选取 student

XPath语法:

表达式

描述

nodename

选取此节点的所有子节点

/

从根节点选取

//

选择任意位置的某个节点

.

选取当前节点

..

选取当前节点的父节点

@

选取属性

 

 

 

 

<?xml version="1.0"encoding="IS0-8859-1"?>

<classroom>

       <student>

              <id>1001</id>

              <name lang="en">marry</name>

              <age>20</age>

              <country>China</country>

       </student>

       <student>

              <id>1002</id>

              <name lang="en">jack</name>

              <age>25</age>

              <country>USA</country>

       </student>

</classroom>

 

 

 

选取classroom元素的所有子节点

classroom

选取根元素classroom

/classroom

选取classroom的子元素的所有student元素

classroom/student

选取所有student元素,无论在文档中什么位置

//student

选取属于classroom元素的后代的所有student元素,无论在classroom之下的什么位置。

classroom//student

选取名为lang的所有属性

//@lang

 

 

选取classroom的子元素的第一个student元素

/classroom/student[1]

选取classroom的子元素最后一个student元素

/classroom/student[last()]

选取classroom的子元素的倒数第二个student元素

/classroom/student[last()-1]

选取最前面的两个属于classroom元素的子元素的student元素

/classroom/student[position<3]

选取所有拥有属性名为lang属性的name元素

//name[@lang]

选取所有拥有属性lang且属性名是en的name元素

//name[@lang=’en’]

选取classroom元素的所有student元素,且其中的age元素的值大于20

/classroom/student[age>20]

选取classroom元素的所有student元素的所有name元素,且其中的age元素的值大于20

/classroom/student[age>20]/name

 

 

选取classroom元素的所有子元素

/classroom/*

选取文档中的所有元素

//*

选取所有带有属性的name元素

//name[@*]

选取student元素的所有name元素和age元素

//student/name | //student/age

选取属于classroom元素的student元素的所有name元素以及文档中所有age 元素

/classroom/student/name | //age

 

 

 

 

标签:classroom,20,name,python,age,元素,爬虫,选取,student
From: https://blog.51cto.com/u_16427934/12015794

相关文章

  • KDD 2024 OAG-Challenge Cup赛道三项冠军技术方案解读 | 内含中秋福利
    大众点评技术部/搜索与内容智能团队组成的BlackPearl队伍,参加了2024年KDD2024OAG-ChallengeCup赛道的WhoIsWho-IND、PST、AQA三道赛题,以较大优势包揽了该赛道全部赛题的冠军。本文对这三个赛道的夺冠方案分别进行了解读,希望对大家有所帮助或启发。KDD2024OAG-ChallengeCup......
  • OpenSSH 远程代码执行漏洞(CVE-2024-6387) Ubuntu22.04 和 centos7处理方法
    这是文档,不是脚本,请一行一行复制粘贴执行,不用批量自动执行下面是Ubuntu22.04和centos7的处理方法,其他系统可能需要适当调整#!/bin/bash#========================================================================================##Ubuntu22.04升级openssh#......
  • 【Canvas与电脑桌面】黑色方块黄十字背景桌面 1920x1080
    【成图】【代码】<!DOCTYPEhtml><htmllang="utf-8"><metahttp-equiv="Content-Type"content="text/html;charset=utf-8"/><head><title>黑色方块黄十字的密铺1920x1080</title><styletype="te......
  • 洛谷题单指南-分治与倍增-P7167 [eJOI2020 Day1] Fountain
    原题链接:https://www.luogu.com.cn/problem/P7167题意解读:从喷泉任意一个圆盘倒水,水流经的圆盘直径必须递增,水最后流到哪个圆盘。解题思路:1、枚举法有30%的数据范围在N<=1000,Q<=1000,因此枚举也可以得到30分。可以通过单调栈预计算每个圆盘后面第一个直径更大的圆盘位置Next[......
  • UltraEdit2024免费开发人员必备文本编辑器
    ......
  • 2024 CCPC Online
    A(军训I)大分类讨论#pragmaGCCoptimize("O3,unroll-loops")#pragmaGCCtarget("avx2,bmi,bmi2,lzcnt,popcnt")//如果在不支持avx2的平台上将avx2换成avx或SSE之一#include<bits/stdc++.h>usingnamespacestd;#definexfirst#defineysecondtypedef......
  • 广东深圳2024年下半年软考准考证打印时间11月5日开始
    根据深圳人事考试网发布的《关于2024年度计算机技术与软件专业技术资格(水平)考试有关事项的通知》,广东深圳2024年下半年软考准考证打印时间为2024年11月5日9:00至8日17:00。报名成功的人员应按时下载并打印纸质准考证,逾期视为放弃考试。考生须携带准考证、有效期内的居民身份证(或社......
  • 【YashanDB知识库】YAS-02025 no free space in virtual memory pool
    本文转自YashanDB官网,具体内容请见[https://www.yashandb.com/newsinfo/7304719.html?templateId=1718516]【标题】YAS-02025nofreespaceinvirtualmemorypool【问题分类】业务SQL执行【关键字】YAS-02025【问题描述】在崖山环境查询数据提示报错YAS-02025nofreespa......
  • springboot+vue在线考试系统的设计与演示录像220239【程序+论文+开题】计算机毕业设计
    系统程序文件列表开题报告内容研究背景随着互联网技术的飞速发展,教育领域正经历着前所未有的变革。传统的考试方式,如纸质试卷考试,不仅效率低下、成本高昂,而且在组织、阅卷及反馈等环节上存在诸多不便。尤其是在大规模考试或远程教育中,这些问题尤为突出。因此,开发一种高效、......
  • 2024想转行做大模型?AI产品经理们,先看看这份指南
    如果你想转行做大模型,作为一名AI产品经理,你可以怎么做呢?或许,你可以先进行自我检测,看看自己是否真的适合转行做大模型。这篇文章里,作者便给想转行做大模型的AI产品经理们提出了一些建议,不妨来看看吧。作为一个产品经理,你可能已经熟悉了一些常见的AI技术和应用,比如机器学......