网页分析有优势,全称XML Path Language一种小型的查询语言
优点:可在XML中查询信息
支持HTML的查询
通过元素和属性进行导航
PY使用需要安装库:安装lxml
selector = etree.HTML(html_doc)//实例化对象,实际上就是一个Element类,通过
逻辑运算:
//div[@id and @class]查找同时拥有的元素
//title | //price # 选取文档中的所有title和price元素,'|'两边必须是完整xpath路径
属性查询:
单引号和双引号//
练习
读 ,存,提取
文件句柄:目录文件获取//在html文件里面查找豆瓣top250.html,模式为mode=r 读
file = open("html文件/豆瓣top250.html",mode="r")
光标移动:读文件个数或者数字的时候,第一个读取和第二个读取是连接上的
循环高效获取数据
for line in file:\每次循环file的数据都会赋值给line,在打印出来 内存的垃圾回收
print(line)\缺点是分次打印,数据是分段的,虽然可以达到效果
写文件的完整操作:保存爬虫数据到文件上面
file = open("豆瓣优秀电影.json,mode=''w") //模式写,创建一个json的文件 a追加
import json //引入
infosStr = json.dumps(infos,ensure_ascii=False)//ascii=False 不转码,直接输出格式
file.write(infosStr)//写入文件,先清空后但是会覆盖
file.close()//经常需要关闭文件