首页 > 其他分享 >循环爬取页面并存储

循环爬取页面并存储

时间:2022-12-04 21:11:26浏览次数:36  
标签:存储 img text li 爬取 ul div id 页面

#循环爬取起点中文网并存储
import requests
from lxml import etree
ua={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'}
z = 1;
f=open("qidian.txt",'w',encoding="utf-8") #
for i in range(2,5):
res=requests.get('https://www.qidian.com/all/page{}/'.format(i),headers=ua)
res.encoding='utf-8'
t=etree.HTML(res.text)
biaoti=t.xpath('//*[@id="book-img-text"]/ul/li/div[2]/h2/a/text()')
zuozhe=t.xpath('//*[@id="book-img-text"]/ul/li/div[2]/p[1]/a[1]/text()')
leixing=t.xpath('//*[@id="book-img-text"]/ul/li/div[2]/p[1]/a[2]/text()')
lianzai=t.xpath('//*[@id="book-img-text"]/ul/li/div[2]/p[1]/span/text()')
jianjie=t.xpath('//*[@id="book-img-text"]/ul/li/div[2]/p[2]/text()')
for a,b,c,d,e in zip(biaoti,zuozhe,leixing,lianzai,jianjie):
f.write(str(z)+" "+a+" "+b+" "+c+" "+d+" "+e+"\n")
z=z+1
f.close()

标签:存储,img,text,li,爬取,ul,div,id,页面
From: https://www.cnblogs.com/txa2003/p/16950790.html

相关文章

  • 页式存储管理--两种置换算法的实现
    一.实验目的1.了解虚拟存储技术,通过编写和调试存储管理的模拟程序以加深对存储管理方案的理解。2.掌握FIFO和LRU等置换算法,加强对地址转换过程的了解。二.实验内容......
  • 【JAVA】基于thymeleaf+bootstrap的页面嵌套
    网站中对于公共元素(如导航栏等)的使用,可以在页面使用th:insert标签嵌入对应的div等元素,以下展示一个简单的嵌套demo。即将导航栏、登入登出模态对话框作为公共元素引入,代码如......
  • MySQL存储引擎
    一、mysql存储引擎概述1.1存储引擎MySQL中的数据用各种不同的技术存储在文件(或者内存)中。这些技术中的每一种技术都使用不同的存储机制、索引技巧、锁定水平并且最终提......
  • 13.【C语言进阶】数据的存储
    数据基本类型为什么会有不同的类型,这些类型有内存大小上的差异,那么他们还有什么差异呢?在内存中开辟空间的大小读取内存空间方式的差异 char//字符类型short//......
  • Vue中优雅的更改iframe嵌入页面的样式
    通过外部引入css文件来控制嵌入页面的样式公共iframe组件封装传入属性:嵌入页面路径css文件名称(默认放在/static/css/下),默认css文件名可以自己定义,在确定嵌入页面不多,相......
  • 分页存储管理
    一、基本分页存储管理1.1、分页思想分页思想将内存空间划分为一个个大小相等的分区,每个分区就是一个“页框”,或称“页帧”、“内存块”、“物理块”。每个页框有一......
  • 【vue-router 4.x】使用addRoute加载动态路由时,刷新页面后出现空白页和控制台报错 [Vu
    "vue-router":"^4.1.6"遇到的问题动态路由刷新后,出现空白页动态路由刷新后,控制报错[VueRouterwarn]:Nomatchfoundforlocationwithpath"/***/index"1.动态......
  • k8s高级存储(PV、PVC)
    高级存储前面已经学习了使用NFS提供存储,此时就要求用户会搭建NFS系统,并且会在yaml配置nfs。由于kubernetes支持的存储系统有很多,要求客户全都掌握,显然不现实。为了能够屏......
  • 网站域名被QQ拦截提示:当前网页非官方页面拦截的解决办法
    今天网友提醒,星空站长​网的链接被QQ屏蔽拦截了。提示:当前页面非官方页面,请复制到浏览器打开。如图:原因:这是因为QQ方面的诈骗信息特别多,所以腾讯官方索性就直接屏蔽了所有的......
  • mysql存储结构
    表空间 共享表空间   独立表空间https://www.cnblogs.com/wt645631686/p/8258070.html  偷一手,先贴个链接感谢这位爷innodb_file_per_table参数设置是否开......