循环爬取页面并存储

时间：2022-12-04 21:11:26浏览次数：40

#循环爬取起点中文网并存储
import requests
from lxml import etree
ua={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'}
z = 1;
f=open("qidian.txt",'w',encoding="utf-8")      #
for i in range(2,5):
    res=requests.get('https://www.qidian.com/all/page{}/'.format(i),headers=ua)
    res.encoding='utf-8'
    t=etree.HTML(res.text)
    biaoti=t.xpath('//*[@id="book-img-text"]/ul/li/div[2]/h2/a/text()')
    zuozhe=t.xpath('//*[@id="book-img-text"]/ul/li/div[2]/p[1]/a[1]/text()')
    leixing=t.xpath('//*[@id="book-img-text"]/ul/li/div[2]/p[1]/a[2]/text()')
    lianzai=t.xpath('//*[@id="book-img-text"]/ul/li/div[2]/p[1]/span/text()')
    jianjie=t.xpath('//*[@id="book-img-text"]/ul/li/div[2]/p[2]/text()')
    for a,b,c,d,e in zip(biaoti,zuozhe,leixing,lianzai,jianjie):
        f.write(str(z)+" "+a+" "+b+" "+c+" "+d+" "+e+"\n")
        z=z+1
f.close()

标签：存储,img,text,li,爬取,ul,div,id,页面
From： https://www.cnblogs.com/txa2003/p/16950790.html

页式存储管理--两种置换算法的实现
一.实验目的1.了解虚拟存储技术，通过编写和调试存储管理的模拟程序以加深对存储管理方案的理解。2.掌握FIFO和LRU等置换算法，加强对地址转换过程的了解。二.实验内容......
【JAVA】基于thymeleaf+bootstrap的页面嵌套
网站中对于公共元素（如导航栏等）的使用，可以在页面使用th:insert标签嵌入对应的div等元素，以下展示一个简单的嵌套demo。即将导航栏、登入登出模态对话框作为公共元素引入，代码如......
MySQL存储引擎
一、mysql存储引擎概述1.1存储引擎MySQL中的数据用各种不同的技术存储在文件（或者内存）中。这些技术中的每一种技术都使用不同的存储机制、索引技巧、锁定水平并且最终提......
13.【C语言进阶】数据的存储
数据基本类型为什么会有不同的类型，这些类型有内存大小上的差异，那么他们还有什么差异呢？在内存中开辟空间的大小读取内存空间方式的差异 char//字符类型short//......
Vue中优雅的更改iframe嵌入页面的样式
通过外部引入css文件来控制嵌入页面的样式公共iframe组件封装传入属性：嵌入页面路径css文件名称（默认放在/static/css/下），默认css文件名可以自己定义，在确定嵌入页面不多，相......
分页存储管理
一、基本分页存储管理1.1、分页思想分页思想将内存空间划分为一个个大小相等的分区，每个分区就是一个“页框”，或称“页帧”、“内存块”、“物理块”。每个页框有一......
【vue-router 4.x】使用addRoute加载动态路由时，刷新页面后出现空白页和控制台报错 [Vu
"vue-router":"^4.1.6"遇到的问题动态路由刷新后，出现空白页动态路由刷新后，控制报错[VueRouterwarn]:Nomatchfoundforlocationwithpath"/***/index"1.动态......
k8s高级存储(PV、PVC)
高级存储前面已经学习了使用NFS提供存储，此时就要求用户会搭建NFS系统，并且会在yaml配置nfs。由于kubernetes支持的存储系统有很多，要求客户全都掌握，显然不现实。为了能够屏......
网站域名被QQ拦截提示：当前网页非官方页面拦截的解决办法
今天网友提醒，星空站长网的链接被QQ屏蔽拦截了。提示：当前页面非官方页面，请复制到浏览器打开。如图：原因：这是因为QQ方面的诈骗信息特别多，所以腾讯官方索性就直接屏蔽了所有的......
mysql存储结构
表空间共享表空间独立表空间https://www.cnblogs.com/wt645631686/p/8258070.html 偷一手，先贴个链接感谢这位爷innodb_file_per_table参数设置是否开......

循环爬取页面并存储

相关文章

赞助商

阅读排行