爬虫爬某豆的读书的排行

时间：2022-08-31 09:26:00浏览次数：37

标签：xpath text qwe 爬虫某豆 str 排行 import class

import re
import time

import requests
from lxml import etree

#爬某豆瓣读书 Top 250
#浏览器的代理
#在网址上输入about://version 浏览器的代理
cz={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.102 Safari/537.36 Edg/104.0.1293.70'}

io=0
def zxc():
 #遍历网页
 # zxc_lp='https://book.douban.com/top250?start='+str(io)
 asd=requests.get('https://book.douban.com/top250?start=225',headers=cz).text
 qwe=etree.HTML(asd)



 c='//*[@valign="top"]/p/text()' #书名
 lp11='//*[@class="star clearfix"]/span[2]/text()' #作者,出版社,日期，
 lp111='//*[@class="star clearfix"]/span[3]/text()'#多少人评价
 lp1111='//*[@class="inq"]/text()'#名句
 lp11111='//*[@class="nbg"]/img/@src'##图片

 asd1=qwe.xpath('//*[@class="pl2"]/a/@title')
 lp=qwe.xpath(c)
 lp1=qwe.xpath(lp11)
 lp12=qwe.xpath(lp111)
 lp13=qwe.xpath(lp1111)
 lp14=qwe.xpath(lp11111)



# 去除空格和换行
 zxc33=[str(i1).strip() for i1 in lp if str(i1).strip()!='']
 qwe=[str(i2).strip() for i2 in asd1 if str(i2).strip()!='']

 qwe11=[str(i4).replace(' ','').split('\n') for i4 in lp12]
 #['(',
 # '66963人评价'
 # ,           ')']
 '替换空格 位 空 在删除换行之后'
 # ['(', '66963人评价', ')']

 for a1,a2,a3,a4,a5,a6 in zip(qwe,zxc33,lp1,qwe11,lp13,lp14):
   print(f'作者:{a1},作者,出版社,日期:{a2},评分:{a3} ,评价{a4},名句:{a5} 图片地址:'+str(a6))



zxc()

标签：xpath,text,qwe,爬虫,某豆,str,排行,import,class
From： https://www.cnblogs.com/xxh12/p/16641774.html

Python爬虫-Xpath语法与lxml库的用法（二）
一、安装pip方式安装pipinstalllxml二、Xpath术语2.1节点在XPath中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML文档......
Python爬虫之使用单线程+协程高性能扒取梨视频人物版块视频源码
#由于request是基于同步的，因此asyncio的异步失效了#因此使用aiohttp来异步扒取importrequestsimportasyncioimporttimeimportosimportrandomfromlxmlimportetree......
B站路飞学IT爬虫案例之梨视频板块视频扒取案例代码及分析
fromlxmlimportetreeimportrequestsimportrandomimportosimporttimefrommultiprocessing.dummyimportPool#高性能异步爬虫#多进程,多线程异步爬虫(不推荐)#好......
2022 最新中国电影票房排行榜 All In One
2022最新中国电影票房排行榜AllInOnerefshttps://piaofang.maoyan.com/dashboard/movie©xgqfrms2012-2020www.cnblogs.com/xgqfrms发布文章使用：只允许注......
Python爬虫：抖音个人主页视频抓取
目标：抓取抖音某博主发布的全部视频用到的模块selenium+requests整体思路：1、先用selenium自动化让数据加载出来到视频获取详情页的链接 2、然后在......
Python爬虫 AttributeError: 'NoneType' object has no attribute 'replace'
在爬虫时执行js代码报错node=execjs.get()ctx=node.compile(js_code).call('webInstace.shell',data) 点击1处进入subprocess.py文件把encoding=Non......
最新小红书数据小红书爬虫小红书接口 xhs 小红书api
小红书数据小红书接口小红书api（小红书爬虫xhsxiaohongshu红书）最新小红书APP接口稳定运行,主流接口都已部署，支持并发请求！只抓取公开数据供作学习用途，不做引流上赞上......
05.爬虫入门笔记1
入门爬虫笔记011.request库的使用使用request库的get方法importrequestr=request.get('www.baidu.com')这会得到一个Response对象，将其存入变量r。显示得到的......
【2022知乎爬虫】我用Python爬虫爬了2300多条知乎评论！
您好，我是@马哥python说，一枚10年程序猿。一、爬取目标前些天我分享过一篇微博的爬虫：https://www.cnblogs.com/mashukui/p/16414027.html但是知乎平台和微博平台的不同......
python爬虫之BeautifulSoup4使用
钢铁知识库，一个学习python爬虫、数据分析的知识库。人生苦短，快用python。上一章我们讲解针对结构化的html、xml数据，使用Xpath实现网页内容爬取。本章我们再来聊另一个高效......

爬虫爬某豆的读书的排行

相关文章

赞助商

阅读排行