xpath爬取唐诗三百首

时间：2023-01-11 19:13:17浏览次数：40

标签：xpath fp url list 唐诗三百 li 爬取 article

首页如图

抓包工具显示如下

点击作者后，转到详情页

抓包工具显示如下、

爬取代码如下

 1 时间：2023/1/9 22:10
 2 功能描述
 3 
 4 '''
 5 import requests
 6 from lxml import etree
 7 
 8 url = 'https://tangshi.5000yan.com/shiren/'
 9 headers = {
10     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'}
11 
12 
13 def get_url_xpath(url):
14     url_1 = requests.get(url=url, headers=headers).content  # 解决乱码问题，用content而不用text
15     zuozhe = etree.HTML(url_1)
16     return zuozhe
17     # print(url_1)  # 检验一下是否乱码
18 
19 if __name__=='__main__':
20     xpath1 = get_url_xpath(url)
21     li_list = xpath1.xpath('//main/div/ul/li')  # 获取li标签列表
22     fp = open('11.txt', 'w', encoding='utf-8')
23     for li in li_list:
24         tang_name = li.xpath('./a/text()')  # 对应每个li标签，获取每个标签下的a标签下的文本和地址
25         # print(tang_name[0])
26         #fp.write(tang_name[0] + '\n\n')
27         detail_url = li.xpath('./a/@href')[0]  # ./表示在当前目录下，继续层级
28         # print(detail_url)
29         fp.write(tang_name[0]+'\n')
30         xpath2 = get_url_xpath(detail_url)
31         article_list = xpath2.xpath('//section[@class="blockGroup"]/article')
32         for article in article_list:
33             biaoti_list = article.xpath('./h2/a/text()')
34             neirong_list = article.xpath('./div/div[@class="shi-zhong"]/span/a/div/text()')
35             #print(biaoti_list, neirong_list)
36             for biaoti in biaoti_list:
37                 fp.write(biaoti)
38                 for neirong in neirong_list:
39                     fp.write(neirong)
40                 fp.write('\n')
41 print('下载完成！')

标签：xpath,fp,url,list,唐诗三百,li,爬取,article
From： https://www.cnblogs.com/chengshu1258/p/17044678.html

Python爬虫-第三章-4-利用BeautifulSoup模块爬取某网壁纸图库图片
思路：1.提取子页面链接2.访问子链接页面，提取下载地址3.访问下载地址下载内容到本地#DemoDescribe:数据解析bs4importtimeimportrequestsimportrandomimportstringfr......
xpath解析数据的方法
1功能描述21.实例化一个etree对象，且需要将被解析的页面源码数据加载到该对象中32.调用etree对象中的XPath表达式实现标签的定位和内容捕获43.环境安装pipins......
数据分析岗还香吗？爬取猎聘网数据告诉你
本文爬取猎聘网近400条关于数据分析岗的数据，包含岗位名称、薪酬、地区、学历、工作经验、公司名称等，研究数据分析岗在学历、工作经验方面的要求，以及数据分析岗位的薪资情况......
爬取兰州市房价，看到结果让我很舒适！
《兰州市落实强省会战略进一步优化营运环境若干措施》于2022年4月1日会议通过，兰州印发1号通知进一步放宽购房政策，包括降低个人购买住房门槛、减轻个人住房消费负担、加大住......
python爬虫如何爬取招聘数据
互联互通的时代，几乎任何行业有关的数据都可以在网络上查到，那么作为大数据公司，如何借用爬虫实现公开数据抓取数据就显得尤为重要，下面就是有关招聘信息等数据的抓取代码案例可......
利用BeautifulSoup爬取三国演义
1importrequests2frombs4importBeautifulSoup3headers={'user-agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGe......
爬取百度图片
fromfake_useragentimportUserAgentimportrequestsimportreimportuuidheaders={"User-agent":UserAgent().random,#随机生成一个代理请求"A......
lxml与XPath
lxml与XPath 尽管正则表达式处理字符串的能力非常强，但编写功能强大的正则表达式并不容易，而且难以维护，复杂的正则表达式也并不容易理解幸好还有其他的方式处理字符串......
python_selenium元素定位_xpath(2)
selenium自动化脚本最基础的就是元素定位和元素操作，下面就以百度为例介绍最常见的xpath定位方式基本定位方式:以百度的搜索框为例fromseleniumimportwebdriverim......
Python爬取往期股票数据，分析中奖规律！
快过年了，手头有点紧，但是作为一个男人，身上怎么能够没有大把钞票呢？于是我决定用Python来分析一波股票，赢了会所嫩*，输了下海干活！好了，上面是我吹牛逼的，不过确实有小伙......

xpath爬取唐诗三百首

相关文章

赞助商

阅读排行