利用BeautifulSoup爬取三国演义

时间：2023-01-08 09:55:57浏览次数：59

标签：url text detail li 爬取 headers BeautifulSoup 三国演义

 1 import requests
 2 from bs4 import BeautifulSoup
 3 headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'}
 4 
 5 url= 'https://sanguo.5000yan.com/'
 6 page_text = requests.get(url=url,headers=headers).content
 7 soup = BeautifulSoup(page_text, 'lxml')
 8 li_list = soup.select('.sidamingzhu-list-mulu>ul>li')
 9 fp= open('三国演义.txt', 'w', encoding='utf-8')
10 for li in li_list:
11     title = li.a.string
12     # print(title)
13     detail_url = li.a['href']
14     # print(detail_url)
15     # 对详情页发请求
16     detail_page_text = requests.get(url=detail_url, headers=headers).content
17     # 解析出详情页的内容
18     soup1 = BeautifulSoup(detail_page_text, 'lxml')
19     div_tag = soup1.find('div',class_='grap')
20     content = div_tag.text
21     # 保存
22     fp.write(title+':'+content+'\n')
23     print(title, '爬取成功！')

标签：url,text,detail,li,爬取,headers,BeautifulSoup,三国演义
From： https://www.cnblogs.com/chengshu1258/p/17034129.html

BeautifulSoup解析数据的属性与方法
1功能描述2pipinstallbs43pipinstalllxml451.实例化一个BeautifulSoup对象，并且将页面源代码数据加载到该对象中6可以将本地的html文档中的数据加......
爬取百度图片
fromfake_useragentimportUserAgentimportrequestsimportreimportuuidheaders={"User-agent":UserAgent().random,#随机生成一个代理请求"A......
Python爬取往期股票数据，分析中奖规律！
快过年了，手头有点紧，但是作为一个男人，身上怎么能够没有大把钞票呢？于是我决定用Python来分析一波股票，赢了会所嫩*，输了下海干活！好了，上面是我吹牛逼的，不过确实有小伙......
BeautifulSoup
BeautifulSoup4.4.0文档—BeautifulSoup4.2.0documentation(crummy.com)```https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/```TRANSLATEwith......
爬取百度翻译
#破解百度翻译#阿贾克斯请求，局部刷新，对应fetch/XHR,最后的sug#学会查看请求，选择函数importosimportrequestsimportjsonpost_url='https://fanyi.baidu.com/sug'#......
python爬取电影
我们现在很多视频网站的电影都是由很多ts文件片段组成的，要想下载电影，就需要把这些ts文件片段全部下载下来,然后合成一部完整的电影这个程序配置好以下三个地方就可以下......
python爬取银行存款利率数据
三年疫情让各行各业的经济都下滑了很多，手里有钱的人都会很谨慎地进行一些投资项目。2023新年来临，银行存款利率也出现一波调整，近期多家中小银行对定期存款挂牌利率进行下调。......
Yyield && scrapy案例：当当网爬取数据 &&开启多管道下载
yield 开启多管道在setting.py中新开一个管道，pipelines下写详细，注意url地址。当当网爬取案例importscrapyfromscrapy_dangdang_095.itemsimportScr......
爬虫笔记【1】如何爬取无HTTPS证书的网站？
在爬虫过程中遇到很多网页都多多少少会存在证书过期的情况，那么证书过期后，该网站会被认定为不安全网站，那么怎么进行正常的数据爬取呢？主要从爬虫过程中常遇到的三个......
Java爬取中国天气网实况天气数据
因实验室需求，需要找一个实况天气API。百度云、阿里云、腾讯云上边我都去找了，很多平台要么没有，要么要收费(免费的可调用次数太少了)。而我在高德开放平台上找到了一个，但是不......

利用BeautifulSoup爬取三国演义

相关文章

赞助商

阅读排行