首页 > 其他分享 >利用BeautifulSoup爬取三国演义

利用BeautifulSoup爬取三国演义

时间:2023-01-08 09:55:57浏览次数:47  
标签:url text detail li 爬取 headers BeautifulSoup 三国演义

 

 1 import requests
 2 from bs4 import BeautifulSoup
 3 headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'}
 4 
 5 url= 'https://sanguo.5000yan.com/'
 6 page_text = requests.get(url=url,headers=headers).content
 7 soup = BeautifulSoup(page_text, 'lxml')
 8 li_list = soup.select('.sidamingzhu-list-mulu>ul>li')
 9 fp= open('三国演义.txt', 'w', encoding='utf-8')
10 for li in li_list:
11     title = li.a.string
12     # print(title)
13     detail_url = li.a['href']
14     # print(detail_url)
15     # 对详情页发请求
16     detail_page_text = requests.get(url=detail_url, headers=headers).content
17     # 解析出详情页的内容
18     soup1 = BeautifulSoup(detail_page_text, 'lxml')
19     div_tag = soup1.find('div',class_='grap')
20     content = div_tag.text
21     # 保存
22     fp.write(title+':'+content+'\n')
23     print(title, '爬取成功!')

 

标签:url,text,detail,li,爬取,headers,BeautifulSoup,三国演义
From: https://www.cnblogs.com/chengshu1258/p/17034129.html

相关文章

  • BeautifulSoup解析数据的属性与方法
     1功能描述2pipinstallbs43pipinstalllxml451.实例化一个BeautifulSoup对象,并且将页面源代码数据加载到该对象中6可以将本地的html文档中的数据加......
  • 爬取百度图片
    fromfake_useragentimportUserAgentimportrequestsimportreimportuuidheaders={"User-agent":UserAgent().random,#随机生成一个代理请求"A......
  • Python爬取往期股票数据,分析中奖规律!
    快过年了,手头有点紧,但是作为一个男人,身上怎么能够没有大把钞票呢?于是我决定用Python来分析一波股票,赢了会所嫩*,输了下海干活!好了,上面是我吹牛逼的,不过确实有小伙......
  • BeautifulSoup
    BeautifulSoup4.4.0文档—BeautifulSoup4.2.0documentation(crummy.com)```https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/```TRANSLATEwith......
  • 爬取百度翻译
    #破解百度翻译#阿贾克斯请求,局部刷新,对应fetch/XHR,最后的sug#学会查看请求,选择函数importosimportrequestsimportjsonpost_url='https://fanyi.baidu.com/sug'#......
  • python爬取电影
    我们现在很多视频网站的电影都是由很多ts文件片段组成的,要想下载电影,就需要把这些ts文件片段全部下载下来,然后合成一部完整的电影这个程序配置好以下三个地方就可以下......
  • python爬取银行存款利率数据
    三年疫情让各行各业的经济都下滑了很多,手里有钱的人都会很谨慎地进行一些投资项目。2023新年来临,银行存款利率也出现一波调整,近期多家中小银行对定期存款挂牌利率进行下调。......
  • Yyield && scrapy案例:当当网爬取数据 &&开启多管道下载
    yield   开启多管道在setting.py中新开一个管道,pipelines下写详细,注意url地址。 当当网爬取案例importscrapyfromscrapy_dangdang_095.itemsimportScr......
  • 爬虫笔记【1】如何爬取无HTTPS证书的网站?
      在爬虫过程中遇到很多网页都多多少少会存在证书过期的情况,那么证书过期后,该网站会被认定为不安全网站,那么怎么进行正常的数据爬取呢?  主要从爬虫过程中常遇到的三个......
  • Java爬取中国天气网实况天气数据
    因实验室需求,需要找一个实况天气API。百度云、阿里云、腾讯云上边我都去找了,很多平台要么没有,要么要收费(免费的可调用次数太少了)。而我在高德开放平台上找到了一个,但是不......