首页 > 其他分享 >bs4解析

bs4解析

时间:2023-01-05 18:34:35浏览次数:38  
标签:bs4 text BeautifulSoup li content url 解析

#bs4解析实战
import requests
from bs4 import BeautifulSoup
import re
url='https://www.shicimingju.com/book/sanguoyanyi.html'
head={
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.30'
}
firsttext= requests.get(url=url,headers=head).text
#将抓取的文本先解析一下,其实没太大区别,内容没有改变,但是bs4可以直接查找标签
soup=BeautifulSoup(firsttext,'lxml')
lilist= soup.select('.book-mulu>ul>li')
fp=open('F:/spidertest/sanguo.txt','w',encoding='utf-8')
for li in lilist:
    title=li.a.string
    urlta='https://www.shicimingju.com'+li.a['href']
    dtext= requests.get(url=urlta,headers=head).text
    dsoup=BeautifulSoup(dtext,'lxml')
    tag=dsoup.find('div',class_='chapter_content')
    content=tag.text
    fp.write(title+':'+content+'\n')
    print(title,'爬取成功')

标签:bs4,text,BeautifulSoup,li,content,url,解析
From: https://www.cnblogs.com/tgfoven/p/17028569.html

相关文章

  • bs4 模块
    爬虫之bs4模块我们在编写一些业务时需要从html页面上获取到用户输入的内容。比如说文章内容。其实底层是在编写html代码,用户输入的时候看着是字其实是标签里包含输入的文......
  • 直连路由表项解析
    网络拓扑图:此时路由器R1生成的路由表信息:其中,掩码为255.255.255.255的记录指的是特定主机路由(目的网络为特定主机的ip地址)比如:目的网络为192.168.1.1/32这条记录表......
  • 探索连锁门店数字化管理转型之路,贝锐蒲公英x熙菱易联网关 联合解决方案解析
    在连锁门店这一领域,企业的规模越大,下辖的连锁门店越多,管理难度就越大,而且很多情况下管理困难是呈指数形式增加的。具体到困难本身,往往会分为品牌维护以及管理成本两方......
  • toRef、toRefs、toRaw解析
    1、toRef 2、toRefs   3、toRaw当你的对象不需要它去做响应式的操作,可以对其进行使用,让它脱离原本的proxy层变成普通的对象(没有响应式)......
  • gcc内置原子操作__sync_系列函数解析
    gcc内置原子操作__sync_系列函数解析gcc4.1.2版本之后,对X86或X86_64支持内置原子操作。就是说,不需要引入第三方库(如pthread)的锁保护,即可对1、2、4、8字节的数值或指针类......
  • 一步一步学爬虫(3)网页解析之xpath语法
    (一步一步学爬虫(3)网页解析之xpath语法)3.1网页解析之xpath语法  XPath,全称是XMLPathLanguage,即XML路径语言,它是一门在XML文档中查找信息的语言。它最初是用来搜......
  • 一步一步学爬虫(3)网页解析之Beautiful Soup的使用
    (一步一步学爬虫(3)网页解析之BeautifulSoup的使用)3.2网页解析之BeautifulSoup的使用3.2.1BeautifulSoup的简介一种简单的处理导航、搜索、修改、解析功能的工具库......
  • 一步一步学爬虫(3)网页解析之pyquery的使用
    (一步一步学爬虫(3)网页解析之pyquery的使用)3.3一步一步学爬虫(3)网页解析之pyquery的使用本来不想再抄写这部分内容,但是看了下这个方法的使用,有这么多重要的功能,还是抄写在......
  • 一步一步学爬虫(3)网页解析之parsel的使用
    (一步一步学爬虫(3)网页解析之parsel的使用)3.4parsel的使用  前文我们了解了lxml使用XPath和pyquery使用CSSSelector来提取页面内容的方法,不论是XPath还是C......
  • 4.配置解析
    1.核心配置文件mybatis-config.xml configuration(配置)    properties(属性)    settings(设置)    typeAliases(类型别名)    typeHandlers(......