bs4解析

bs4解析

时间：2023-01-05 18:34:35浏览次数：43

标签：bs4 text BeautifulSoup li content url 解析

#bs4解析实战
import requests
from bs4 import BeautifulSoup
import re
url='https://www.shicimingju.com/book/sanguoyanyi.html'
head={
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.30'
}
firsttext= requests.get(url=url,headers=head).text
#将抓取的文本先解析一下，其实没太大区别,内容没有改变，但是bs4可以直接查找标签
soup=BeautifulSoup(firsttext,'lxml')
lilist= soup.select('.book-mulu>ul>li')
fp=open('F:/spidertest/sanguo.txt','w',encoding='utf-8')
for li in lilist:
    title=li.a.string
    urlta='https://www.shicimingju.com'+li.a['href']
    dtext= requests.get(url=urlta,headers=head).text
    dsoup=BeautifulSoup(dtext,'lxml')
    tag=dsoup.find('div',class_='chapter_content')
    content=tag.text
    fp.write(title+':'+content+'\n')
    print(title,'爬取成功')

标签：bs4,text,BeautifulSoup,li,content,url,解析
From： https://www.cnblogs.com/tgfoven/p/17028569.html

bs4 模块
爬虫之bs4模块我们在编写一些业务时需要从html页面上获取到用户输入的内容。比如说文章内容。其实底层是在编写html代码，用户输入的时候看着是字其实是标签里包含输入的文......
直连路由表项解析
网络拓扑图：此时路由器R1生成的路由表信息：其中，掩码为255.255.255.255的记录指的是特定主机路由（目的网络为特定主机的ip地址）比如：目的网络为192.168.1.1/32这条记录表......
探索连锁门店数字化管理转型之路，贝锐蒲公英x熙菱易联网关联合解决方案解析
在连锁门店这一领域,企业的规模越大,下辖的连锁门店越多,管理难度就越大,而且很多情况下管理困难是呈指数形式增加的。具体到困难本身,往往会分为品牌维护以及管理成本两方......
toRef、toRefs、toRaw解析
1、toRef 2、toRefs 3、toRaw当你的对象不需要它去做响应式的操作，可以对其进行使用，让它脱离原本的proxy层变成普通的对象（没有响应式）......
gcc内置原子操作__sync_系列函数解析
gcc内置原子操作__sync_系列函数解析gcc4.1.2版本之后，对X86或X86_64支持内置原子操作。就是说，不需要引入第三方库（如pthread）的锁保护，即可对1、2、4、8字节的数值或指针类......
一步一步学爬虫（3）网页解析之xpath语法
(一步一步学爬虫（3）网页解析之xpath语法)3.1网页解析之xpath语法 XPath，全称是XMLPathLanguage，即XML路径语言，它是一门在XML文档中查找信息的语言。它最初是用来搜......
一步一步学爬虫（3）网页解析之Beautiful Soup的使用
(一步一步学爬虫（3）网页解析之BeautifulSoup的使用)3.2网页解析之BeautifulSoup的使用3.2.1BeautifulSoup的简介一种简单的处理导航、搜索、修改、解析功能的工具库......
一步一步学爬虫（3）网页解析之pyquery的使用
(一步一步学爬虫（3）网页解析之pyquery的使用)3.3一步一步学爬虫（3）网页解析之pyquery的使用本来不想再抄写这部分内容，但是看了下这个方法的使用，有这么多重要的功能，还是抄写在......
一步一步学爬虫（3）网页解析之parsel的使用
(一步一步学爬虫（3）网页解析之parsel的使用)3.4parsel的使用前文我们了解了lxml使用XPath和pyquery使用CSSSelector来提取页面内容的方法，不论是XPath还是C......
4.配置解析
1.核心配置文件mybatis-config.xml configuration（配置） properties（属性） settings（设置） typeAliases（类型别名） typeHandlers（......

相关文章

赞助商

阅读排行