首页 > 编程语言 >Python爬虫+认识html网页文本文件,使用beautifulSoup获取信息

Python爬虫+认识html网页文本文件,使用beautifulSoup获取信息

时间:2024-04-09 21:01:25浏览次数:32  
标签:Python 标签 beautifulSoup soup html each print table

认识HTML

HTML参考手册:

https://www.w3cschool.cn/htmltags/tag-p.html

HTML线上教程:

https://www.runoob.com/html/html-examples.html

 

菜鸟教程html在线编程器:

https://www.runoob.com/try/try.php?filename=tryhtml_comment

 

提示:将下面代码复制到 菜鸟教程html在线编程器 运行。 对照页面显示效果分析HTML的标签使用,学习html的页面编程设计。参考HTML线上教程和HTML参考手册,学习更多的html。

 

<!DOCTYPE html>

<html>

<head>

<meta charset="utf-8">

<title>菜鸟教程(runoob.com)</title>

</head>

<body bgcolor="lightgreen">

 

<h1 align="center">我的第一个标题</h1>

<h2 align="left">我的第一个标题</h2>

<h3 align="right">我的第一个标题</h3>

 

 <!-- 这是一个注释,可以在这里写入你的注释内容 -->

 

 <!-- hr 标签定义水平线 horizon -->

<hr />

 

<p>我的第一个段落。</p>

<hr />

<p>

每个表格从一个 table 标签开始。 

每个表格行从 tr 标签开始。

每个表格的数据从 td 标签开始

</p>

 

<h4>表格 两行三列:</h4>

<table border="1"  width="100%" align ="center">

<tr height ="30px" bgcolor="#FFEBCD" align ="center">

  <td>100</td>

  <td>200</td>

  <td>300</td>

</tr>

<tr height ="30px"  bgcolor="blue">

  <td>400</td>

  <td>500</td>

  <td>600</td>

</tr>

</table>

<hr/>

<h4>超级链接:</h4>

<p><a href="/index.html">本文本</a> 是一个指向本网站中的一个页面的链接。</p>

<p>

<a href="http://www.microsoft.com/">本文本</a>

 是一个指向万维网上的页面的链接。

</p>

<hr/>

 

<h4>无序列表:</h4>

<ul>

  <li>Coffee</li>

  <li>Tea</li>

  <li>Milk</li>

</ul>

 

<h4>无序列表:</h4>

<ul>

  <li>Coffee</li>

  <li>Tea</li>

  <li>Milk</li>

</ul>

 

<h4>有序列表:</h4>

<ol>

  <li>Coffee</li>

  <li>Tea</li>

  <li>Milk</li>

</ol>

 

<ol start="50">

  <li>Coffee</li>

  <li>Tea</li>

  <li>Milk</li>

</ol>

</body>

</html>

 

BeautifulSoup库简单使用 代码

Beautiful Soup 4.4.0 文档

https://beautifulsoup.readthedocs.io/zh-cn/latest/

import bs4
txt_html ="""
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>菜鸟教程(runoob.com)</title>
</head>
<body bgcolor="lightgreen">
<h1 align="center">我的第一个标题</h1>
<h2 align="left">我的第一个标题</h2>
<h3 align="right">我的第一个标题</h3>
 <!-- 这是一个注释,可以在这里写入你的注释内容 -->
 <!-- hr 标签定义水平线 horizon -->
<hr />
<p>我的第一个段落。</p>
<hr />
<p>
每个表格从一个 table 标签开始。 
每个表格行从 tr 标签开始。
每个表格的数据从 td 标签开始
</p>
<h4>表格 两行三列:</h4>
<table border="1"  width="100%" align ="center">
<tr height ="30px" bgcolor="#FFEBCD" align ="center">
  <td>100</td>
  <td>200</td>
  <td>300</td>
</tr>
<tr height ="30px"  bgcolor="blue">
  <td>400</td>
  <td>500</td>
  <td>600</td>
</tr>
</table>
<hr/>
<h4>超级链接:</h4>
<p><a href="/index.html">本文本</a> 是一个指向本网站中的一个页面的链接。</p>
<p>
<a href="http://www.microsoft.com/">本文本</a>
 是一个指向万维网上的页面的链接。
</p>
<hr/>
<h4>无序列表:</h4>
<ul>
  <li>Coffee</li>
  <li>Tea</li>
  <li>Milk</li>
</ul>
<h4>无序列表:</h4>
<ul>
  <li>Coffee</li>
  <li>Tea</li>
  <li>Milk</li>
</ul>
<h4>有序列表:</h4>
<ol>
  <li>Coffee</li>
  <li>Tea</li>
  <li>Milk</li>
</ol>

<ol start="50">
  <li>Coffee 50</li>
  <li>Tea 50</li>
  <li>Milk 50</li>
</ol>
</body>
</html>
"""
#定义BeautifulSoup对象
txt_soup = bs4.BeautifulSoup(txt_html,"html.parser")
print(type(txt_soup))
#
#从table标签中提取信息
#
print("从table标签中提取信息:")
table_soup = txt_soup.find_all(name ="table")
print(type(table_soup))
#print(table_soup) #调试
for table_each in table_soup:
    for tr_each in table_each.find_all('tr'):
        for td_each in tr_each:
            print(td_each.string, end='')
            #print(" {}".format(td_each.string.strip("\n")), end='')
        print()
#
#从ol标签中提取信息
#
print("从ol标签中提取信息:")
ol_soup = txt_soup.find_all(name ="ol")

print(type(ol_soup))
#ol_soup = txt_soup.find_all(name ="ol",start="50" )
# 
for ol_each in ol_soup:
    for li_each in ol_each.find_all('li'):
        print(li_each.string)

#
#从a标签中提取地址
#
print("从a标签中提取地址:")
a_soup = txt_soup.find_all(name ="a") # 网址在标签<a>内
for a_each in a_soup:
        print(a_each["href"])

 

标签:Python,标签,beautifulSoup,soup,html,each,print,table
From: https://www.cnblogs.com/excellentHellen/p/18124798

相关文章

  • Python爬虫+如何查看一个网页的源代码
    方法1(火狐浏览器为例):方法2(火狐浏览器为例):......
  • Python爬虫+第三方库requests获取网页
    安装库使用国内镜像安装第三方库requests。pipinstall requests -i https://mirrors.aliyun.com/pypi/simple/ 测试库是否可用importrequestsresponse=requests.get("http://www.baidu.com")print(response.text) 模拟浏览器方式访问网页问题:更多网站只允许客......
  • HTML重要标签重点及属性——之转生在异世界学前端
    表格标签table是用于定义表格的标签tr是用于定义表格的行td是用来定义表格的列,th是表头一般只有一个表头会加粗表格属性border是设置边框值为1;1是有边框,align设置居中对齐方式center,left,rightcellpadding设置文字跟单元格的间隔cellspacing设置单元格直接的间隔  ......
  • IDEA中使用tomcatconfiguration做服务器后,无法从html跳转到servlet的原因
    就我的项目而言,因为我没有用maven中的tomcat插件,用的是IDEA中的tomcatconfiguration,所以刚启动服务器生成的网址是http://localhost:8080/brand_demo_war/,而因为我的项目叫brand-demo,servlet叫做selectAllServlet,所以正常情况浏览器跳转到该servlet后的url应该是http://localhos......
  • Python教程-if条件判断
    Python教程-if条件判断作为软件开发者,我们总是努力编写干净、简洁、高效的代码。Python是一种解释型、高级、通用的编程语言,被全世界的程序员广泛使用。它以其简单性和可读性著称,使其成为初学者和有经验的程序员的最佳选择。用Python编程的一个最基本的方面是使用条件。P......
  • python毕业设计项目源码
    收集整理了20个常见的python系统设计源码。可以用于课程作业或者毕业设计。所有系统都带源码和文档。感谢。1.基于python的租房网站-房屋出租租赁系统该项目是基于python/django/vue开发的房屋租赁系统/租房平台,作为学生的课程作业作品。内容制作非常精良。源码下载:https://......
  • 你应该知道的21个html小技巧
    本文翻译自21HTMLTipsYouMustKnowAbout,作者:Shefali,略有删改。在这篇文章中,我将分享21个HTML技巧和代码片段,可以提高你的编码技能。链接联系人使用HTML创建可点击的电子邮件、电话和短信链接:<!--Emaillink--><ahref="mailto:[email protected]">SendEmai......
  • 学python的第十一天
    常用内置模块 1,数字计算模块math#在math模块中包含数学相关的函数等,例如指数,对数,平方根和三角函数等math模块中常用函数:ceil(x),返回大于或等于x的最小整数floor(x),返回小于或等于x的最大整数sqrt(x),返回x的平方根pow(x),返回x的y次幂的值math,log(x[,bas......
  • 交通规划四阶段法:基于 Python 的交通分布预测算法复现 - 附完整代码链接
    目录交通规划四阶段法:基于Python的交通分布预测算法复现-附完整代码链接我只是想使用这些代码下载代码文件代码的使用方法合作部分代码内容的展示交通规划四阶段法:基于Python的交通分布预测算法复现-附完整代码链接我这个学期有交通规划的课程。·交通规划四阶段法中第......
  • CentOs8 安装python3.11.9
    1、在opt目录下新建一个Python文件目录存放cd/optmkdirPython>如果显示权限不够需要用su命令进入管理员模式下载python3.11.9目前最新版本wgethttps://mirrors.huaweicloud.com/python/3.11.9/Python-3.11.9.tgz解压tgz文件tar-zxvfPython-3.11.9.tgz>个人倾向于用-......