爬虫：BeautifulSoup(6)--select

时间：2022-11-28 10:04:48浏览次数：46

标签：-- BeautifulSoup soup html url print id select

Beautiful Soup中的select

Beautiful Soup中的select也是过滤器的一种，个人认为要比find_all()好用一点

find_all()的返回方式是列表，以主页为例，探究一下select

# coding=utf-8
from bs4 import  BeautifulSoup
import requests

url = 'https://www.cs.net/'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/61.0',
    'Referer':'https://www.cs.net/'
}
html = requests.get(url, headers)
soup = BeautifulSoup(html.text, features='html.parser')

1.按标签查询

tag = soup.select('title');
print(tag)

#输出
#[<title>专业IT技术社区</title>]

2.按类名查询 – 类名前加点

class_ = soup.select('.carousel-caption')
print(class_)

#输出
#class_ = soup.select('.carousel-caption')
# [<div class="carousel-caption">前端工程师凭什么这么值钱？</div>, 
# <div class="carousel-caption">让面试官颤抖的Tomcat系统架构！</div>, 
# <div class="carousel-caption">上班时间“划水”、下班时间“加班”。钱和命，孰轻孰重？</div>, 
# <div class="carousel-caption"> 面试定心丸：AI知识点备忘录(包括ML、DL、Python、Pandas等）</div>, 
# <div class="carousel-caption">Google发布“多巴胺”开源强化学习框架，三大特性全满足</div>]

3.按id查询 – id前加

html2 = '''<body>
    <p class=""><b>The Dormouse's story</b></p>
    <p class="story">
        <a href="" id="link1">link1</a>
        <a href="" id="link2">link2</a>
        <a href="" id="link3">link3</a>
    </p>
 </body>'''
soup = BeautifulSoup(html2, features='html.parser')
id = soup.select('#link1')
print(id)

#输出
#[<a href="" id="link1">link1</a>]

4.组合查询 – 父子标签间空格

rep = soup.select(".clearfix .list_con .title h2 a")
for url in rep:
    print(url.text, url.get('href'))

#输出

标签：--,BeautifulSoup,soup,html,url,print,id,select
From： https://blog.51cto.com/u_15879559/5890579

拓端tecdat|R语言编程指导使用Rasch模型分析学生答题能力
R语言使用Rasch模型分析学生答题能力几个月以来，我一直对序数回归与项目响应理论（IRT）之间的关系感兴趣。在这篇文章中，我重点介绍Rasch分析。最近，我花......
拓端tecdat|R语言编程指导在不同样本量下的Little's MCAR检验
R语言在不同样本量下的Little'sMCAR测试我进行一个小型仿真，以在不同样本量下测试Little的MCAR检验1。我可以研究线性回归中的异方差。我能够找......
拓端tecdat|R语言代码编写关于回归系数的解释
R语言关于回归系数的解释除非我们打算提出因果主张，否则我们应该像描述虚拟变量那样解释连续变量的回归系数。一条有用建议是，以预测的方式解释......
拓端tecdat|R语言编程指导中的Theil-Sen回归分析
R语言中的Theil-Sen回归分析 Theil-Sen估计器是一种在社会科学中不常用的简单线性回归估计器。三个步骤：在数据中所有点之间绘制一条线计算......
拓端tecdat|R语言代码编写对二分连续变量进行逻辑回归数据分析
R语言对二分连续变量进行逻辑回归数据分析教育或医学的标准情况是我们有一项连续的措施，但随后我们对那些具有临床/实践意义的措施有了切入点。一......
拓端tecdat|R语言代码编写逻辑回归预测分析付费用户
R语言逻辑回归预测分析付费用户对于某企业新用户，会利用大数据来分析该用户的信息来确定是否为付费用户，弄清楚用户属性，从而针对性的进行营销，提高运......
培养编程素养和代码风格的书籍推荐
代码风格的书籍推荐：1、好代码，坏代码为了写出优良的代码，我们必须对手上的方案有合理的判断，并彻底想清楚特定方法的结果（好的和坏的）。为此，我们必须了解问题的根本：我们编写代码......
拓端tecdat|SAS代码编写中用单因素ANOVA研究不同疗法对焦虑症的有效性
SAS中用单因素ANOVA研究不同疗法对焦虑症的有效性本教程将介绍如何使用SAS进行单因素方差分析。我们使用的数据可以在这里下载。我们想研究不同疗......
高精度加法
高精度加法模板高精度加法模板#include<bits/stdc++.h>usingnamespacestd;vector<int>add(vector<int>&A,vector<int>&B){ if(A.size()<B.size())return......
拓端tecdat|R语言编程指导用线性模型进行臭氧预测：加权泊松回归，普通最小二乘，加权负二
R语言用线性模型进行臭氧预测：加权泊松回归，普通最小二乘，加权负二项式模型，多重插补缺失值在这篇文章中，我将从一个基本的线性模型开始，然后从那里......