首页 > 编程语言 >Python和requests库结合采集豆瓣短评

Python和requests库结合采集豆瓣短评

时间:2023-11-08 15:36:25浏览次数:30  
标签:短评 Python BeautifulSoup headers proxy requests

Python和requests库结合采集豆瓣短评_HTML

Python是一种常用的程序语言,今天我们就用Python和requests库结合,来写一个采集豆瓣短评的程序,非常的简单,一起来学学吧。

```python
import requests
from bs4 import BeautifulSoup# 设置代理
proxy = f'http://{proxy_host}:{proxy_port}'
headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get('https://book.douban.com/top250', headers=headers, proxies=proxy)# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
reviews = soup.find_all('span', class_='short')# 打印短评
for review in reviews:
   print(review.text)
```

每一步的解释如下:

1. 导入需要的库(requests和BeautifulSoup)。
2. 设置代理(proxy_host和proxy_port)。
3. 使用requests库的get方法,向豆瓣图书top250页面发送GET请求,同时设置headers和proxies。
4. 使用BeautifulSoup库解析返回的HTML。
5. 使用find_all方法,找到所有class为'short'的span标签,这些标签包含短评信息。
6. 使用for循环,打印出每个短评。

标签:短评,Python,BeautifulSoup,headers,proxy,requests
From: https://blog.51cto.com/u_14448891/8255359

相关文章

  • 《最新出炉》系列初窥篇-Python+Playwright自动化测试-25-处理单选和多选按钮-中篇
    1.简介上一篇中宏哥讲解和介绍的单选框有点多,而且由于时间的关系,宏哥决定今天讲解和分享复选框的相关知识。2.什么是单选框、复选框?单选按钮一般叫raidobutton,就像我们在电子版的单选答题过程一样,单选只能点击一次,如果点击其他的单选,之前单选被选中状态就会变成未选中。单......
  • python基础-数据类型及常用方法
    数字类型int:是整形,用来记录没有小数点的数字,例如:1、2、3、4等等age=18print(age)print(type(age))float:是浮点型,用来记录有小数点的数字,例如:12.3、100.001等money=88888.88print(money)print(type(money)) str:是字符串类型,用来记录描述性质的东西,例如......
  • 基于三维点云数据的主成分分析方法(PCA)的python实现
    https://github.com/mengxingshifen1218/learning-pointcloud/blob/master/%E6%B7%B1%E8%93%9D/CH1/PointCloudHomework1/pca_normal.py  KD-Tree原理详解https://zhuanlan.zhihu.com/p/112246942构建算法:Input:无序化的点云,维度kOutput:点云对应的kd-treeAlgorithm:1......
  • 1.Python操控Excel之读取
    1.读取excel文件数量和创建Sheet文件: 2.生成N列N行的值: 3.取到N行N列的值: 4.取到不同的行: 5.从表单中取行和列: 6.使用循环遍历多列,再遍历每一列的每个数据: 7.先遍历2行到6行,再遍历每一行的每一个数据: 8.获取到2行2列的值: 9.rowOfCellObjects访问每一行:......
  • python123——模拟生成微软序列号
    模拟生成微软序列号描述微软产品一般都一个25位的序列号,是用来区分每份微软产品的产品序列号。产品序列号由五组被“-”分隔开,由字母数字混合编制的字符串组成,每组字符串是由五个字符串组成。如:36XJE-86JVF-MTY62-7Q97Q-6BWJ2每个字符是取自于以下24个字母及数字之中的一个:BCE......
  • python winrm 远程操作Windows服务器
    winrm:Windows远程管理先确定被控机器开启winrm服务打开powershell命令行winrmenumeratewinrm快速配置winrmwinrmquickconfig需要加域配置winrmwinrmsetwinrm/config/service/auth@{Basic="true"}winrmsetwinrm/config/service@{AllowUnencrypted="true"}pyt......
  • python入门6
    最基本内置数据类型介绍每个对象都有类型,python中最基本的内置数据类型有:1、整型整数,2345,10,502.浮点型2、小数3.14或者科学计数法314e-23、布尔型表示真假,仅包含:True、False4、字符串型由字符组成的序列。“abc”,"student”,”程序员”数字Python支持整数(如∶50,520)和......
  • python入门4
    变量和简单赋值语句变量的声明和赋值变量的声明和赋值用于将一个变量绑定到一个对象上,格式如下:变量名表达式最简单的表达式就是字面量。比如:a=123。运行过程中,解释器先运行右边的表达式,生成一个代表表达式运算结果的对象;然后,将这个对象地址赋值给左边的变量。【操作】变量在......
  • python入门5
    链式赋值链式赋值用于同一个对象赋值给多个变量。x=y=123相当于:x=123;y=123系列解包赋值系列数据赋值给对应相同个数的变量(个数必须保持一致)>>>a,b,c=4,5,6相当于:a=4;b=5;c=6【操作】使用系列解包赋值实现变量交换常量Python不支持常量,即没有语法规则限制改变一个常量的道......
  • 相关性系数及其python实现 (转)
    转自: https://www.cnblogs.com/sddai/p/10332573.html参考文献:1.python皮尔森相关系数 https://www.cnblogs.com/lxnz/p/7098954.html2.统计学之三大相关性系数(pearson、spearman、kendall) http://blog.sina.com.cn/s/blog_69e75efd0102wmd2.html 1.personcorrelatio......