首页 > 编程语言 >python爬虫爬取豆瓣电影top250并写入Excel中

python爬虫爬取豆瓣电影top250并写入Excel中

时间:2024-02-06 10:45:22浏览次数:33  
标签:wb python Excel 爬取 headers ws nbsp top250

import requests
import re
import openpyxl
#创建工作表
wb=openpyxl.Workbook()
ws=wb.active
#调整列距
for letter in ['B','C']:
ws.column_dimensions[letter].width=66
#发送网络请求
headers={"User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36 SLBrowser/9.0.0.10191 SLBChan/109'}
for num in range(0, 250, 25):
response=requests.get(f"https://movie.douban.com/top250?start={num}",headers=headers)
html=response.text
#页面解析
obj=re.compile(r'<li>.*?<span class="title">(?P<name>.*?)</span>'
r'.*?<p class="">[\s\t\r\n]*(?P<director>.*?)&nbsp;&nbsp;&nbsp;(?P<actor>.*?)<br>'
r'.*?<span class="rating_num" property="v:average">(?P<rate>.*?)</span>'
r'.*? <span class="inq">(?P<quote>.*?)</span>',re.S)
result=obj.finditer(html)
#将数据写入Excel
for it in result:
match=it.groupdict()
ws.append(list(match.values()))
wb.save('豆瓣电影Top250.xlsx')

标签:wb,python,Excel,爬取,headers,ws,nbsp,top250
From: https://www.cnblogs.com/leiyanyy/p/18009327

相关文章

  • python发送、接收exchange邮件
    导包importdatetimefrompathlibimportPathimportpytzfromexchangelibimportConfiguration,Account,DELEGATE,Q,Credentials,HTMLBody,Message,FileAttachmentfromexchangelib.protocolimportCachingProtocol连接邮箱server='example.com'do......
  • 打造个性化日历:Python编程实现,选择适合你的方式!
    在本文中,我们将使用Python编写一个简单的日历程序。虽然市面上已经存在现成的日历功能,并且有第三方库可以直接调用实现,但我们仍然希望通过自己编写日历程序来引出我认为好用的日历实现。希望这篇文章能够对你有所帮助。在Python官方文档中,我们可以找到一个名为"calendar"的模块,它......
  • ML-Agents Python包安装
    Unity的机器学习工具包ML-Agents还是挺好用的,但是其Python后端在安装的过程中会出一些问题,在这里记录一下。为了方便多Python环境管理,我在搭建环境的时候使用了Anaconda包管理器。目前ML-Agents支持的Python版本为3.10.12,版本过高或过低都可能会缺少对应的依赖。打开一个PowerShe......
  • 100000行级别数据的 Excel 导入优化之路
    项目中有一个Excel导入的需求:缴费记录导入由实施/用户将别的系统的数据填入我们系统中的Excel模板,应用将文件内容读取、校对、转换之后产生欠费数据、票据、票据详情并存储到数据库中。在接手之前可能由于之前导入的数据量并不多没有对效率有过高的追求。但是到了4.0版本,......
  • EXCEL C# 聚光灯
    C#EXCEL版本聚光灯,开发框架利用EXCELDNA开源库publicstaticclassExtension{staticApplication_xlapp=(Application)ExcelDnaUtil.Application;publicconststringMyConditionRng="$1:$1048576";[ExcelCommand(MenuName="拓展",Menu......
  • Python中利用all()来优化减少判断的代码
    ​ Python中,all()函数是一个非常实用的内置函数,用于检查可迭代对象中的所有元素是否都满足某个条件。当你需要对多个条件进行逻辑与(AND)操作时,使用all()可以使代码更加简洁和可读。 参考文档:Python中利用all()来优化减少判断的代码-CJavaPy1、使用all()减少判断要检查......
  • Python 机器学习 特征预处理
    1、缩放特征(FeatureScaling)特征预处理是一个重要的步骤,而特征缩放(FeatureScaling)是其中的一个关键环节。特征缩放通常用于标准化数据集中各个特征的范围,使它们在相似的尺度上。这一步骤对于许多机器学习算法特别重要,尤其是那些基于距离的算法(如K-近邻)和梯度下降法(如线性回归、......
  • [office] Excel2010删除批注教程
    现在,很多人在使用excel2010的时候,经常会对其进行批注,但是过一段时间后,如果Excel2010工作表中的单元格批注失去存在的意义,用户可以将其删除。那么,Excel2010怎么删除批注?今天,小编就为大家带来Excel2010删除批注教程。Excel2010打开Excel2010工作表窗口,右键单击含有批注的单......
  • 导出excel文件接口代码示例
    导出excel文件接口代码示例1.该导出接口,token不能通过请求头来传输,需要在get请求的参数中带出来2.验证token的方法除了在拦截器中统一拦截,针对get接口传参数的方式也需要单独在接口中验证。@RequestMapping(value="export",method=RequestMethod.GET)publicString......
  • Python文本转语音库:pyttsx3 初识
    1.安装pipinstallpyttsx32.示例#coding=utf-8importpyttsx3text="""在这个例子中,使用三引号可以创建多行字符串,换行符会自动包含在字符串中。请注意,在这些方法中,字符串的换行拼接可以根据需要进行布局,以增强代码的可读性和可维护性。"""engine=pyttsx3.init()......