首页 > 编程语言 >【Python】【爬虫】爬取豆瓣电影评分

【Python】【爬虫】爬取豆瓣电影评分

时间:2022-12-02 22:02:44浏览次数:32  
标签:group Python resp 爬虫 dic 爬取 headers year print

import requests
import re
import csv

url = "https://movie.douban.com/top250"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36 Edg/107.0.1418.62"
}
resp = requests.get(url, headers=headers)
page_content = resp.text
obj = re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)'
r'</span>.*?<p class="">.*?<br>(?P<year>.*?) .*?<span '
r'class="rating_num" property="v:average">(?P<score>.*?)</span>.*?'
r'<span>(?P<num>.*?)人评价</span>',re.S)
result = obj.finditer(page_content)
f=open("data.csv",mode="w")
csvwriter = csv.writer(f)
for it in result:
#print(it.group("name"))
# print(it.group("score"))
# print(it.group("num"))
# print(it.group("year").strip())
dic = it.groupdict()
dic['year'] =dic['year'].strip()
csvwriter.writerow(dic.values())
f.close()
print("over!")

【Python】【爬虫】爬取豆瓣电影评分_User

【Python】【爬虫】爬取豆瓣电影评分_User_02

标签:group,Python,resp,爬虫,dic,爬取,headers,year,print
From: https://blog.51cto.com/u_15865347/5907614

相关文章

  • Python数据分析(一)--Numpy学习
    Numpy学习1.数据的维度1.1一维数据一维数据由对等关系的有序或无序数据构成,采用线性方式组织。对应列表(有序)、数组和集合(无序)等类型。例子:列表和数组相同点:......
  • Python+NumPy绘制常见曲线的方法详解_python
    一、利萨茹曲线二、计算斐波那契数列 三、方波方波可以近似表示为多个正弦波的叠加。任意一个方波信号都可以用无穷傅里叶级数来表示。需要累加很多项级数,且级数越......
  • python生成中奖号码工具
    前言:不知道有没有人和我一样,学习python编程的时候有个想法,模似中奖程序,预测中奖号码。废话不多说,直接实操。一、红球1-32蓝球1-15二、中奖规则一等奖:6个红色球号码+1个蓝色......
  • opencv的学习记录(python)
    作为最容易上手之一的语言,python拥有着大量的第三方库,这些第三方库的存在使得很多人可以专注于业务逻辑、数学逻辑而忽略繁琐的代码操作,python的opencv第三方库就是其中之......
  • 跳一跳 Python小程序 小白指南 Android和iOS都可以用
    小白一枚,最近网上比较火的微信“跳一跳”小程序,刷爆了朋友圈,之后怀着好奇心在网上看到有大神自己写了一个python脚本,于是打算借来玩一下,倒腾了半天,各种配置,下面记录一下出现......
  • 13章python实训
    实验报告【实验目的】 1.掌握Pygame的基础知识。【实验条件】1.PC机或者远程编程环境。 【实验内容】1.完成第十三章  实例01:篮球自动弹跳。  实例01:创......
  • python连接mongodb数据库
    python连接mongodb数据库frombeanieimportDocument,init_beanieimportasynciofrommotor.motor_asyncioimportAsyncIOMotorClientclassPerson(Document):......
  • JAVA网络爬虫
    一、前置背景1、URL定义   统一资源标识符(UniformResourceIdentifier,URL)是采用一种特定语法标识一个资源的字符串。所标识的资源可能是服务器上的一个文件。Java......
  • Python使用GARCH,EGARCH,GJR-GARCH模型和蒙特卡洛模拟进行股价预测|附代码数据
    全文下载链接:http://tecdat.cn/?p=20678在本文中,预测股价已经受到了投资者,政府,企业和学者广泛的关注。然而,数据的非线性和非平稳性使得开发预测模型成为一项复杂而具有挑......
  • Python中内置数据库!SQLite使用指南! ⛵
    ......