爬取【豆瓣电影top250数据】 python代码

时间：2024-02-08 10:44:49浏览次数：26

标签：python movie self 电影 data 爬取 url top250

import requests
import openpyxl
import re
import time
import pymysql
class DoubanSpider:
    def __init__(self):
        self.url_temp = "https://movie.douban.com/top250?start={}"
        self.headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36 Edg/121.0.0.0'}
        self.movie_data = []

    #获取电影数据
    def get_movie_data(self):
        i = 1
        for url in url_list:
            response = requests.get(url, headers=self.headers)
            text = response.text

            pattern = re.compile(r'<span class="title">(.*?)</span>.*?<p class="">\n\s*(.*?)<br>.*?<span class="rating_num" property="v:average">(.*?)</span>.*?<span>\d*人评价</span>\s*</div>\s*(.*?)</div>',re.S)
            items = re.findall(pattern, text)

            self.movie_data.append([{'电影名称': item[0], '导演与主演':  re.sub('&nbsp;', '', item[1]) ,
                     '电影评分': item[2], '电影引言': re.sub(r'<p class="quote">\s*<span class="inq">(.*?)</span>\s*</p>\s*',r'\1',item[3] if item[3] else '无')} for item in items])

            print('----第{}页----'.format(i))
            i = i+1
            time.sleep(1)
        print(self.movie_data)

    #存入excel
    def save_to_excel(self,wb):
        ws = wb.active
        ws.append(['电影名称', '导演与主演', '电影评分', '电影引言'])

        for movielist in self.movie_data:
            for movie in movielist:
                ws.append([movie['电影名称'], movie['导演与主演'], movie['电影评分'], movie['电影引言']])

        wb.save('douban_top250.xlsx')
        wb.close()

    # 存入数据库
    def save_to_sql(self):
        # 连接数据库
        try:
            conn = pymysql.connect(host='localhost',port=3306, user='root', password='yourpassword', db='dbtest')
            print('数据库成功连接')
            cursor = conn.cursor()
            # 创建movies表
            create_table_sql = '''CREATE TABLE IF NOT EXISTS movies (
                       id INT PRIMARY KEY AUTO_INCREMENT,   
                       title VARCHAR(20),
                       director VARCHAR(100),
                       score FLOAT,
                       rate VARCHAR(100)
                   );'''

            cursor.execute(create_table_sql)

            # 插入数据库
            insert_sql = '''
                   INSERT INTO movies (title, director, score, rate) VALUES (%s, %s, %s, %s)
                   '''
            for movielist in self.movie_data:
                for movie in movielist:
                    cursor.execute(insert_sql,
                               (movie['电影名称'], movie['导演与主演'], movie['电影评分'], movie['电影引言']))

            # 提交并关闭连接
            conn.commit()
            cursor.close()
            conn.close()

        except pymysql.Error:
            print('数据库无法连接')


if __name__ == '__main__':
    dbspider = DoubanSpider()
    url_list = [dbspider.url_temp.format(i*25) for i in range(10)]   #url列表
    dbspider.get_movie_data()
    wb = openpyxl.load_workbook('douban_top250.xlsx')      # douban_top250.xlsx表格
    dbspider.save_to_excel(wb)
    #dbspider.save_to_sql()

存入douban_top250.xlsx表格的一部分数据……：

………………

标签：python,movie,self,电影,data,爬取,url,top250
From： https://www.cnblogs.com/1019-Yan/p/18011646

用python写一个并发测试工具
工作中会有一些需要并发测试的场景，例如：两人同时操作一条数据，此时需要验证结果是否符合预期最初是借助jmeter来进行并发测试，建2个线程组，每个线程组中各放一个接口，启动时会同时执行个线程组中的接口，从而实现并发测试的目的但是每次都要打开jmeter，用起来不太方便，所以就尝试用pyt......
Python监控服务器
Python代码如下： importpsutilimporttimeimportpymysqldb=pymysql.connect(user="root",passwd="root",db="test",host="127.0.0.1")db.autocommit(True)cur=db.cursor()defgetinfo():mem=psutil.virtua......
Ubuntu源码安装Python
Ubuntu源码安装Python目前Ubuntu电脑需要升级Python，但根据源来升级，会出现报错，故记录用源码升级的方法。从官方链接下载源码：https://www.python.org/downloads/source/根据自己需求下载对应版本即可。这里笔者下载的是Python-3.10.0rc2.tgz解压：tar-zxvfPython-3.10.0rc......
Python实现软件设计模式9：组合模式 Composite Pattern
动机如何将容器和叶子进行递归组合，使得用户在使用时无须对它们进行区分，可以一致地对待容器和叶子？典型案例如：文件系统，在树形目录结构中，包含文件和文件夹两类不同的元素；在文件夹中可以继续包含文件或子文件夹，在文件中不能再包含子文件或者子文件夹。概念组合多个对象形成树形......
【视频】小甲鱼零基础入门学习Python(全96集)
视频下载地址：https://pan.quark.cn/s/c17e3da33a76目录1.第一讲：我和Python的第一次亲密接触2.第二讲：用Python设计第一个游戏3.第三讲：小插曲之变量和字符串4.第四讲：改进我们的小游戏5.第五讲：Python的数据类型6.第六讲：常用的操作符7.第七-九讲：了不起的分支和循环8.第十讲：一个......
[python3]: python --【class】类变量（类属性）
[python3]: python --【class】类变量（类属性）一、说明： 1、类变量：类变量，定义在【类内】且【函数外】。1classobject:23#class_variable4icount=0567def__init__(self):8#usingclass_vari......
Python 获取相对路径
想要获取当前文件的路径，通常我的做法是os.path.abspath(__file__)如果想要获取当前文件的所在文件夹，通常的做法是os.path.dirname(__file__)但是更多的时候，我想获取当前所在文件的父目录的父目录，做法可以是os.path.dirname(os.path.diranme(__file__))或path=os.path......
02 在vscode中使用python
安装插件需要先安装python这个插件安装完成后，创建一个文件夹，用于工程的创建。使用vscode打开这个文件夹，之后新建一个.py文件。编写第一个程序：print("hello")a=3b=4print(a+b)box="gogogo"name="lili"print("byby"+name)配置相关信息选择这个：......
Python中的包模块引用成员的方法
在Python中，包（package）和模块（module）是组织和管理代码的重要方式。将代码分成不同的模块或包可以更好地组织代码结构，使代码更易于维护和管理。说的通俗点，就是将代码整理成一块一块，然后使用时候相互拼接完成就可以使用，这样的好处是可用性高而且非常方便维护，尤其是在选择大型爬虫项目的......
Python编写游戏有什么注意
使用 Python 编写游戏时，有以下几个注意事项：游戏逻辑和设计：明确游戏的核心逻辑和目标，设计游戏的规则、关卡和玩家交互方式。图形和用户界面：如果需要图形界面，可以考虑使用游戏开发库，如Pygame、Pyglet或 Pygame Zero。性能优化：注意优化代码的性能，尤其是在处理复杂图形或大量数据......

爬取【豆瓣电影top250数据】 python代码

存入douban_top250.xlsx表格的一部分数据……：

………………

相关文章

赞助商

阅读排行

爬取 【豆瓣电影top250数据】 python代码

存入douban_top250.xlsx表格的一部分数据……：

………………

相关文章

赞助商

阅读排行

爬取【豆瓣电影top250数据】 python代码