首页 > 编程语言 >如何使用Python爬虫爬取电视剧数据

如何使用Python爬虫爬取电视剧数据

时间:2023-12-28 10:37:36浏览次数:30  
标签:drama HTML Python 爬虫 电视剧 爬取 html BeautifulSoup requests

要使用爬虫爬取电视剧数据,可以按照以下步骤进行:

导入所需的库:使用Python的requests库进行网络请求,使用BeautifulSoup库进行HTML解析。

如何使用Python爬虫爬取电视剧数据_网络请求

import requests
from bs4 import BeautifulSoup
http://www.jshk.com.cn/mb/reg.asp?kefu=xiaoding;//爬虫IP获取;

发送网络请求并获取HTML页面:使用requests库发送GET请求,获取电视剧页面的HTML内容。


response = requests.get(url)
html = response.text
解析HTML页面:使用BeautifulSoup库解析HTML页面,提取所需的数据。
soup = BeautifulSoup(html, "html.parser")

例如,提取电视剧名称和链接

drama_list = soup.find_all("div", class_="site-piclist_pic")
for drama in drama_list:
    name = drama.a.get("title")
    link = drama.a.get("href")
    print(name, link)

进一步爬取详细信息:如果需要获取更详细的电视剧信息,可以进一步爬取电视剧的详细页面。

假设已经获取到电视剧的链接


response = requests.get(drama_url)
html = response.text

解析详细页面并提取所需信息

soup = BeautifulSoup(html, "html.parser")

例如,提取电视剧的主演信息

actors = soup.find("div", class_="main_actor").find_all("a")
for actor in actors:
    print(actor.text)

标签:drama,HTML,Python,爬虫,电视剧,爬取,html,BeautifulSoup,requests
From: https://blog.51cto.com/u_16479648/9010191

相关文章

  • python从网络摄像头获取rstp视频流并截取图片保存
    def get_img_from_camera_net(folder_path):    cap = cv2.VideoCapture("rtsp://admin:[email protected]/ch1/stream1")#获取网络摄像机        i = 1    while i<3:        ret,frame = cap.read()        cv2.imshow("capture......
  • Python消息队列之Huey
    缘起:之前在Python中使用最多的就是Celery,同样的在这次项目中使用了Celery+eventlet的方式,但是由于具体执行的逻辑是使用的异步编写的,当时就出现了一个问题,当使用httpx的AsyncClient发送一个网络请求的时候,发生了阻塞,导致整个程序无法完整执行.于是就找替代方案,于是......
  • Rust爬取大A股票数据.rs
    externcratesimple_excel_writerasexcel;useexcel::*;fnmain()->Result<(),Box<dynstd::error::Error>>{  leturl:&str="http://94.push2.eastmoney.com/api/qt/clist/get?cb=jQuery1124040399874179311124_1685159655748&pn......
  • 【python爬虫课程设计】实习僧——数据分析与可视化
    实习僧数据分析与可视化选题背景随着中国经济的不断发展,实习市场也变得日益重要。学生们在求学期间通过实习获取工作经验,而企业则通过实习生计划发现并培养潜在的人才。实习僧作为一家专注于实习和校园招聘的在线平台,收集了大量的实习相关数据。通过对实习僧的数据进行爬取和......
  • 【Python】键鼠操作、区域截图
    1.跟踪鼠标位置importtime,osimportpyautoguiaspagtry:whileTrue:print("按下Ctrl+C结束程序")x,y=pag.position()posStr="当前鼠标位置:"+str(x).rjust(4)+','+str(y).rjust(4)print(posStr)......
  • Python 虚拟环境工具及使用总结
    ​ 参考文档:Python虚拟环境工具及使用总结1、virtualenvvirtualenv是一个创建隔离的Python环境的工具。它可以创建一个包含指定版本Python解释器的环境,并可以安装独立的库和依赖。Python官方提供的虚拟环境工具。Virtualenv 的原理是基于Python的模块化机制,通过创建一......
  • Python进阶
    Object介绍  Python的Object是一种数据抽象或者数据结构抽象,Object应该同时具备:本征值(Indentity)、型式(Type)、值(Value)三个参数。a=45print(id(a))#表示在python中的唯一内存地址,具备唯一性print(type(a))print(a)/*-----output-------*/2063144480432<class'int'>......
  • 【python爬虫课程设计】拉勾网—数据分析师岗位内容爬取+数据分析可视化
    一、选题背景随着互联网的发展,数据分析岗位在各行各业中的需求越来越大。拉勾网作为国内知名的招聘网站,其上的数据分析岗位信息具有很高的参考价值。通过对拉勾网上的数据分析岗位进行数据分析,可以了解当前数据分析岗位的市场情况,为求职者提供有价值的参考信息,同时也可以为企......
  • 简单的用Python采集下微博评论,制作可视化词云图
    简单的用Python来获取微博评论,制作词云图。首先准备环境模块环境使用Python3.8或以上版本即可Pycharm任意版本模块使用importrequestsimportwordcloudimportjieba 以上三个模块都需要安装,直接pipinstall加上模块名安装即可。爬虫基本流......
  • Python实战:从数据库到Excel的复杂查询结果处理【中】
    一、前言在上篇中,我已经成功从数据库查询到数据,并根据指定条件将数据写入到excel中,但是写入的数据和我们通过数据库连接工具查询到的结果并不一致,接下来我们就来解决:Python从数据库查询的数据保存到excel中后,数据格式异常的问题二、解决步骤分析现象使用Navicat从数据库查询到的数......