首页 > 其他分享 >猫眼电影爬虫

猫眼电影爬虫

时间:2023-11-15 13:23:07浏览次数:34  
标签:name url text 电影 爬虫 soup html file 猫眼

步骤
首先利用pip指令安装所需要的soup以及request库(pip下载速度慢可使用pip镜像,更改下载路径到国内网站)
然后对猫眼电影网站进行分析,利用request进行信息的获取,利用soup库进行信息查找和整理。最后进行输出,写入txt文件中
代码的实现如下

import requests
from bs4 import BeautifulSoup

def movie(url):
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/58.0.3029.110 Safari/537.3",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
}

#print("craw html:", url)

def write(file_name, data):
with open(file_name, "w", encoding="utf-8") as file:
file.write(data)

response = requests.get(url, headers=headers)
response.encoding = 'utf-8'
html_content = response.text
soup = BeautifulSoup(html_content, 'html.parser')
outputs = soup.find_all('p', {'class': 'name'})
#print(outputs)
with open("output.txt", "a", encoding="utf-8") as file:
for output in outputs:
file.write(output.text + "\n")


for a in range(0, 100, 10):
url = f"https://www.maoyan.com/board/4?offset={a}"
movie(url)

遇到的问题

电影榜单需要翻页,找出每页的网址的规律,利用函数进行循环,依次打出10页的内容,完成输出。有时候爬取内容获取不到或者不全,需要进入网页进行一下验证后再次爬取。

标签:name,url,text,电影,爬虫,soup,html,file,猫眼
From: https://www.cnblogs.com/darling1004/p/17833594.html

相关文章

  • 爬虫-Scrapy框架(一)-工具
    Scrapy框架一、前言1、介绍前面我们学习了基础的爬虫实现方法和selenium以及数据库,那么接下来会我们学习一个上场率非常高的爬虫框架:scrapy2、内容scrapy的基础概念和工作流程scrapy入门使用二、scrapy的概念和流程学习目标:了解scrapy的概念掌握scrapy框架的运行流......
  • Python爬虫程序网络请求及内容解析
    以下是一个简单的Python爬虫程序,用于爬取商户的内容。这个程序使用了requests和BeautifulSoup库来进行网络请求和内容解析。importrequestsfrombs4importBeautifulSoup#爬虫爬虫IP信息proxy_host='duoip'proxy_port='8000'#请求URLurl='目标网站'#创建一个r......
  • 【Python】爬虫代理IP的使用+建立代理IP池
    前言在进行网络爬虫开发时,我们很容易遭遇反爬虫机制的阻碍。为了规避反爬虫机制,我们可以使用代理IP。代理IP是指通过代理服务器获取的可用于访问目标网站的IP地址,通过使用代理IP,我们可以隐藏自己的真实IP地址,避免被目标网站封禁。但是,在使用代理IP时,我们需要注意一些问题:代理IP的质......
  • 爬虫代码抓取
    ``科特林导入okhttp3.OkHttpClient导入okhttp3.Request导入okhttp3.Response有趣的主(){  valproxyHost="www.duoip.cn"  val端口=8000  valurl="https://www.10jqka.com.cn/"  valproxy=Proxy(Proxy.Type.HTTP,InetSocketAddress(proxy......
  • 爬虫代码抓取
    #导入httpRequest库importhttpRequest#创建一个httpRequest对象http=httpRequest.HttpRequest()#设置服务器的主机名和端口号http.setProxy("www.duoip.cn",8000)#设置要下载的URLurl="https://www.iqiyi.com/"#使用http对象下载URL的内容response=http.......
  • C++编程爬虫代码全过程分享
    以下是使用C++编写一个爬虫程序的基本步骤和代码示例:1、首先,我们需要包含必要的库文件。在这个例子中,我们将使用<iostream>、<string>和<curlpp/cURLpp.hpp>库。#include<iostream>#include<string>#include<curlpp/cURLpp.hpp>#include<curlpp/Easy.hpp>#include<curlpp/......
  • python爬虫实战-小说爬取
    python爬虫实战-小说爬取基于requests模块与lxml模块编写的爬虫,目标小说网站为https://www.hongxiu.com/category/基本思路主要内容分为三个部分使用requests模块获取网页内容使用lxml模块进行网页解析将解析出来的数据存储进MySQL数据库中获取网页内容网站分析......
  • Rust写的爬虫代码抓取精美的图片
    Rust是一种系统级编程语言,它的设计目标是安全、并发和高效。Rust的爬虫库非常丰富,例如scraper、select、reqwest等等。这些库提供了许多功能,例如HTML解析、HTTP请求、异步处理等等,使得Rust成为一个非常适合编写爬虫的语言。以下是一个使用reqwest和scraper库编写的简单爬虫示例,用于......
  • 爬虫-python面对对象-工具
    一、面向对象基础1、面向对象思想简介软件编程就是将我们的思维转变成计算机能够识别语言的一个过程什么是面向过程?自上而下顺序执行,逐步求精其程序结构是按功能划分为若干个基本模块,这些模块形成一个树状结构;各模块之间的关系尽可能简单,在功能上相对独立每一模块内部......
  • Python爬虫 - Scarpy入门学习
    爬虫的分类通用爬虫:通用爬虫是搜索引擎爬虫的重要组成部分,主要是将互联网上的网页下载到本地,再对这些网页做相关处理(提取关键字、去掉广告),最后提供一个用户检索接口。聚焦爬虫:聚焦爬虫是根据指定的需求抓取网络上指定的数据。增量式爬虫:增量式爬虫是用来检测网站数据更新的情况,且可......