首页 > 编程语言 >requests库编写的爬虫程序没有那么难!

requests库编写的爬虫程序没有那么难!

时间:2023-11-06 11:03:15浏览次数:43  
标签:BeautifulSoup 代理服务器 爬虫 host proxy 编写 requests port

下文是用requests库编写的爬虫程序,用于爬取toutiao上的图片。程序使用了代理服务器,代理服务器的地址为duoip,端口号为8000。

requests库编写的爬虫程序没有那么难!_HTML

import requests
from bs4 import BeautifulSoup

# 设置代理服务器
proxy_host = 'duoip'
proxy_port = 8000
proxy = {'http': 'http://' + proxy_host + ':' + str(proxy_port),
         'https': 'http://' + proxy_host + ':' + str(proxy_port)}

# 发送GET请求
url = 'toutiao'
response = requests.get(url, proxies=proxy)

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response.text, 'html.parser')

# 找到所有img标签
images = soup.find_all('img')

# 打印图片的src属性
for image in images:
    print(image.get('src'))

这个程序首先设置了代理服务器,然后使用requests库发送了一个GET请求到toutiao。请求使用了设置的代理服务器。然后,使用BeautifulSoup库解析了返回的HTML内容。最后,程序找到了所有img标签,并打印出了它们的src属性,这些属性就是图片的URL。

标签:BeautifulSoup,代理服务器,爬虫,host,proxy,编写,requests,port
From: https://blog.51cto.com/u_13488918/8202274

相关文章

  • swift语言用哪种库适合做爬虫?
    因为Swift语言并没有在语言层面上支持正则表达式,这对于爬虫来说是一个很大的缺陷。不过,Swift语言可以通过调用其他语言的库来实现爬虫功能,比如可以使用Python的BeautifulSoup库或者JavaScript的Cheerio库来解析HTML页面。但是相比于Python和JavaScript等专门用于爬虫的语言,Swift语......
  • 软件工程读后感4-编写有效用例1
    最近,我阅读了编写有效用例的第一部分。用例是代表系统中各个项目相关人员之间就系统的行为所达成的契约。用例描述了在不同条件下,系统对某一项目相关人员的请求所作出的响应。过去,我对于用例是什么的了解不够深入,将来我会尽量了解用例是什么,提高自己对于用例的认识。范围一词用来......
  • 国货之光?用Rust编写的Vivo Blue OS
    ❝人生有两出悲剧:一是万念俱灰,另一是踌躇满志。——萧伯纳❞大家好,我是「柒八九」。前言“老乡,老乡,你看东方是不是有一轮朝阳在冉冉升起”。-一个稚嫩的声音从屋子中传来。而此时,一位佝偻着背的秃头老者正在简陋的屋子中,正无精打采的在用字迹早已模糊不清的键盘鼓捣着IDE,从电脑屏......
  • 8. 从零用Rust编写正反向代理, HTTP改造篇之HPACK原理
    wmproxywmproxy是由Rust编写,已实现http/https代理,socks5代理,反向代理,静态文件服务器,内网穿透,配置热更新等,后续将实现websocket代理等,同时会将实现过程分享出来,感兴趣的可以一起造个轮子法项目++wmproxy++gite:https://gitee.com/tickbh/wmproxygithub:https://github.com/tic......
  • 【爬虫】一次爬取某瓣top电影前250的学习记录
    先贴上爬取的脚本:importrequestsimportreforiinrange(1,11):  num=(i-1)*25  url=f"https://movie.douban.com/top250?start={num}&filter="  head={"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KH......
  • 编写代码,演示多个字符从两端移动,向中间汇聚
    #include<stdio.h>#include<string.h>   //定义strlen。#include<windows.h>   //定义sleep#include<stdlib.h>   //定义systemintmain(){  chararr1[]="welcometobit!!!!!!";   //为字符串。  chararr2[]="######......
  • 爬虫爬取到标签内容有时为空有时正常,请问怎么解决?
    当爬虫爬取标签内容时,遇到有时为空有时正常的情况,可能是由于以下原因导致的:网站的动态内容:某些网站使用JavaScript来加载页面内容,爬虫在请求页面时可能无法获取到完整的HTML内容。这可能导致一些标签在某些时候为空。解决这个问题,你可以尝试使用Headless浏览器(如Puppeteer)来模拟浏......
  • 2.3编写代码
    实体类packagepojo;//实体类publicclassUser{privateintid;privateStringname;privateStringpwd;​publicUser(){}​publicUser(intid,Stringname,Stringpwd){this.id=id;this.name=name;......
  • 如何使用scrapy库编写一个滴滴采集程序
    今天给大家分享一个使用scrapy库的爬虫程序,并使用Python来爬取滴滴官网的视频。我个人觉得没什么太大的用,供大家学习一下吧。```pythonimportscrapyclassDidiglobalVideoSpider(scrapy.Spider):name='didiglobal_video'start_urls=['https://www.didiglobal.com/']#使......
  • Casablanca库编写爬虫采集苏宁视频
    昨天我们讲了一个采集苏宁易购视频的程序,有粉丝说有点复杂,那么今天我就用Casablanca库重新编写一个C++爬虫程序,来采集苏宁的视频,这个可更加简单,一起来学习一下吧。代码如下:```cppnamespacehttp=casablanca::http;namespaceio=boost::iostreams;namespacessl=casabl......