下文是用requests库编写的爬虫程序,用于爬取toutiao上的图片。程序使用了代理服务器,代理服务器的地址为duoip,端口号为8000。
import requests
from bs4 import BeautifulSoup
# 设置代理服务器
proxy_host = 'duoip'
proxy_port = 8000
proxy = {'http': 'http://' + proxy_host + ':' + str(proxy_port),
'https': 'http://' + proxy_host + ':' + str(proxy_port)}
# 发送GET请求
url = 'toutiao'
response = requests.get(url, proxies=proxy)
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有img标签
images = soup.find_all('img')
# 打印图片的src属性
for image in images:
print(image.get('src'))
这个程序首先设置了代理服务器,然后使用requests库发送了一个GET请求到toutiao。请求使用了设置的代理服务器。然后,使用BeautifulSoup库解析了返回的HTML内容。最后,程序找到了所有img标签,并打印出了它们的src属性,这些属性就是图片的URL。
标签:BeautifulSoup,代理服务器,爬虫,host,proxy,编写,requests,port From: https://blog.51cto.com/u_13488918/8202274