【Playwright爬虫数据采集代码示例!!值得深入学习代码】
为了提高反爬虫的稳定性,代理池和模拟真实用户行为是常见的优化手段。以下我将给出代理池的实现方式,并结合模拟真实用户行为的代码示例。
1. 代理池实现:
通过代理池,可以定期切换IP,避免因同一个IP频繁请求而被封锁。代理池可以是你自己搭建的代理列表,也可以使用第三方的付费代理服务。这里通过 asyncio
实现代理池轮换,并在每次请求时使用不同的代理IP。
2. 模拟真实用户行为:
模拟真实用户操作,包括:
- 更换
User-Agent
:每次请求时使用不同的User-Agent
来模拟不同设备和浏览器。 - 设置浏览器的
viewport
:设置不同的浏览器视口大小,避免所有请求都是相同的屏幕尺寸。 - 使用
headless=False
:使用可见浏览器,以模仿真实用户的行为(在某些情况下依然启用无头模式)。
代码实现:
import asyncio
import random
from playwright.async_api import async_playwright
import aiohttp
# 代理池 (可自定义添加更多代理)
proxy_pool = [
'http://proxy1.example.com:8080',
'http://proxy2.example.com:8080',
'http://proxy3.example.com:8080'
]
# 随机选择代理
def get_random_proxy():
return random.choice(proxy_pool)
# User-Agent 列表 (模拟不同的设备/浏览器)
user_agents = [
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36',
'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36',
'Mozilla/5.0 (iPhone; CPU iPhone OS 13_6_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.2 Mobile/15E148 Safari/604.1',
'Mozilla/5.0 (Linux; Android 10; SM-G975F) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Mobile Safari/537.36'
]
# 随机选择 User-Agent
def get_random_user_agent():
return random.choice(user_agents)
# 模拟用户行为:随机滚动页面,点击某些元素
async def simulate_human_behavior(page):
await asyncio.sleep(random.uniform(1, 3)) # 模拟随机的延迟
await page.mouse.wheel(0, random.randint(300, 1000)) # 模拟滚动
await asyncio.sleep(random.uniform(1, 2)) # 再次延迟
# 可以添加其他的操作,例如点击某个随机元素
# 异步下载图片
async def download_image(image_url, reg_number):
if image_url:
img_name = f"{reg_number}.jpg"
async with aiohttp.ClientSession() as session:
async with session.get(image_url) as response:
if response.status == 200:
content = await response.read()
with open(f'images/{img_name}', 'wb') as f:
f.write(content)
# 异步抓取图片 URL
async def fetch_image_url(browser, reg_number, proxy=None):
#示例网址
url = f'https://example.com/channel/search#/search?q={{"keyword":"{reg_number}"}}'
# 启动浏览器页面并配置代理和 User-Agent
context = await browser.new_context(
viewport={"width": random.randint(1024, 1920), "height": random.randint(768, 1080)},
user_agent=get_random_user_agent()
)
if proxy:
context = await browser.new_context(
proxy={"server": proxy},
user_agent=get_random_user_agent(),
viewport={"width": random.randint(1024, 1920), "height": random.randint(768, 1080)}
)
page = await context.new_page()
try:
# 模拟用户行为
await page.goto(url)
await simulate_human_behavior(page)
# 执行搜索操作
await page.click("//button[text()='搜索']")
# 等待图片加载完成
await page.wait_for_selector('div.trademark-img-big img', timeout=60000)
image_url = await page.locator('div.trademark-img-big img').get_attribute('src')
return image_url
except Exception as e:
print(f"Error fetching image for {reg_number}: {e}")
return None
finally:
await page.close()
# 主函数
async def main():
async with async_playwright() as p:
browser = await p.chromium.launch(headless=False) # 模拟真实用户行为,使用非无头模式
registration_numbers = ["123456789", "987654321", "456789123"] # 示例注册号
tasks = []
for reg_number in registration_numbers:
proxy = get_random_proxy() # 从代理池中随机获取代理
task = fetch_image_url(browser, reg_number, proxy=proxy)
tasks.append(task)
# 执行所有任务并收集结果
results = await asyncio.gather(*tasks)
for reg_number, image_url in zip(registration_numbers, results):
if image_url:
await download_image(image_url, reg_number)
await browser.close()
if __name__ == "__main__":
asyncio.run(main())
关键点解释:
-
代理池
proxy_pool
:通过get_random_proxy()
随机选择代理。此代理池可以包含多个代理服务器的地址,确保每次请求时使用不同的IP地址,减少反爬的风险。 -
随机 User-Agent:通过
get_random_user_agent()
函数,随机选择不同的User-Agent
,模拟不同的设备和浏览器请求,避免所有请求都来自同一个浏览器和设备标识。 -
页面模拟真实用户行为:
simulate_human_behavior(page)
模拟了用户滚动页面、延迟等行为,使爬虫行为更像真实用户。可以根据需求进一步扩展,加入点击、输入等行为。 -
异步图片下载:在
download_image()
函数中,通过aiohttp
异步下载图片到本地。 -
代理设置:在创建浏览器上下文时(
browser.new_context()
),通过proxy={"server": proxy}
设置代理服务器。每个上下文使用不同的代理和User-Agent
,模拟多样化的请求来源。 -
浏览器视口大小:使用随机的浏览器窗口大小(
viewport
),增加请求的多样性。
代理池改进建议:
- 可以通过第三方代理提供商(如
Bright Data
、Oxylabs
、SmartProxy
)获取大量高匿名代理,保证 IP 地址质量和访问速度。 - 代理池的管理可以进一步优化,例如动态添加和移除不可用的代理,或者使用带有验证的代理(带用户名和密码的代理)。
模拟行为改进建议:
- 增加更多的用户操作,如随机点击页面中的链接、模拟表单输入等。
- 利用
Playwright
的mouse
和keyboard
功能模拟更多人类行为,如键盘输入。