首页 > 其他分享 >深入探索Pyppeteer:从振坤行到阳光高考的网页爬取与数据处理实战

深入探索Pyppeteer:从振坤行到阳光高考的网页爬取与数据处理实战

时间:2024-07-26 17:56:24浏览次数:16  
标签:await 从振坤行 Pyppeteer 爬取 import div asyncio page browser

Pyppeteer

反屏蔽

selenium的消除指纹来源于pyppeteer的消除指纹.

所以有的网站仍会检测到消除指纹的selenium并屏蔽你,而此时用pyppeteer即可解决反屏蔽

安装

pip install pyppeteer

详细用法

官方文档:https://miyakogi.github.io/pyppeteer/reference.html

lanuch

使用 Pyppeteer 的第一步便是启动浏览器,首先我们看下怎样启动一个浏览器,其实就相当于我们点击桌面上的浏览器图标一样,把它运行起来。用 Pyppeteer 完成同样的操作,只需要调用 launch 方法即可。

# 设置启动时是否开启浏览器可视,消除控制条信息
    browser = await launch(headless=False, args=['--disable-infobars'])  # 设置浏览器和添加属性

无头模式

首先可以试用下最常用的参数 headless,如果我们将它设置为 True 或者默认不设置它,在启动的时候我们是看不到任何界面的,如果把它设置为 False,那么在启动的时候就可以看到界面了,一般我们在调试的时候会把它设置为 False,在生产环境上就可以设置为 True,我们先尝试一下关闭 headless 模式:

await launch(headless=False)

调试模式

另外我们还可以开启调试模式,比如在写爬虫的时候会经常需要分析网页结构还有网络请求,所以开启调试工具还是很有必要的,我们可以将 devtools 参数设置为 True,这样每开启一个界面就会弹出一个调试窗口,非常方便,示例如下:

browser = await launch(devtools=True)

禁用提示条

这时候我们可以看到上面的一条提示:“Chrome 正受到自动测试软件的控制”,这个提示条有点烦,那该怎样关闭呢?这时候就需要用到 args 参数了,禁用操作如下:

browser = await launch(headless=False, args=['--disable-infobars'])

防止检测

如何规避呢?Pyppeteer 的 Page 对象有一个方法叫作 evaluateOnNewDocument,意思就是在每次加载网页的时候执行某个语句,所以这里我们可以执行一下将 WebDriver 隐藏的命令,改写如下:

page.evaluateOnNewDocument('Object.defineProperty(navigator, "webdriver", {get: () => undefined})')

页面大小设置

在上面的例子中,我们还发现了页面的显示 bug,整个浏览器窗口比显示的内容窗口要大,这个是某些页面会出现的情况。

对于这种情况,我们通过设置窗口大小就可以解决,可以通过 Page 的 setViewport 方法设置,代码如下:

width, height = 1366, 768

await page.setViewport({'width': width, 'height': height})

用户数据持久化

以淘宝举例,平时我们逛淘宝的时候,在很多情况下关闭了浏览器再打开,淘宝依然还是登录状态。这是因为淘宝的一些关键 Cookies 已经保存到本地了,下次登录的时候可以直接读取并保持登录状态。

那么这个怎么来做呢?很简单,在启动的时候设置 userDataDir 就好了,示例如下:

browser = await launch(headless=False, userDataDir='./userdata', args=['--disable-infobars'])

Browser

开启无痕模式

我们知道 Chrome 浏览器是有一个无痕模式的,它的好处就是环境比较干净,不与其他的浏览器示例共享 Cache、Cookies 等内容,其开启方式可以通过 createIncognitoBrowserContext 方法,示例如下:

context = await browser.createIncognitoBrowserContext()

关闭

怎样关闭自不用多说了,就是 close 方法,但很多时候我们可能忘记了关闭而造成额外开销,所以要记得在使用完毕之后调用一下 close 方法,示例如下:

await browser.close()

Page

选择器

Page 对象内置了一些用于选取节点的选择器方法,如 J 方法传入一个选择器 Selector,则能返回对应匹配的第一个节点,等价于 querySelector。如 JJ 方法则是返回符合 Selector 的列表,类似于 querySelectorAll。

下面我们来看下其用法和运行结果,示例如下:

import asyncio
from pyppeteer import launch
from pyquery import PyQuery as pq
 
async def main():
   browser = await launch()
   page = await browser.newPage()
   await page.goto('https://dynamic2.scrape.cuiqingcai.com/')
   await page.waitForSelector('.item .name')
   j_result1 = await page.J('.item .name')
   j_result2 = await page.querySelector('.item .name')
   jj_result1 = await page.JJ('.item .name')
   jj_result2 = await page.querySelectorAll('.item .name')
   print('J Result1:', j_result1)
   print('J Result2:', j_result2)
   print('JJ Result1:', jj_result1)
   print('JJ Result2:', jj_result2)
   await browser.close()
 
asyncio.get_event_loop().run_until_complete(main())

在这里我们分别调用了 J、querySelector、JJ、querySelectorAll 四个方法,观察下其运行效果和返回结果的类型,运行结果:

J Result1: <pyppeteer.element_handle.ElementHandle object at 0x1166f7dd0>
J Result2: <pyppeteer.element_handle.ElementHandle object at 0x1166f07d0>
JJ Result1: [<pyppeteer.element_handle.ElementHandle object at 0x11677df50>, <pyppeteer.element_handle.ElementHandle object at 0x1167857d0>, <pyppeteer.element_handle.ElementHandle object at 0x116785110>,
...
<pyppeteer.element_handle.ElementHandle object at 0x11679db10>, <pyppeteer.element_handle.ElementHandle object at 0x11679dbd0>]
JJ Result2: [<pyppeteer.element_handle.ElementHandle object at 0x116794f10>, <pyppeteer.element_handle.ElementHandle object at 0x116794d10>, <pyppeteer.element_handle.ElementHandle object at 0x116794f50>,
...
<pyppeteer.element_handle.ElementHandle object at 0x11679f690>, <pyppeteer.element_handle.ElementHandle object at 0x11679f750>]

在这里我们可以看到,J、querySelector 一样,返回了单个匹配到的节点,返回类型为 ElementHandle 对象。JJ、querySelectorAll 则返回了节点列表,是 ElementHandle 的列表。

项卡操作

前面我们已经演示了多次新建选项卡的操作了,也就是 newPage 方法,那新建了之后怎样获取和切换呢,下面我们来看一个例子:

import asyncio
from pyppeteer import launch
 
async def main():
   browser = await launch(headless=False)
   page = await browser.newPage()
   await page.goto('https://www.baidu.com')
   page = await browser.newPage()
   await page.goto('https://www.bing.com')
   pages = await browser.pages()
   print('Pages:', pages)
   page1 = pages[1]
   await page1.bringToFront()
   await asyncio.sleep(100)
 
asyncio.get_event_loop().run_until_complete(main())

在这里我们启动了 Pyppeteer,然后调用了 newPage 方法新建了两个选项卡并访问了两个网站。那么如果我们要切换选项卡的话,只需要调用 pages 方法即可获取所有的页面,然后选一个页面调用其 bringToFront 方法即可切换到该页面对应的选项卡。

常见操作

作为一个页面,我们一定要有对应的方法来控制,如加载、前进、后退、关闭、保存等,示例如下:

import asyncio
from pyppeteer import launch
from pyquery import PyQuery as pq
 
async def main():
   browser = await launch(headless=False)
   page = await browser.newPage()
   await page.goto('https://dynamic1.scrape.cuiqingcai.com/')
   await page.goto('https://dynamic2.scrape.cuiqingcai.com/')
   # 后退
   await page.goBack()
   # 前进
   await page.goForward()
   # 刷新
   await page.reload()
   # 保存 PDF
   await page.pdf()
   # 截图
   await page.screenshot()
   # 设置页面 HTML
   await page.setContent('<h2>Hello World</h2>')
   # 设置 User-Agent
   await page.setUserAgent('Python')
   # 设置 Headers
   await page.setExtraHTTPHeaders(headers={})
   # 关闭
   await page.close()
   await browser.close()
 
asyncio.get_event_loop().run_until_complete(main())

这里我们介绍了一些常用方法,除了一些常用的操作,这里还介绍了设置 User-Agent、Headers 等功能。

点击

Pyppeteer 同样可以模拟点击,调用其 click 方法即可。示例如下:

import asyncio
from pyppeteer import launch
from pyquery import PyQuery as pq
 
async def main():
   browser = await launch(headless=False)
   page = await browser.newPage()
   await page.goto('https://dynamic2.scrape.cuiqingcai.com/')
   await page.waitForSelector('.item .name')
   await page.click('.item .name', options={
       'button': 'right',
       'clickCount': 1,  # 1 or 2
       'delay': 3000,  # 毫秒
   })
   await browser.close()
 
asyncio.get_event_loop().run_until_complete(main())

这里 click 方法第一个参数就是选择器,即在哪里操作。第二个参数是几项配置:

  • button:鼠标按钮,分为 left、middle、right。

  • clickCount:点击次数,如双击、单击等。

  • delay:延迟点击。

  • 输入文本

对于文本的输入,Pyppeteer 也不在话下,使用 type 方法即可,示例如下:

import asyncio
from pyppeteer import launch
from pyquery import PyQuery as pq
 
async def main():
   browser = await launch(headless=False)
   page = await browser.newPage()
   await page.goto('https://www.taobao.com')
   # 输入
   await page.type('#q', 'iPad')
   # 关闭
   await asyncio.sleep(10)
   await browser.close()
 
asyncio.get_event_loop().run_until_complete(main())

获取信息

Page 获取源代码用 content 方法即可,Cookies 则可以用 cookies 方法获取,示例如下

import asyncio
from pyppeteer import launch
from pyquery import PyQuery as pq
 
async def main():
   browser = await launch(headless=False)
   page = await browser.newPage()
   await page.goto('https://dynamic2.scrape.cuiqingcai.com/')
   print('HTML:', await page.content())
   print('Cookies:', await page.cookies())
   await browser.close()
 
asyncio.get_event_loop().run_until_complete(main())

执行JS

Pyppeteer 可以支持 JavaScript 执行,使用 evaluate 方法即可,看之前的例子:

import asyncio
from pyppeteer import launch
 
width, height = 1366, 768
 
async def main():
   browser = await launch()
   page = await browser.newPage()
   await page.setViewport({'width': width, 'height': height})
   await page.goto('https://dynamic2.scrape.cuiqingcai.com/')
   await page.waitForSelector('.item .name')
   await asyncio.sleep(2)
   await page.screenshot(path='example.png')
   dimensions = await page.evaluate('''() => {
       return {
           width: document.documentElement.clientWidth,
           height: document.documentElement.clientHeight,
           deviceScaleFactor: window.devicePixelRatio,
       }
   }''')

   print(dimensions)
   await browser.close()
 
asyncio.get_event_loop().run_until_complete(main())

延时等待

让页面等待某些符合条件的节点加载出来再返回。

  • waitForSelector:等待符合选择器的节点加载出来。
  • waitForXPath:等待符合 XPath 的节点加载出来。

消除指纹

pip install pyppeteer-stealth
from pyppeteer_stealth import stealth

# 消除指纹
await stealth(page)  # <-- Here

入库

基于异步的pyppeteer的入库可以不用基于异步的mysql(aiomysql)

振坤行案例

技术:基于异步的pyppeteer开多个协程进行爬取数据

import asyncio  # 协程
from pyppeteer import launch
from pyppeteer_stealth import stealth  # 消除指纹
from lxml import etree  # xpath解析数据
import pymysql
import re
import aiomysql

width, height = 1366, 768  # 设置浏览器宽度和高度


# 异步
async def async_basic(num, detail_url):
    pool = await aiomysql.create_pool(
        host="127.0.0.1",
        port=3306,
        user='root',
        password='123456',
        db='zhenkunxing',
    )
    async with pool.acquire() as conn:
        async with conn.cursor() as cursor:
            for x in range(10000):
                sql = 'insert into task_urls(type_id,url) values ("{}","{}")'.format(num, detail_url)
                # 执行sql语句
                await cursor.execute(sql)
            await conn.commit()

    # 关闭连接池
    pool.close()
    await pool.wait_closed()


# 爬取此分类url的所有商品的详细信息url网址
async def run(url):
    # 获取分类id
    global browser
    d = re.compile('https://www\.zkh\.com/list/c-(\d+)\.html')
    num = d.findall(url)[0]
    try:
        # 设置启动时是否开启浏览器可视,消除控制条信息
        browser = await launch(headless=False, args=['--disable-infobars'])  # 设置浏览器和添加属性
        # 开启一个页面对象
        page = await browser.newPage()
        # 设置浏览器宽高
        await page.setViewport({'width': width, 'height': height})
        # 消除指纹
        await stealth(page)  # <-- Here
        # 设置浏览器宽高
        await page.setViewport({'width': width, 'height': height})
        # await page.evaluateOnNewDocument('Object.defineProperty(navigator, "webdriver", {get: () => undefined})')
        # 访问某个页面
        current_page = 1
        await page.goto(url)
        while True:
            print(f"scraping {current_page} page start")
            await asyncio.sleep(2)
            # 获取最大页
            max_page_elem = await page.xpath("//b[@class='pagination-page-total']")
            if len(max_page_elem) == 0:
                break
            # 等待class=key的这个元素出现,等9秒,超过不出现报超时错误
            await page.waitForXPath('//div[@class="goods-item-wrap-new clearfix common-item-wrap"]',
                                    {'timeout': 9000})  # 根据xpath来等待某个节点出现
            # 拉滚动条
            await page.evaluate('window.scrollBy(200, document.body.scrollHeight)')
            await asyncio.sleep(1)
            # 拉滚动条
            await page.evaluate('window.scrollBy(200, document.body.scrollHeight)')
            await asyncio.sleep(1)
            # 拉滚动条
            await page.evaluate('window.scrollBy(200, document.body.scrollHeight)')
            await asyncio.sleep(1)

            # 等待class=key的这个元素出现,等9秒,超过不出现报超时错误
            await page.waitForXPath('//*[@id="app"]/div/div/div[5]/div[6]/div/div[2]/div/div/div[40]',
                                    {'timeout': 9000})  # 根据xpath来等待某个节点出现
            # 爬取信息
            divs = await page.xpath("//div[@class='goods-item-wrap-new clearfix common-item-wrap']")
            for div in divs:
                # 应该使用 . 来表示相对路径,这样会从当前的 div 元素开始查找。正确的 XPath 应该是 './/a'
                a = await div.xpath('./a')
                # print(a)
                # 商品详细信息url
                detail_url = await (await a[0].getProperty("href")).jsonValue()
                print(f"{num}, {detail_url}")
                await async_basic(num, detail_url)
            print(f"scraping {current_page} page end")

            max_page = await (await max_page_elem[0].getProperty("textContent")).jsonValue()
            if current_page == max_page:
                break
            else:
                current_page += 1
                # 等待class=key的这个元素出现,等9秒,超过不出现报超时错误
                await page.waitForXPath('//button[@class="nextbtn"]',
                                        {'timeout': 9000})  # 根据xpath来等待某个节点出现
                # 点击下一页
                await page.click('button.nextbtn', options={
                    'button': 'left',  # 左键点击
                    'clickCount': 1,  # 1 or 2
                    'delay': 3000,  # 毫秒  元素出现后延迟多少毫秒后点击
                })
    finally:
        await browser.close()


async def main():
    task_urls = ['https://www.zkh.com/list/c-10293630.html', 'https://www.zkh.com/list/c-11004927.html']

    await asyncio.gather(*[run(_) for _ in task_urls])


asyncio.get_event_loop().run_until_complete(main())

阳光高考案例

技术:基于异步的pyppeteer进行翻页爬取数据

import requests

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
import time

import asyncio  # 协程
from pyppeteer import launch
from pyppeteer_stealth import stealth  # 消除指纹
from lxml import etree  # xpath解析数据


# 使用selenium,他的stealth.min.js文件是不完全的,他是仿造pyppeteer的stealth的,所以有的网站他是无法访问的
# options = webdriver.ChromeOptions()
# # 设置无头模式
# # options.add_argument('--headless')
#
# # selenium新版本: 将谷歌驱动网址用service包裹一下
# service = Service('D:\extention\spider\day4\chormedriver\chromedriver-win64\chromedriver.exe')
# # 驱动
# browser = webdriver.Chrome(service=service, options=options)
#
# browser.maximize_window()  # 最大化浏览器窗口
# with open('stealth.min.js') as f:
#     js = f.read()
# browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
#     "source": js
# })
# browser.get('https://gaokao.chsi.com.cn/sch/search--ss-on,option-qg,searchType-1,start-0.dhtml')

width, height = 1366, 768  # 设置浏览器宽度和高度


#
async def main():
    # 设置启动时是否开启浏览器可视,消除控制条信息
    browser = await launch(headless=False, args=['--disable-infobars'])  # 设置浏览器和添加属性
    # 开启一个页面对象
    page = await browser.newPage()
    # 设置浏览器宽高
    await page.setViewport({'width': width, 'height': height})
    # 消除指纹
    await stealth(page)  # <-- Here
    # 设置浏览器宽高
    await page.setViewport({'width': width, 'height': height})
    # await page.evaluateOnNewDocument('Object.defineProperty(navigator, "webdriver", {get: () => undefined})')
    # 访问某个页面

    await page.goto('https://gaokao.chsi.com.cn/')
    await page.waitForXPath('//ul[@class="clearfix margin-b4"]/li[2]/a')  # 根据xpaath来等待某个节点出现
    await page.click('ul.nav-index-list li:nth-child(2) ul:nth-child(1) li:nth-child(2) a', options={
        'button': 'left',  # 左键点击
        'clickCount': 1,  # 1 or 2
        'delay': 3000,  # 毫秒  元素出现后延迟多少毫秒后点击
    })
    for _ in range(3):
        print(f"scraping {_+1} page start")
        await asyncio.sleep(2)
        # 等待元素出现 根据CSS选择器的语法等待某个节点出现,跟pyquery语法差不多
        await page.waitForSelector('div.sch-list-container')
        # 拉滚动条
        # arg1: 文档向右滚动的像素数 arg2: 文档向下滚动的像素数
        await page.evaluate('window.scrollBy(200, document.body.scrollHeight)')
        # 等待最后一个商品出现
        await asyncio.sleep(2)
        await page.waitForXPath('//*[@id="app-yxk-sch-list"]/div[1]/div[20]')
        # 获取页面源码就可以采取 xpath进行数据解析,没必要用pyppeteer的解析方式去解析
        # divs = etree.HTML(await page.content()).xpath('//div[@class="sch-item"]')
        # for div in divs:
        #     title = div.xpath('div[1]/div[1]/a/text()')[0].strip()
        #     print(title)

        # 这个是不获取页面源码但使用xpath的解析方式去解析
        li_list = await page.xpath('//div[@class="sch-item"]')
        for i in li_list:
            a = await i.xpath('div[1]/div[1]/a')
            b = await i.xpath('div[1]/a[1]')
            # 取商品标题
            title = await (await a[0].getProperty("textContent")).jsonValue()
            desc = await (await b[0].getProperty("textContent")).jsonValue()
            print(title, desc)
        print(f"scraping {_ + 1} page end")
        # 点击下一页 //li[@class='lip'][3]/a[@class='changepage-icon']
        await page.click('ul.ch-page li:nth-child(9) a.changepage-icon', options={
            'button': 'left',  # 左键点击
            'clickCount': 1,  # 1 or 2
            'delay': 3000,  # 毫秒  元素出现后延迟多少毫秒后点击
        })
    await asyncio.sleep(100)

asyncio.get_event_loop().run_until_complete(main())

OCR识别

这里先简单介绍一下免费的OCR识别库ddddocr

后续会介绍百度OCR识别以及如何训练OCR

安装

pip install ddddocr
pip install ddddocr -i https://pypi.tuna.tsinghua.edu.cn/simple/

使用

import ddddocr
from PIL import Image
im = Image.open("D:\\1\\资料\\项目列\\87\\code.png")
try:
    #放大图片
    image=im.resize((3000,300))
    #将新图像保存至桌面
    image.save("D:\\1\\资料\\项目列\\87\\big.png")
    print("查看新图像的尺寸",image.size)
except IOError:
    print("放大图像失败")

ocr = ddddocr.DdddOcr()
with open('big.png', 'rb') as f:
	img_bytes = f.read()
res = ocr.classification(img_bytes)
print('识别出的验证码为:' + res)

更多精致内容:[CodeRealm]

标签:await,从振坤行,Pyppeteer,爬取,import,div,asyncio,page,browser
From: https://www.cnblogs.com/CodeRealm/p/18325945

相关文章

  • 国资央企招聘平台的招聘信息爬取
    前言国资央企招聘平台集成了众多国企央企的招聘。写一个脚本实现一下各个岗位的招聘接口当抓包的时候发现,这些岗位信息都是通过接口发布的。因此可以通过获取这个接口的数据爬取。编写代码:'''基于国资央企招聘平台的招聘信息。https://cujiuye.iguopin.com/'''import......
  • 爬虫爬取免费代理ip(附源码)
    在爬取某些网站的时候我们有可能遇到ip反爬措施,通常可以使用代理ip的方法应对,本次我们要爬取的是国内某知名的代理ip网站,并挑选出其中响应速度符合我们要求的IP。爬取代码如下:defget_ip(last):proxies_list=[]#ip池forpageinrange(1......
  • python中scrapy爬取数据get()与getall()区别
    在使用scrapy进行爬取数据的时候,有些时候需要爬取的是一段文本,或者一个div里面有很多内容,这时候我们就要使用到get()或者getall()来获取数据: get():是获取的满足条件的第一个数据。getall():是获取的满足条件的所有数据。scrapyget()getall()原理在Scrapy中,get(......
  • pyqt5-网易云热歌列表爬取
    利用pyqt5实现网易云热歌列表爬取简单思路说明:利用QScrollArea滚动显示,QFlowLayout做布局,放置自定义的WidgetQNetworkAccessManager异步下载网页和图片QScrollArea滚动到底部触发下一页加载自定义控件说明:主要是多个layout和控件的结合,其中图片QLabel为自定义,通过setPixmap......
  • Heroku 上的 Pyppeteer 浏览器意外关闭
    我在Heroku上升级了我的堆栈,我注意到一条消息告诉我使用较新的chromebuildpack,而不是我使用过的较旧的buildpack。从逻辑上讲,我继续安装这个构建包按照说明。selenium.webdriver工作正常,但是pyppeteer根本不起作用,这是我遇到的错误:2024-07-24T......
  • 利用request + BeautifulSoup 模块批量爬取内容,实现批量获取书名对应的豆瓣评分
    文章目录代码代码解释控制台输出结果代码#-*-coding:utf-8-*-frombs4importBeautifulSoupimportrequests,time,jsonheaders={"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/79.0.394......
  • 爬虫:爬取王者荣耀技能信息
    爬虫:爬取王者荣耀技能信息(代码和代码流程)代码#王者荣耀英雄信息获取importtimefromseleniumimportwebdriverfromselenium.webdriver.common.byimportByif__name__=='__main__':fp=open("./honorKing.txt","w",encoding='utf8')#......
  • 《0基础》学习Python——第二十四讲__爬虫/<7>深度爬取
    一、深度爬取        深度爬取是指在网络爬虫中,获取网页上的所有链接并递归地访问这些链接,以获取更深层次的页面数据。        通常,一个简单的爬虫只会获取到初始页面上的链接,并不会进一步访问这些链接上的其他页面。而深度爬取则会不断地获取链接,并继续访问......
  • 哔哩哔哩_B站_Bilibili视频弹幕爬取与数据分析python
    ​B站弹幕爬取与数据分析一、项目背景在互联网时代,用户生成内容(UGC)成为了研究社交行为和文化趋势的重要数据来源。B站(哔哩哔哩)作为一个主要的弹幕视频分享平台,聚集了大量的用户评论和互动数据。弹幕作为一种实时的用户反馈形式,具有即时性和高互动性的特点,为数据分析提供了丰富......
  • Python爬虫实战案例(爬取文字)
    爬取豆瓣电影的数据首先打开"豆瓣电影Top250"这个网页:按F12,找到网络;向上拉动,找到名称栏中的第一个,单机打开;可以在标头里看到请求URL和请求方式,复制URL(需要用到);在表头的最下面有"User-Agent",也复制下来(也可以下载pipinstallfake_useragent库,用别人写好的UA)。定位......