首页 > 编程语言 >python使用selenium和PyPDF2保存多个html页面为pdf

python使用selenium和PyPDF2保存多个html页面为pdf

时间:2024-08-08 14:05:40浏览次数:19  
标签:title python selenium elem PyPDF2 url titles pdf re

检索资料时看到比较完备的资料,想着要把所有页面保存下来。正好使用下requests和BeautifulSoup库获取和解析所有的静态页,把静态页保存为单个pdf文件,然后再把所有的pdf文件合并起来生成1个PDF文档。

本来想使用python子进程调用wkhtmltopdf工具把静态页生成为单个pdf,然而如此一来pdf上每页必然有当前html页面的导航和目录等不想要的内容,然后看到了页面上有下载为pdf的按钮,下载下来的文件只包含了当前页面的内容,这样就很符合期待了。然而每个页面这样操作也是大大的工程量,更别说合并pdf的顺序问题了...

因此唯一的方案就是看看有没有什么方法可以模拟用户操作浏览器打印当前页面-保存为pdf的操作了。

进一步检索资料发现可以用selenium自动化测试框架来实现

将html页面保存为pdf

import requests, re, os, random
import json, time
from selenium import webdriver

pdf_dir = "dir"

# 下载pdf
def downloadPdf(params):
    time.sleep(random.randint(1, 5))  # 延时几秒开始下载

    title, url = params
    chrome_options = webdriver.ChromeOptions()
    chrome_options.add_argument("--enable-print-browser")
    chrome_options.add_argument("--kiosk-printing")
    settings = {
        "recentDestinations": [{"id": "Save as PDF", "origin": "local"}],
        "selectedDestinationId": "Save as PDF",
        "version": 2,
        "isHeaderFooterEnabled": False,
        "isCssBackgroundEnabled": False,
        "mediaSize": {"height_microns": 297000, "width_microns": 210000, "name": "ISO_A4", "custom_display_name": "A4"},
    }
    prefs = {
        "printing.print_preview_sticky_settings.appState": json.dumps(settings),
        "savefile.default_directory": pdf_dir,  # 下载文件保存的路径
    }
    chrome_options.add_experimental_option("prefs", prefs)

    driver = webdriver.Chrome(options=chrome_options)
    driver.get(url)
    driver.execute_script("document.title='" + title + "';window.print();")
    time.sleep(3)  # 等待页面加载完成

获取页面的目录url并将url页面保存为单个pdf文档

获取页面,并解析页面拿到目录的url地址

import requests
from bs4 import BeautifulSoup

main_url = "url"


def getUrls():
    titles = []
    urls = []

    url_begin = main_url + "index.html"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36",
    }
    response = requests.get(url_begin, headers=headers)
    if response.status_code == 200:
        response.encoding = "utf-8"
        soup = BeautifulSoup(response.content, "lxml")

        titles_exc = []
        elems_l1 = soup.find_all("li", class_=re.compile("toctree-l1"))
        for elem in elems_l1:
            title_elem = elem.find("a", class_=re.compile("reference internal"))
            title = re.sub(r"\s+", "", title_elem.get_text().strip())
            titles_exc.append(title)
        elems_l2 = soup.find_all("li", class_=re.compile("toctree-l2"))
        for elem in elems_l2:
            title_elem = elem.find("a", class_=re.compile("reference internal"))
            title = re.sub(r"\s+", "", title_elem.get_text().strip())
            titles_exc.append(title)

        elems = soup.find_all("a", class_=re.compile("reference internal"))
        for elem in elems:
            title = re.sub(r"\s+", "", elem.get_text().strip())
            if elem.attrs["href"] == "#":
                url = url_begin
            elif elem.attrs["href"].startswith("#"):
                continue
            else:
                url = main_url + elem.attrs["href"]
            urls.append(url)
            titles.append(title)

    return titles, urls, titles_exc

将上面解析得到url地址全部保存为单个pdf文档

import concurrent.futures

titles, urls, titles_exc = getUrls()

# 线程池
with concurrent.futures.ThreadPoolExecutor(max_workers=2) as executor:
    executor.map(downloadPdf, list(zip(titles, urls)))

    # 等待池内所有任务执行完毕
    executor.shutdown(wait=True)

 合并单个pdf为1个pdf文件

import PyPDF2


def list_files(dir, titles):
    filelists = []
    for title in titles:
        file = os.path.join(dir, title + ".pdf")
        if os.path.exists(file):
            filelists.append(file)
    return filelists


# 合并PDF
def merge_pdfs(titles, paths, titles_exc, output):
    pdf_writer = PyPDF2.PdfWriter()

    page_num = 0
    for idx, path in enumerate(paths):
        pdf_reader = PyPDF2.PdfReader(path)
        title = titles[idx]

        if title not in titles_exc:
            for page in range(len(pdf_reader.pages)):
                pdf_writer.add_page(pdf_reader.pages[page])

            # 书签目录
            pdf_writer.add_outline_item(title, page_num)

            page_num += len(pdf_reader.pages)
        else:
            # 书签目录
            pdf_writer.add_outline_item(title, page_num)

    with open(output, "wb") as out:
        pdf_writer.write(out)
        
        
# 文档顺序
file_list = list_files(pdf_dir, titles)

# pdf合并
merge_pdfs(titles, file_list, titles_exc, output=os.path.join(pdf_dir, "output.pdf"))

完整代码

查看代码
 import requests, re, os, random
from bs4 import BeautifulSoup
import json, time
from selenium import webdriver
import PyPDF2
import concurrent.futures

pdf_dir = "dir"
main_url = "url"


def getUrls():
    titles = []
    urls = []

    url_begin = main_url + "index.html"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36",
    }
    response = requests.get(url_begin, headers=headers)
    if response.status_code == 200:
        response.encoding = "utf-8"
        soup = BeautifulSoup(response.content, "lxml")

        titles_exc = []
        elems_l1 = soup.find_all("li", class_=re.compile("toctree-l1"))
        for elem in elems_l1:
            title_elem = elem.find("a", class_=re.compile("reference internal"))
            title = re.sub(r"\s+", "", title_elem.get_text().strip())
            titles_exc.append(title)
        elems_l2 = soup.find_all("li", class_=re.compile("toctree-l2"))
        for elem in elems_l2:
            title_elem = elem.find("a", class_=re.compile("reference internal"))
            title = re.sub(r"\s+", "", title_elem.get_text().strip())
            titles_exc.append(title)

        elems = soup.find_all("a", class_=re.compile("reference internal"))
        for elem in elems:
            title = re.sub(r"\s+", "", elem.get_text().strip())
            if elem.attrs["href"] == "#":
                url = url_begin
            elif elem.attrs["href"].startswith("#"):
                continue
            else:
                url = main_url + elem.attrs["href"]
            urls.append(url)
            titles.append(title)

    return titles, urls, titles_exc


# 下载pdf
def downloadPdf(params):
    time.sleep(random.randint(1, 5))  # 延时几秒开始下载

    title, url = params
    chrome_options = webdriver.ChromeOptions()
    chrome_options.add_argument("--enable-print-browser")
    chrome_options.add_argument("--kiosk-printing")
    settings = {
        "recentDestinations": [{"id": "Save as PDF", "origin": "local"}],
        "selectedDestinationId": "Save as PDF",
        "version": 2,
        "isHeaderFooterEnabled": False,
        "isCssBackgroundEnabled": False,
        "mediaSize": {"height_microns": 297000, "width_microns": 210000, "name": "ISO_A4", "custom_display_name": "A4"},
    }
    prefs = {
        "printing.print_preview_sticky_settings.appState": json.dumps(settings),
        "savefile.default_directory": pdf_dir,  # 下载文件保存的路径
    }
    chrome_options.add_experimental_option("prefs", prefs)

    driver = webdriver.Chrome(options=chrome_options)
    driver.get(url)
    driver.execute_script("document.title='" + title + "';window.print();")
    time.sleep(3)  # 等待页面加载完成


def list_files(dir, titles):
    filelists = []
    for title in titles:
        file = os.path.join(dir, title + ".pdf")
        if os.path.exists(file):
            filelists.append(file)
    return filelists


# 合并PDF
def merge_pdfs(titles, paths, titles_exc, output):
    pdf_writer = PyPDF2.PdfWriter()

    page_num = 0
    for idx, path in enumerate(paths):
        pdf_reader = PyPDF2.PdfReader(path)
        title = titles[idx]

        if title not in titles_exc:
            for page in range(len(pdf_reader.pages)):
                pdf_writer.add_page(pdf_reader.pages[page])

            # 书签目录
            pdf_writer.add_outline_item(title, page_num)

            page_num += len(pdf_reader.pages)
        else:
            # 书签目录
            pdf_writer.add_outline_item(title, page_num)

    with open(output, "wb") as out:
        pdf_writer.write(out)


titles, urls, titles_exc = getUrls()

# 线程池
with concurrent.futures.ThreadPoolExecutor(max_workers=2) as executor:
    executor.map(downloadPdf, list(zip(titles, urls)))

    # 等待池内所有任务执行完毕
    executor.shutdown(wait=True)

# 文档顺序
file_list = list_files(pdf_dir, titles)

# pdf合并
merge_pdfs(titles, file_list, titles_exc, output=os.path.join(pdf_dir, "output.pdf"))

 

标签:title,python,selenium,elem,PyPDF2,url,titles,pdf,re
From: https://www.cnblogs.com/caroline2016/p/18348831

相关文章

  • Python编码规范常用技巧
    Python编码规范常用技巧开场白:Python编码规范的艺术从一团乱麻到井然有序:我的Python代码进化史PEP8:Python编码规范的圣经为什么遵循编码规范如此重要命名约定:给你的代码起个好名字变量名:不只是标识符那么简单函数命名:让意图一目了然类与方法:面向对象的命名艺术代码结......
  • Python实现游戏中的音效制作与环境声音设计
    Python实现游戏中的音效制作与环境声音设计开场白:让声音活起来——游戏音频的魅力为什么游戏中的声音如此重要?个人体验分享:那些让人难忘的游戏音效Python在音频处理中的应用概览基础篇:Python环境搭建与音频库介绍快速入门:安装Python及必备音频处理库库推荐:pydub、soundf......
  • python拆分PDF文件
    先占个空,后面在慢慢更新下面这个代码实现讲一个PDF文件拆分成多个文件importPyPDF2defsplit_pdf(input_pdf_path,output_prefix,start_page,end_page):"""分割PDF文件为多个小的PDF文件,每个文件包含原始文档的一部分页面。:paraminput_pdf_path:输入......
  • Python动态执行代码
    在Python中,动态执行代码是一个强大的特性,它允许程序在运行时编译和执行字符串或存储在文件、数据库等中的代码。这种能力使得Python在需要高度灵活性和动态性的应用中特别有用,比如科学计算、数据分析、Web开发以及自动化脚本等。下面,我将详细介绍Python中动态执行代码的几种......
  • 在Python中,模块(Module)和包(Package)
    在Python中,模块(Module)和包(Package)是组织代码、提高代码复用性、促进代码维护的两种重要机制。它们各自扮演着不同的角色,但又紧密相连,共同构成了Python程序架构的基础。以下将详细阐述Python中模块和包的概念及其区别。一、模块(Module)的概念在Python中,模块是一个包含了Pyth......
  • 工地安全帽智能识别系统 Python
    工地安全帽智能识别系统通过AI深度学习技术,工地安全帽智能识别系统实现对工地人员的安全帽反光衣穿戴进行自动实时识别和检测,当工地安全帽智能识别系统发现现场人员违规未按要求戴安全帽反光衣及不安全行为时,不需人为干预,工地安全帽智能识别系统自动抓拍触发告警,提醒安全管理人......
  • 20.python变量
    python之局部变量和全局变量一、python中的变量(1)局部变量定义:在函数内定义的变量就局部变量(2)全局变量定义:在函数内外都可以引用定义的变量就全局变量(3)备注:当局部变量和全局变量在一起时,局部变量要比全局变量优先级级高案例:a=200#全局变量defhs():a=100#局部变量......
  • 深入Scikit-learn:掌握Python最强大的机器学习库
    Scikit-learn(通常缩写为sklearn)是一个强大的Python库,专门用于机器学习和数据挖掘。该库提供了丰富的功能,包括分类、回归、聚类、降维、模型选择和预处理等。本文将通过一个详细的示例来展示如何使用Scikit-learn进行基本的机器学习任务。1.安装Scikit-learn在开始使用......
  • 计算机毕业设计项目推荐,院系资料分类管理平台 84184(开题答辩+程序定制+全套文案 )上万
    目 录摘要1绪论1.1研究背景1.2研究意义1.3论文结构与章节安排2 院系资料分类管理平台系统分析2.1可行性分析2.2系统流程分析2.2.1数据增加流程2.2.2数据修改流程2.2.3数据删除流程2.3系统功能分析2.3.1功能性分析2.3.2非功能性分析......
  • 计算机毕业设计项目推荐,红色旅游网站设计与开发 99214(开题答辩+程序定制+全套文案 )上
    摘 要21世纪时信息化的时代,几乎任何一个行业都离不开计算机,将计算机运用于旅游服务管理也是十分常见的。过去使用手工的管理方式对旅游服务进行管理,造成了管理繁琐、难以维护等问题,如今使用计算机对旅游服务的各项基本信息进行管理,比起手工管理来说既方便又简单,而且具有易......