首页 > 编程语言 >用C#写个PDF批量合并工具简化日常工作

用C#写个PDF批量合并工具简化日常工作

时间:2024-09-25 12:34:55浏览次数:9  
标签:写个 sender GetString C# Items FileListBox PDF resources

用C#写个PDF批量合并工具简化日常工作

一. 前言

由于项目需要编写大量的材料,以及各种签字表格、文书等,最后以PDF作为材料交付的文档格式,过程文档时有变化或补充,故此处理PDF文档已经成为日常工作的一部分。
网上有各种PDF处理工具,总是感觉用得不跟手。最后回顾自己的需求总结为以下几项:
1.可以便捷、快速的对多份PDF进行合并。
2.可以从源PDF选取指定页码进行合并。
3.可以从单个PDF提取特定页码(拆分PDF)。
4.对多个PDF分组,合并作为最终PDF的导航书签,可用作快速定位。
5.统一合成后PDF页面尺寸,如统一为A4幅面。
6.操作尽量简便,支持文件拖放,不需要花巧的东西。

二、最终效果

首先,我们看看最终成品:

①.可以批量添加多个PDF到合并列表,也可以从资源管理器将文件批量拖进来实现添加。
②.定义分组标题对文件进行分组,并作为合并后PDF的书签。
③.将列表中PDF批量合并到一个文件中。如果只有一个PDF,而且定义了页码范围,则转换为拆分功能。
④.显示PDF总页数,如果只需提取部分内容,可以定义页码范围。
⑤.可以更改合并后PDF页面的尺寸,统一为A4、B4或A5幅面。

三、功能实现

搜索发现github有个开源的PdfBinder1.2(https://github.com/schourode/pdfbinder)比较接近想要的效果,本着能省即省、成本最低、能效更高的原则,直接以此为基础进行扩展,开发自身所需的功能。

1.添加文件

这个比较简单,点击按钮后弹出选择对话框,将选择的文件逐一加到ListBox中。

private void addFileButton_Click(object sender, EventArgs e)
{

    if (addFileDialog.ShowDialog() == DialogResult.OK)
    {
        foreach (string file in addFileDialog.FileNames)
        {
            AddInputFile(file);
        }
        UpdateUI();
    }
}

其中AddInputFile函数单独编写是为了在拖放事件中复用。

public void AddInputFile(string file)
{
    int Pages = 0;
    switch (Combiner.TestSourceFile(file, out Pages))
    {
        case Combiner.SourceTestResult.Unreadable:
            MessageBox.Show(string.Format(resources.GetString("Error.Unreadable.Text"), file), resources.GetString("Error.Unreadable.Title"), MessageBoxButtons.OK, MessageBoxIcon.Error);
            break;
        case Combiner.SourceTestResult.Protected:
            MessageBox.Show(string.Format(resources.GetString("Error.Protected.Text"), file), resources.GetString("Error.Protected.Title"), MessageBoxButtons.OK, MessageBoxIcon.Hand);
            break;
        case Combiner.SourceTestResult.Ok:
            FileListBox.Items.Add(new PdfInfo() { Fullname = file, Filename = Path.GetFileName(file), Ranges = "", TotalPages = Pages });
            break;
    }
}

这里对PDF文件有效性进行了检查,而且添加到ListBox的是PdfInfo对象,它还记录了总页数、提取的页面范围等信息。
文件拖放的实现:

private void FileListBox_DragEnter(object sender, DragEventArgs e)
{
    e.Effect = e.Data.GetDataPresent(DataFormats.FileDrop, false) ? DragDropEffects.All : DragDropEffects.None;
}
private void FileListBox_DragDrop(object sender, DragEventArgs e)
{
    var fileNames = (string[])e.Data.GetData(DataFormats.FileDrop);
    Array.Sort(fileNames);

    foreach (var file in fileNames)
    {
        AddInputFile(file);
    }

    UpdateUI();
}

2.文件分组(书签)

using BookmarkName = System.String;
private void addBookmarkButton_Click(object sender, EventArgs e)
{
    //未添加文件不处理
    if (FileListBox.SelectedIndex < 0) return;

    //如果选择的书签(组名),读取名称供修改
    BookmarkName bookmark = "";
    if (FileListBox.SelectedItem is BookmarkName)
        bookmark = (BookmarkName)FileListBox.SelectedItem;
    else 
    {
        //如果选择的是文件,提取文件名作默认值
        bookmark = ((PdfInfo)FileListBox.SelectedItem).Filename;
        if (bookmark.Contains("."))
            bookmark = bookmark.Substring(0, bookmark.LastIndexOf("."));
    }

    //如果输入有效,添加书签(组名)
    BookmarkName newName = Interaction.InputBox(resources.GetString("SetBookmark.Prompt"), resources.GetString("SetBookmark.Title"), bookmark);
    if (newName != "")
    {
        if (FileListBox.SelectedItem is BookmarkName)
            //更新
            FileListBox.Items[FileListBox.SelectedIndex] = newName;
        else
        {
            //添加
            FileListBox.Items.Insert(FileListBox.SelectedIndex, newName);
            BookmarkCounter++;
        }
    }
}

3.定义页码范围

没有定义页码范围表示整个PDF进行合并。定义了页面范围,合并时只提取相应的页面进行合并。
页码范围的格式与常见的打印功能的页码定义相一致,如:1,2,3,6-9。
这个操作放在右键弹出菜单中实现。

private void mnuSetPageRange_Click(object sender, EventArgs e)
{
    PdfInfo item = ((PdfInfo)FileListBox.SelectedItem);
    string range = Interaction.InputBox(resources.GetString("SetPageRange.Prompt"), resources.GetString("SetPageRange.Title"), item.Ranges);
    //内容未变更的不用处理
    if (range != item.Ranges)
    {
        if (range == "")
        {
            ((PdfInfo)FileListBox.Items[FileListBox.SelectedIndex]).Ranges = "";
            return;
        }

        //针对逗号和空格做处理
        string[] arr = range.Replace(",", ",").Replace(" ", "").Split(',');
        range = "";
        for (int i = 0; i < arr.Length; i++)
        {
            //用正则表达式判断有效性
            if ("" == arr[i]) continue;
            if (Regex.IsMatch(arr[i], @"^\d+$") || Regex.IsMatch(arr[i], @"^\d+-\d+$"))
                range += ("" == range ? "" : ",") + arr[i];
            else
            {
                MessageBox.Show(resources.GetString("Error.RangeValid")); 
                return;
            }
        }
        //输入有效,更新
        ((PdfInfo)FileListBox.Items[FileListBox.SelectedIndex]).Ranges = range;
        UpdateUI();
    }
}

4.自定义显示

为了在ListBox中显示书签、总页数和提取页码范围,需要接管ListBox的绘制事件。

private void FileListBox_DrawItem(object sender, DrawItemEventArgs e)
{
    ...
    StringFormat Formater = new StringFormat();
    Formater.Alignment = StringAlignment.Near;
    Formater.LineAlignment = StringAlignment.Center;
    Formater.Trimming = StringTrimming.EllipsisPath;
    Formater.FormatFlags = StringFormatFlags.NoWrap;

    //绘制书签(分组名)
    if (FileListBox.Items[e.Index] is BookmarkName)
    {
        //绘书签(分组名)图标
        e.Graphics.DrawImage(addBookmarkButton.Image, e.Bounds.X, e.Bounds.Y + ((e.Bounds.Height - addBookmarkButton.Image.Height) /2));
        //绘书签(分组名)
        e.Graphics.DrawString((BookmarkName)FileListBox.Items[e.Index], e.Font, Brushes.Black
            , new Rectangle(e.Bounds.X + addBookmarkButton.Image.Width, e.Bounds.Y, e.Bounds.Width - RIGHT_MARGIN, e.Bounds.Height), Formater);
        return;
    }

    //绘制PDF文件名
    PdfInfo item = (PdfInfo)FileListBox.Items[e.Index];
    e.Graphics.DrawString(showNameButton.Checked ? item.Fullname : item.Filename, e.Font, Brushes.Black
        , new Rectangle(e.Bounds.X + (BookmarkCounter > 0 ? (int)(addBookmarkButton.Image.Width * 1.5) : 0), e.Bounds.Y, e.Bounds.Width - RIGHT_MARGIN, e.Bounds.Height), Formater);

    //绘制页码
    Formater.Alignment = StringAlignment.Far;
    e.Graphics.DrawString((item.Ranges == "" ? "" : item.Ranges + " | ") 
        + string.Format(item.TotalPages>1 ? resources.GetString("Pages"): resources.GetString("Page"), item.TotalPages)
        , e.Font, Brushes.Gray, e.Bounds, Formater);
}

5.定义页面尺寸

默认是原始尺寸(不做调整),可根据需要选择为A4、A5、B4。

private void OnPageSizeChanged(object sender, EventArgs e)
{
    PageSizeButton.Tag = ((ToolStripMenuItem)sender).Tag;
    mnuPageSize_Original.Checked = sender == mnuPageSize_Original;
    mnuPageSize_A4.Checked = sender == mnuPageSize_A4;
    mnuPageSize_A5.Checked = sender == mnuPageSize_A5;
    mnuPageSize_B4.Checked = sender == mnuPageSize_B4;
    if (mnuPageSize_Original.Checked)
        PageSizeButton.Text = resources.GetString("PageSizeButton.Text");
    else
        PageSizeButton.Text = resources.GetString("PageSizeButton.Text") + ":" + ((ToolStripMenuItem)sender).Text;
}

6.PDF批量合并

这个比较长,有兴趣的可以到https://github.com/kacarton/PDFBinder2下载源码自己看,以下摘录核心部分。

private void combineButton_Click(object sender, EventArgs e)
{
    if (saveFileDialog.ShowDialog() == DialogResult.OK)
    {
        using (var combiner = new Combiner(saveFileDialog.FileName, (PDFBinder.PageSize)PageSizeButton.Tag))
        {
            progressBar.Visible = true;
            this.Enabled = false;

            for (int i = 0; i < FileListBox.Items.Count; i++)
            {
                if (FileListBox.Items[i] is BookmarkName)
                    //向PDF添加书签
                    combiner.AddBookmark((string)FileListBox.Items[i]);
                else
                    //合并PDF
                    combiner.AddFile(((PdfInfo)FileListBox.Items[i]).Fullname, ((PdfInfo)FileListBox.Items[i]).Ranges);
                //刷新进度
                progressBar.Value = (int)(((i + 1) / (double)FileListBox.Items.Count) * 100);
            }

            this.Enabled = true;
            progressBar.Visible = false;
        }

        System.Diagnostics.Process.Start(saveFileDialog.FileName);
    }
}

class Combiner : IDisposable
{
    public void AddFile(string fileName, string range)
    {
        var reader = new PdfReader(fileName);
        ....
        _document.NewPage();
                
        //添加书签
        if (!string.IsNullOrEmpty(this.BookMarkName))
        { 
            Chapter _chapter = new Chapter("", 1);
            _chapter.BookmarkTitle = this.BookMarkName;
            _chapter.BookmarkOpen = true;
            _document.Add(_chapter);
            this.BookMarkName = null;
        }

        if (_newPageSize == PageSize.Original)
        {
            var page = _pdfCopy.GetImportedPage(reader, i);
            _pdfCopy.AddPage(page);
        }
        else
        {
            var page = _writer.GetImportedPage(reader, i);
            _document.Add(iTextSharp.text.Image.GetInstance(page));
        }

        reader.Close();
    }
}

7.其他

UI同步、文件移除、上移、下移、排序、多语言支持这些比较简单就不展开了。

四、代码开源

源码已发布在github上,网址:PDFBinder2 https://github.com/kacarton/PDFBinder2,欢迎交流。

标签:写个,sender,GetString,C#,Items,FileListBox,PDF,resources
From: https://www.cnblogs.com/sexintercourse/p/18431086

相关文章

  • C#上位机与PLC通信心跳的实现方法
    付工上位机 C#上位机与PLC通信心跳的实现方法合集-上位机开发(4) 1.零基础学习Modbus通信协议09-132.RS485与ModbusRTU09-103.C#上位机与PLC通信心跳的实现方法09-234.ModbusRTU通信协议报文剖析09-24收起 -Begin-大家好!我是付工。众所周知,在工业自......
  • JavaScript 之父联手近万名开发者集体讨伐 Oracle:给 JavaScript 一条活路吧!
    JavaScript之父联手近万名开发者集体讨伐Oracle:给JavaScript一条活路吧!投递人 itwriter 发布于 2024-09-2401:08 评论(6) 有1528人阅读 原文链接 [收藏] « »近日,据外媒消息,JavaScript杰出人士和至少9000名其他相关方签署了一封联名信,再次要求Oracle......
  • WINCCV7.5SP2使用VBA一次性修改多个IO域连接的变量
    某浪博客那边效率低下,学习笔记类型的也要审核多日,还做了访问量清零的事情。我把今天的学习笔记在这里也记录一遍。前几天QQ群里面有哥们询问在WINCC中页面中一次性设定多个IO域连接变量,这些连接变量有规律。我以前没有用过VBA,尝试着弄了一下,现在把过程记录下来,当作学习笔记吧。......
  • AIGC赋能游戏美术新高度,2024年还不会用AI技术的原画师设计师真的out了!
    大家好,我是强哥随着AIGC技术的飞速发展与大模型的不断成熟迭代,使得其应用前景正在越来越宽阔地展现出来,**“AIGC+”也将逐渐成为各类行业发展的新模式,**也极大地提升了各内容行业的想象空间。而在众多应用领域中,游戏相比其他内容形态具备更强的科技属性,这意味着,游戏行业有......
  • 【YashanDB知识库】yashandb执行包含带oracle dblink表的sql时性能差
    本文内容来自YashanDB官网,具体内容请见https://www.yashandb.com/newsinfo/7396959.html?templateId=1718516问题现象yashandb执行带oracledblink表的sql性能差:同样的语句,同样的数据,oracle通过dblink访问远端oracle执行,耗时不到1秒钟:问题的风险及影响yashandb通过dblink访问oracle......
  • 安装PyTorch环境(CPU版)
    1、下载Anaconda官网,安装时需要勾选的选项见下图DownloadAnacondaDistribution|Anacondahttps://www.anaconda.com/download 2、创建虚拟环境2.1打开AnacondaPrompt在所有应用中找到Anaconda中的AnacondaPrompt,点击打开进入cmd面板2.2创建环境在cmd面板中,输入......
  • Navicat连接Mongodb成功了,但是无法显示数据库怎么办?
    不知道你是否遇到过?Navicat连接Mongodb成功了,但是无法显示数据库怎么办?解决办法这个问题比较坑,对于第一次接触的小伙伴,可能会一脸懵逼,原因就是在Navicat中默认会不显示隐藏的项目,如果不手动勾选上,就无法显示,勾选之后,下次就不用重复勾选了。......
  • STL之手撕vector
    前言面试的时候遇到了,是从来没想过会出问题的手撕。竟然在面试环节下出了不少纰漏。要点构造函数:默认构造、拷贝构造、赋值运算符重载、移动构造函数、析构函数push_back/pop_back代码#include<iostream>usingnamespacestd;#defineDEFAULT_CAP(200)class......
  • CSS选择器
    选择器由HTML元素的id、class属性或元素名本身以及一些特殊符号构成,用来指定要为哪个HTML元素定义样式。选择器是CSS样式规则中重要的组成部分,我们可以将选择器看作是CSS样式与HTML元素之间的匹配模式,与选择器关联的样式规则会应用于选择器所指定的HTML元素上......
  • HTML引用CSS
    CSS样式需要引用到HTML中才能真正有效,那么如何才能在HTML中引用CSS呢?下面就来介绍一下。1.内嵌样式表您可以在HTML头部(<head>标签内)的<style>标签中定义CSS样式,使用内嵌样式表定义的CSS样式只能在当前网页内使用,示例代码如下:<!DOCTYPEhtml><html>......