首页 > 其他分享 >一种使用iText7渲染引擎去除文字水印方法的过程记录

一种使用iText7渲染引擎去除文字水印方法的过程记录

时间:2024-09-29 22:33:50浏览次数:8  
标签:objRenderInfo Matrix fontName 水印 iText7 去除 var public name

有一种PDF文本,使用旋转过的字体来作为水印。文件经过密码保护,不能通过编辑的方法去除。
转载请保留这一段文字:charset#cnblogs,谢绝CSDN知乎之流转载

注意:拥有水印并且编辑密码包含的PDF文档可能具有版权保护,本文仅从技术角度讨论可能性。

正常文件可以被打开而且显示无误,使用iText7的渲染引擎来获取渲染项目,通过对目标文本的隐藏来达到去除文字水印的目的。

以下列举了一些使用过程中的注意点和坑:

  • 环境:Windows 11 Home Edition 23H2
  • 机器:Lenovo L490 [email protected] 8C16G
  • 软件:.NET 8.0.400, RoslynPad 19.1
  1. 引用itext7, 8.0.5, itext7.bouncy-castle-adapter, 8.0.5, itext7.font-asian, 8.0.5,中间用来解析加密过的PDF,最后解析亚洲文字。

  2. 写一个TextExtractionStrategy继承IEventListener

class TextExtractionStrategy : IEventListener {
    readonly List<ObjectRenderInfo> info;
    public TextExtractionStrategy(List<ObjectRenderInfo> info) => this.info = info;
    public void EventOccurred(IEventData data, EventType type) {
        switch (data) {
            case TextRenderInfo renderInfo:
                info.Add(new ObjectRenderInfo {
                    Text = renderInfo.GetText(),
                    Matrix = renderInfo.GetTextMatrix(),
                    FontName = renderInfo.GetFont(),
                    FontSize = renderInfo.GetFontSize(),
                    Color = renderInfo.GetFillColor(),
                    Width = renderInfo.GetUnscaledWidth()
                });
                break;
            case ImageRenderInfo imageRender:
                var image = imageRender.GetImage();
                info.Add(new ObjectRenderInfo { Image = image.GetImageBytes(), Vector = imageRender.GetStartPoint(), Height = image.GetHeight(), Width = image.GetWidth(), Matrix = imageRender.GetImageCtm() });
                break;
            case PathRenderInfo pathRender:
                var operation = pathRender.GetOperation();
                if (operation != PathRenderInfo.NO_OP) {
                    info.Add(new ObjectRenderInfo {
                        Path = pathRender.GetPath(),
                        Matrix = pathRender.GetCtm(),
                        Width = pathRender.GetGraphicsState().GetLineWidth(),
                        Color = pathRender.GetStrokeColor(),
                        Operation = pathRender.GetOperation(),
                    });
                }
                break;
        }
    }
    public ICollection<EventType> GetSupportedEvents() => new List<EventType> { EventType.RENDER_TEXT, EventType.RENDER_IMAGE, EventType.RENDER_PATH };
}

没啥好说的,注册三种渲染事件,并且在事件回调的时候通过info将传递的内容记录下来。

List<ObjectRenderInfo> info = new(256);
var strategy = new TextExtractionStrategy(info);
var processor = new PdfCanvasProcessor(strategy);
  1. 字体的处理

因为PDF的字体直接使用的路不通,所以使用简单粗暴的映射本地字体文件的方式进行。如果有一些复式字体不考虑。

PdfFont GetFont(string name) {
    var fontName = "SimSun.ttc,0";
    if (name.Contains("SimHei", StringComparison.CurrentCultureIgnoreCase)) fontName = "SimHei.ttf";
    else if (name.Contains("Times", StringComparison.CurrentCultureIgnoreCase)) fontName = "times.ttf";
    else if (name.Contains("FangSong", StringComparison.CurrentCultureIgnoreCase)) fontName = "simfang.ttf";
    else if (name.Contains("DengXian", StringComparison.CurrentCultureIgnoreCase)) fontName = "deng.ttf";
    else if (name.Contains("Arial", StringComparison.CurrentCultureIgnoreCase)) fontName = "arial.ttf";
    else if (name.Contains("Verdana", StringComparison.CurrentCultureIgnoreCase)) fontName = "Verdana.ttf";
    else if (name.Contains("KaiTi", StringComparison.CurrentCultureIgnoreCase)) fontName = "simkai.ttf";
    else if (name.Contains("Cambria", StringComparison.CurrentCultureIgnoreCase)) fontName = "Cambria.ttc,0";
    else if (name.Contains("YuGothic", StringComparison.CurrentCultureIgnoreCase)) fontName = "YuGothL.ttc,0";
    else if (name.Contains("Calibri", StringComparison.CurrentCultureIgnoreCase)) fontName = "Calibri.ttf";
    else if (name.Contains("CourierNew", StringComparison.CurrentCultureIgnoreCase)) fontName = "cour.ttf";
    else if (name.Contains("Consolas", StringComparison.CurrentCultureIgnoreCase)) fontName = "consola.ttf";
    if (!fonts.TryGetValue(fontName, out var font)) {
        font = PdfFontFactory.CreateFont($@"C:\Windows\Fonts\{fontName}", PdfFontFactory.EmbeddingStrategy.PREFER_EMBEDDED);
        fonts.Add(fontName, font);
    }
    //Console.Write($"{name} -> {fontName}");
    return font;
}

注意:每个PDF需要创建自己的字体实例,不然保存的时候会有异常,引用的资源属于别的文件。

  1. 渲染过程
    只有下列三种渲染的方式。
for (int i = 1; i < docSource.GetNumberOfPages(); i++) {
    info.Clear();
    var page = docSource.GetPage(i);
    //处理原始文件的每一页
    processor.ProcessPageContent(page);
    //根据List<ObjectRenderInfo>内容进行重新绘制
    foreach (var objRenderInfo in info) {
    }
}

4.1 渲染文字

如果需要擦除的水印文字就在这里就很方便的通过判断即可。

var font = GetFont(objRenderInfo.Font.GetFontProgram().GetFontNames().GetFontName());
var paragraph = new Paragraph(objRenderInfo.Text).SetFixedPosition(i, x, y, objRenderInfo.Width * 2)
    .SetFont(font).SetFontSize(fontSize).SetFontColor(objRenderInfo.Color);
docTarget.Add(paragraph);

本过程的灵魂所在就是SetFixedPosition(int pageNumber, float left, float bottom, float width)方法,比对图形处理来说会简单一些,直接对pageNumber指定的页进行绘制文本操作即可。注意width所指的参数这里使用了objRenderInfo.Width * 2,试验过仅用Width可能会导致文本折行,简单起见给定了一个经验值。

4.2 渲染图形

绘制图形会比较多的坑。需要注意的几个点如下:

  • PdfPage的获取:Path的绘制需要PdfCanvas,而后者需要从PdfPage创建,显而易见的想从docTarge.GetPage(i)获取页面实例,可惜想得太天真了。
PdfPage? page = null;
try { page = docTarget.GetPage(i); } catch (Exception) { page = docTarget.AddNewPage(); }
  • Matrix转换矩阵的使用:如果简单的使用PathRenderInfo的几个参数进来不足以绘制和原先一样的图形,是因为有偏移和缩放。
var offset = new Point(objRenderInfo.Matrix.Get(6), objRenderInfo.Matrix.Get(7));
float scaleX = objRenderInfo.Matrix.Get(0), scaleY = objRenderInfo.Matrix.Get(4);
(globalOffset, globalScaleX, globalScaleY) = (offset, scaleX, scaleY);
  • globalOffset, globalScaleX, globalScaleY:单独需要将这几个值保存下来作为本页的全局偏移量以及缩放量,是遇到了一些例如流程图、表格,使用Path绘制的时候PathRenderInfo记载进了Matrix变量。在绘制Shape和上文Text的时候,需要进行计算。
//绘制Text
var x = objRenderInfo.Matrix.Get(6) * globalScaleX + globalOffset.x;
var y = objRenderInfo.Matrix.Get(7) * globalScaleY + globalOffset.y;
var fontSize = (float)(objRenderInfo.FontSize * Math.Sqrt(globalScaleX * globalScaleY));

在这里fontSize做了特殊处理,短时间内还没法知道到底是X还是Y轴需要缩放。

//绘制图形
foreach (var sub in objRenderInfo.Path.GetSubpaths()) {
    canvas.SaveState();
    foreach (var shape in sub.GetSegments()) {
        switch(shape) {
            case iText.Kernel.Geom.Line line:
            //处理直线
            break;
            case iText.Kernel.Geom.BezierCurve curve:
            //处理曲线
            break;
            default: Console.Write(shape); break;
        }
    }
    if (sub.IsClosed()) canvas.ClosePath();
    canvas.Stroke();
    canvas.RestoreState();
}
  • 绘制直线:
var points = line.GetBasePoints();
canvas.MoveTo(offset.x + points[0].x * scaleX, offset.y + points[0].y * scaleY);
canvas.LineTo(offset.x + points[1].x * scaleX, offset.y + points[1].y * scaleY);
  • 绘制曲线:我遇到的这个文件里面是3个点确定一个曲线,理论上按照文档也会有2个点。以下省略的点个数判断。
var points = curve.GetBasePoints();
canvas.MoveTo(offset.x + points[0].x * scaleX, offset.y + points[0].y * scaleY);
canvas.CurveTo(offsetx + points[1].x * scaleX, offset.y + points[1].y * scaleY,
    offsetx + points[2].x * scaleX, offset.y + points[2].y * scaleY,
    offsetx + points[3].x * scaleX, offset.y + points[3].y * scaleY);

应该还存在更简单的使用Matrix的API可以缩减代码量,不过时间太少没有深入研究

4.3 渲染图像
图像的绘制相对简单,但是还有一些坑没填上。比如获取的ImageBytes展示出来是黑块,在不影响阅读的情况下还没研究修复。由于直接可以绘制在指定页面,所以篇幅会很小。

var image = new Image(ImageDataFactory.Create(objRenderInfo.Image))
    .SetFixedPosition(i, objRenderInfo.Vector.Get(0), objRenderInfo.Vector.Get(1));
if (objRenderInfo.Width > page.GetPageSize().GetWidth())
    image.SetAutoScale(true);
else
    image.SetWidth(objRenderInfo.Width).SetHeight(objRenderInfo.Height);
docTarget.Add(image);
  1. 后话
    ObjectRenderInfo的定义
class ObjectRenderInfo {
    public string? Text { get; set; }
    public PdfFont? FontName { get; set; }
    public float FontSize { get; set; }
    public float Width { get; set; }
    public float Height { get; set; }
    public Color? Color { get; set; }
    public Color? Background { get; set; }
    public Matrix? Matrix { get; set; }
    public byte[]? Image { get; set; }
    public Vector? Vector { get; set; }
    public iText.Kernel.Geom.Path? Path { get; set; }
    public int Operation { get; set; }
}

使用上述代码的话,几乎可以将原先PDF内容绘制到新的文件,不过还存在两个问题。

  • 一些图形中带文本的位置会乱。目前尚未找到解决方法。
  • 一些图像展示不出来,仅是一个黑块,因为没有分析二进制图像内存所以还未找到解决方法。

标签:objRenderInfo,Matrix,fontName,水印,iText7,去除,var,public,name
From: https://www.cnblogs.com/charset/p/18440694

相关文章

  • java实现导出excel添加水印或excel转pdf并添加水印
    1.通过Map对象存入excel模板中获得excel表,并添加水印importorg.apache.poi.xssf.usermodel.XSSFWorkbook;publicstaticvoidexportExcelWatermark(TemplateExportParamstemplatePath,Map<String,Object>map,StringfileName,StringmarkText,HttpServletResponseres......
  • 万能视频格式转换软件含支持去水印画质增强
    一款强大的视频转换软件多功能媒体转换工具,可以将任何的视频转换为各种高清视频格式软件特点软件免费使用,支持视频格式转换,分辨率提升、视频去水印等操作内置视频编辑功能,可以一键制作分屏视频、添加视频滤镜等一个顶十,支持单个或者是多个视频转换操作,支持GPU加速等软......
  • 万能视频格式转换软件含支持去水印画质增强
    一款强大的视频转换软件多功能媒体转换工具,可以将任何的视频转换为各种高清视频格式软件特点软件免费使用,支持视频格式转换,分辨率提升、视频去水印等操作内置视频编辑功能,可以一键制作分屏视频、添加视频滤镜等一个顶十,支持单个或者是多个视频转换操作,支持GPU加速等软......
  • 万能视频格式转换软件含支持去水印画质增强
    一款强大的视频转换软件多功能媒体转换工具,可以将任何的视频转换为各种高清视频格式软件特点软件免费使用,支持视频格式转换,分辨率提升、视频去水印等操作内置视频编辑功能,可以一键制作分屏视频、添加视频滤镜等一个顶十,支持单个或者是多个视频转换操作,支持GPU加速等软......
  • 万能视频格式转换软件含支持去水印画质增强
    一款强大的视频转换软件多功能媒体转换工具,可以将任何的视频转换为各种高清视频格式软件特点软件免费使用,支持视频格式转换,分辨率提升、视频去水印等操作内置视频编辑功能,可以一键制作分屏视频、添加视频滤镜等一个顶十,支持单个或者是多个视频转换操作,支持GPU加速等软......
  • 万能视频格式转换软件含支持去水印画质增强
    一款强大的视频转换软件多功能媒体转换工具,可以将任何的视频转换为各种高清视频格式软件特点软件免费使用,支持视频格式转换,分辨率提升、视频去水印等操作内置视频编辑功能,可以一键制作分屏视频、添加视频滤镜等一个顶十,支持单个或者是多个视频转换操作,支持GPU加速等软......
  • apk反编译修改教程系列-----修改apk 去除软件加固状态 实例操作步骤解析_2【二十八】
          今天继续以实例来演示去加固的步骤,app软件有加固就无法直接进行反编译修改操作。那么去加固就是修改软件的前提。作为初学的朋友,去加固后先测试app是都可以正常安装与打开。然后在进行对应的反编译修改操作。通过博文了解1------apk去加固的实例步骤演示......
  • MySQL:去除字段中空格及前后空格
    1、使用TRIM()函数TRIM()函数可以去除字段的前后空格,并返回处理后的结果。可以在查询语句中使用TRIM()函数来实现去除字段空格的功能,示例如下:SELECTTRIM(column_name)FROMtable_name;这种方法会去除字段中的前后空格,但保留字段内部的空格。2、使用REPLACE()函数REPLACE......
  • uniapp [全端兼容] - 详细实现拍照或相册选取图片后插入水印功能,手机拍照或相册上传图
    前言网上的教程乱七八糟且兼容性太差,本文提供优质示例。在uni-app全平台兼容(H5网页网站、支付宝/微信小程序、安卓App、苹果App、nvue)开发中,详解手机从相册选取上传图像后加入水印功能,手机拍摄照相后也可以加入水印,Uniapp给图片添加水印,获取上传或拍摄的图片信息后,为......
  • 签名功能并且加水印
    找的插件,自己写要做一堆兼容麻烦死了使用的这个插件vue-signature-pad,看下载量很多npmi vue-signature-pad import{VueSignaturePad}from'vue-signature-pad';components:{VueSignaturePad,UseDetailDailog},<VueSignaturePad......