首页 > 其他分享 >LateXML改善LaTeX生成的PDF文件可读性

LateXML改善LaTeX生成的PDF文件可读性

时间:2024-12-10 12:43:42浏览次数:10  
标签:LaTeX tar 可读性 文件 LateXML 格式 PDF

PDF,作为一款由Adobe公司开发的文档格式,其优点是,能保证布局在不同的操作系统和设备上保持一致,所见即所得

它的缺点是,余下全部(瘫

PDF文件只保存了格式信息,完全丢失了源文件的结构化信息,编码不统一,二进制和字符串混放,导出为PDF的效果基本和PSD文件全图层合并的效果差不多,导致所有试图对PDF进行自动化处理的尝试都极为困难.(当然,在视觉大模型得到发展的今天,这个问题已经大大缓解)

以下是一个经典的例子:

幸运的是,arxiv上发布的文章一般提供其Tex源文件,我们可以使用LateXML(顾名思义,就是将Latex输出为标记语言的形式)编译改善其可读性.

下载地址:https://math.nist.gov/~BMiller/LaTeXML/get.html#windows.chocolatey

项目提供了Windows版的Releases,但需要通过包管理工具Chocolatey或Strawberry进行安装,我不太会,所以以Ubuntu为例

sudo apt-get install latexml

在arxiv上下载tar.gz格式的源代码

解压文件

tar -zxvf arXiv-xxxx.xxxxx.tar.gz

进入解压文件夹后使用命令编译:

 latexmlc --dest=out.html main.tex

效果其实还行

标签:LaTeX,tar,可读性,文件,LateXML,格式,PDF
From: https://www.cnblogs.com/isakovsky/p/18597153

相关文章

  • 一个.NET开源、免费、功能强大的 PDF 处理工具
    前言在日常工作中PDF文档的处理往往受限于其固有的格式,使得用户在编辑、合并、剪裁等方面面临诸多不便。今天大姚给大家分享一个.NET开源、免费、功能强大的PDF处理工具:PDF补丁丁(PDFPatcher)。项目介绍PDF补丁丁(PDFPatcher)是一款.NET开源(AGPL)、免费、功能强大的PDF处理工......
  • 10W+下载,2025最新中文版《大模型基础》教程pdf免费分享
    本书介绍本书旨在为对大语言模型感兴趣的读者系统地讲解相关基础知识、介绍前沿技术。作者团队将认真听取开源社区以及广大专家学者的建议,持续进行月度更新,致力打造易读、严谨、有深度的大模型教材。并且,本书还将针对每章内容配备相关的PaperList,以跟踪相关技术的最新进......
  • 【java】使用Aspose.Words将word转PDF并且去水印
    From: https://blog.csdn.net/qq_42785250/article/details/131325432本文介绍了如何在Java项目中使用Aspose.Words库将Word文档转换为PDF,重点讨论了如何处理Aspose.Words的试用版水印问题,通过反射机制去除水印。文章提供了一个WordToPdfUtil工具类的示例代码,包括转换方法和去除......
  • 快消行业大变革:角色转型与格局再造|报告汇总PDF洞察(附原数据表)
    原文链接:https://tecdat.cn/?p=38490在2024年临近尾声之际,快消行业深陷困境。零售端变革频发,线上线下竞争趋于白热化,商超调改与零食店扩张并行。品牌商经营状况不佳,财报数据下滑显著,受电商与新零售模式的双重影响。文末160份快消行业研究报告最新趋势已分享在交流群,阅读原文进......
  • html2Canvas+JsPDF在每一页上面插入内容
    有一个功能,是将html页面转成pdf下载下来,已用html2Canvas+JsPDF实现。页面上面有一个多行标题,打印的时候多页只会在第一页有,客户想要每一页都有。解决方法:打印的时候,可以看做打印的区域不动,页面纸往上移,继续打印下面部分。我的想法是,每次页面纸往上移的时候,可以少移一部分,让上......
  • Acrobat dc v2024.005,像word一样编辑PDF!
    随着数字化的推广,PDF文件凭借其强大的优势和稳定性逐渐成为各类文档交流和存储的首选格式。随之而来的是对PDF文件的阅读、编辑、转换、转曲等各种操作需求的不断增长。因此,一款强大的PDF处理软件不仅需要满足用户多变需求,还需要通过友好的界面和高效的功能,提升了用户的工作......
  • PDF.js 渲染存档 + 疑难杂症
    当前使用部分如下前端部分<template><divclass="container"style="margin:0;padding:0;"><divid="pdf-view"class="pdf-view"><!--渲染PDF--><divv-for="pageinstate.pdfPages&......
  • 利用pdf.js +FastAPI+openai-TTS 搭建 在线PDF 文档语音阅读服务
    之前一直用NuturalReader阅读英文pdf,校准英文单词发音的准确性,无奈NuturalReader的LLM真人语音价格太贵了,一年要有110刀。实在肉疼。最近基于ManyiAPI聚合接口站:https://api.manyi88.top,ManyiAPI注册链接(注册优惠)可以直接调用openai的tts服务,就有了自己写个在线语音阅读pd......
  • .netcore-实现列表数据导出PDF功能
    安装Nuget包QuestPDF核心代码publicstaticstringExportPdf(List<LogLoginListDto>list){TextStyletitleStyle=TextStyle.Default.FontSize(36).SemiBold().FontColor(Colors.Blue.Medium);stringfileName=string.Concat("LogLogin-",DateT......
  • C# PDF转换为图片
    以下两种方式,都支持跨平台。方法一:IronPDF1、引用IronPDF 2、调用代码1usingPdfDocument=IronPdf.PdfDocument;2varpdf=PdfDocument.FromFile("E:\\1\\v1a1.pdf");3//Extractallpagestoafolderasimagefiles4pdf.RasterizeToImageFiles("E:\\1\\3......