使用工具calibre。网页在线转换容易出错,在线转换:小熊、word转epub。
word转epub最大的问题是目录不能识别出来,最妥当的是用calibre通过h1、h2、h3标签去筛目录。
一、下载工具calibre
二、调整word格式
打开视图——导航窗格,调整目录级别
word另存为htm,查看目录级别的标签是否正确
如果全是p标签,没有h1、h2、h3的分类。打开htm,选中二级目录文档,点击选择—选择格式相似的文本
编辑二级目录,右键修改样式,修改成想要的字体格式
然后回到文档内容, 给所有相似文本换二级目录,这里就将h标签修改好了,跳到到第三步生成epub继续阅读。想看其他目录级别配置方法的继续往下阅读。
calibre支持re正则,通过正则去匹配word的htm标签内容,用python对htm的二级目录筛选,发现htm会把一句话拆到多个标签里去,标签格式乱,不能保证能匹配到所有二级目录内容。建议htm匹配复杂的修改word。
import re fh = open('a.txt','r',encoding='utf-8') data = fh.read() #data = '咋啊啊' regStr = "(第[\u4E00-\u9FA5]+章)" m = re.findall(regStr, data) print(m) regStr = "([\u4E00-\u9FA5]+)</span></p>" y = re.findall(regStr, data) print(y)
官方说明文档
XPath tutorial — calibre 6.6.1 documentation (calibre-ebook.com)
正则
re — Regular expression operations — Python 3.10.7 documentation
三、生成epub
添加书籍——转换书籍——逐个转换——添加封面——编辑信息——选择h1、h2、h3目录级别——确定
标签:word,标签,htm,calibre,级别,目录,epub From: https://www.cnblogs.com/blackicelisa/p/16754937.html