epub转txt

时间：2024-09-07 12:47:32浏览次数：10

from bs4 import BeautifulSoup

def exact_p_tag(path,f):
    xhtml_file = open(path, 'r', encoding='utf-8')
    xhtml_handle = xhtml_file.read()

    soup = BeautifulSoup(xhtml_handle, 'lxml')

    title = soup.find_all("title")
    # print(title)

    p_list = soup.find_all('p')
    for p in p_list:
        f.write(p.text+'\n')
    xhtml_file.close()

import os

os.chdir('C:/Users/tellw/Downloads/test')

from pathlib import Path

xhtml_file_paths=list(Path('EPUB/xhtml').glob('*.xhtml'))

f=open('C:/Users/tellw/test/test.txt','w',encoding='utf8')
for xfp in xhtml_file_paths:
    exact_p_tag(xfp,f)
f.close()

使用 Python 提取 epub 中的文本 https://fanlumaster.github.io/2021/07/08/使用-Python-提取-epub-中的文本/

创建于2409071243，修改于2409071243

标签：title,file,import,xhtml,txt,epub
From： https://www.cnblogs.com/tellw/p/18401556

puthon-txt(1) 从txt读取gnss数据
数据1453132356.60000034.0342694493108.755911045587.8002931453132357.96000034.0344383177108.755909682587.6737781453132358.52000034.0345050891108.755905295587.5684091453132359.16000034.0345823584108.755898876587.5876111453132359.56000034.......
使用Cmake-编写CMakeLists.txt 文件
好处：a)跨平台（makefile跟平台强相关）b)cmake可以自动生成makefile编写CMakeLists.txt文件#关键主体：cmake_minimum_required(VERSION3.10)#指定最低支持的CMake版本project(FunMainVERSION1.0)#定义项目名称及版本号#添加可执行文件add_executable(${PROJECT_N......
[20240902]验证sql_idz.sh计算PLSQL代码块.txt
[20240902]验证sql_idz.sh计算PLSQL代码块.txt--//测试验证sql_idz.sh计算PLSQL代码块是否正确.1.环境:SYS@book>@ver2==============================PORT_STRING :x86_64/Linux2.4.xxVERSION ......
[20240902]建立完善sql_idz.sh脚本.txt
[20240902]建立完善sql_idz.sh脚本.txt--//增加hash_value的16进制显示采用大小写显示.$cat-v~/bin/sql_idz.sh#!/bin/bash#calcucatesql_textoffull_hash_value(16),hash_value(10),sql_id(32).#argv1sqlstatementorsqloftextfile#argv2flag:0=sqlstatement......
[20240829]关于依赖链3.txt
[20240829]关于依赖链3.txt--//如果修改表结构或者改名,相关的sql语句在共享池会失效,必须重新分析,我开始学习orcle时候,一直认为这些相关信息保存在表对象--//句柄的堆0里面,如果涉及到的sql语句很多,这样堆0应该很大,而实际上的情况上堆0一直没有变化.我曾经问过别人这个问题,......
[20240827]分析为什么出现library cache lock等待事件2.txt
[20240827]分析为什么出现librarycachelock等待事件2.txt--//前几天一直在分析如果表不存在的情况下,密集执行为什么出现librarycachelock等待事件,而且出现的mode=2(共享模式),按照道--//理不应该阻塞,做一个分析.1.环境:SCOTT@book01p>@ver2==============================......
[20240828]分析为什么出现library cache lock等待事件5.txt
[20240828]分析为什么出现librarycachelock等待事件5.txt--//前几天测试遇到的问题,假如表不存在的情况下,如果密集执行这类sql语句,不理解为什么出现librarycachelock等待事件.--//验证如果有1个会话,是否会持有mode=3的情况出现.--//上午使用gdb设置断点来验证,这次直接密集......
[20240829]关于依赖链.txt
[20240829]关于依赖链.txt--//如果修改表结构或者改名,相关的sql语句在共享池会失效,必须重新分析,我开始学习orcle时候,一直认为这些相关信息保存在表对象--//句柄的堆0里面,如果涉及到的sql语句很多,这样堆0应该很大,而实际上的情况上堆0一直没有变化.我曾经问过别人这个问题,最......
[20240826]奇怪ORA-01031 insufficient privileges报错.txt
[20240826]奇怪ORA-01031insufficientprivileges报错.txt--//遇到的奇怪ORA-01031insufficientprivileges情况,做一个分析:1.环境:SYS@book01p>@ver2==============================PORT_STRING :x86_64/Linux2.4.xxVERSION ......
python读取txt文本文件-批量更改mysql数据库中一批用户的用户名的python脚本保存及转
一、python读取txt文本文件-批量更改mysql数据库中一批用户的用户名的python脚本保存做一个简单的事：使用python读取一个txt文件，里面存储着N行用户id，需要一行行读取后再读取另一个存储用户昵称的txt文件，判断昵称是否有重复，如果没有重复就将数据库中的当前uid用户的昵称......

epub转txt

相关文章

赞助商

阅读排行