首页 > 其他分享 >数据集收集器0.3

数据集收集器0.3

时间:2024-11-07 14:18:04浏览次数:6  
标签:qa pairs 收集器 text 0.3 content file path 数据

为了进一步完善代码,使其能够识别更多格式的问答对,并且在遇到无法识别的格式时能够跳过并继续处理下一个,我们可以采取以下措施:

增强正则表达式:支持更多的问答对格式。
增加容错处理:在遇到无法识别的格式时,记录错误并继续处理下一个。
多模式匹配:支持多种问答对的格式,例如 Q: 问题 A: 回答、问题: 回答、数字. 问题 等。
以下是改进后的代码:

import os
import json
import fitz  # PyMuPDF
import docx
import re

def clean_text(text):
    """ 清理文本,去除多余的空白字符和标点符号 """
    text = re.sub(r'\s+', ' ', text)  # 合并多个空白字符
    text = re.sub(r'[^\w\s]', '', text)  # 去除标点符号
    return text.strip()

def extract_qa_pairs_from_txt(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        content = f.read()
    content = clean_text(content)
    qa_pairs = extract_qa_pairs_from_content(content)
    return qa_pairs

def extract_qa_pairs_from_docx(file_path):
    doc = docx.Document(file_path)
    content = '\n'.join([para.text for para in doc.paragraphs])
    content = clean_text(content)
    qa_pairs = extract_qa_pairs_from_content(content)
    return qa_pairs

def extract_qa_pairs_from_pdf(file_path):
    doc = fitz.open(file_path)
    content = ''
    for page_num in range(len(doc)):
        page = doc.load_page(

标签:qa,pairs,收集器,text,0.3,content,file,path,数据
From: https://blog.csdn.net/weixin_54366286/article/details/143512485

相关文章

  • 科比投篮预测——数据处理与分析
    当涉及到科比·布莱恩特(KobeBryant)的投篮预测时,数据处理与分析是关键步骤,能够揭示这位篮球巨星独特的投篮风格和成功率背后的模式和趋势。以下是更深入的数据处理和分析步骤:1.数据收集与准备首先,收集科比布莱恩特在其职业生涯中的投篮数据是分析的基础。这些数据可以从N......
  • Openlayers高级交互(20/20):超级数据聚合,页面不再混乱
    本示例在vue+openlayers中使用cluster生成聚合数据的效果。在OpenLayers中实现点聚合(clustering)是一个常见的需求,特别是在处理大量地理数据点时。聚合可以提高地图的性能并减少视觉上的混乱。一、示例效果图专栏名称内容介绍Openlayers基础实战(72篇)专栏提供73......
  • Apache DolphinScheduler + OceanBase,搭建分布式大数据调度平台的实践
    本文整理自白鲸开源联合创始人,ApacheDolphinSchedulerPMCChair,ApacheFoundationMember代立冬的演讲。主要介绍了DolphinScheduler及其架构、DolphinScheduler与OceanBase的联合大数据方案。DolphinScheduler是什么?ApacheDolphinScheduler,作为一款云原生且配备强大的可视......
  • AI人工智能代理工作流 AI Agent WorkFlow:在数据分析中的应用
    AI代理,工作流,数据分析,自动化,机器学习,深度学习,自然语言处理1.背景介绍在当今数据爆炸的时代,数据分析已成为各行各业不可或缺的环节。然而,传统的数据分析方法往往依赖于人工干预,效率低下,难以应对海量数据的处理需求。为了解决这一问题,人工智能代理工作流(AIAgentWorkF......
  • DICOM标准:重要概念——多种传输语法、私有数据元素标签、唯一标识符(UID)等详解
    1私有数据元素标  1.1 私有数据元素标签(PrivateDataElementTags)        在DICOM标准中,多个实现者可能会定义带有相同(奇数)组号码的私有数据元素标签。为了避免冲突,私有元素根据以下规则分配私有数据元素标签:  a)私有创作者数据元素的分配 编号为(gggg......
  • Springboot应急物资采购系统2548l(程序+源码+数据库+调试部署+开发环境)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表学生,物资分类,物资商品,普通管理员开题报告内容一、研究背景与意义在当今社会,自然灾害、突发事件及公共卫生危机等不可预见事件频发,对社会的稳定与发展构成了......
  • C++ 的“百变魔法”:搞懂基本数据类型和变量
    编程世界里,数据就像材料,而基本数据类型就决定了这些材料能做什么。每种数据类型都有它自己的“特长”,我们可以用它们来处理不同的信息。今天,我们就来看看C++里最常见的几种基本数据类型:int,char,float,double,bool,以及如何用变量来存储这些数据。什么是数据类型?简单......
  • 【含文档】基于ssm+jsp的茶产品销售平台(含源码+数据库+lw)
    1.开发环境开发系统:Windows10/11架构模式:MVC/前后端分离JDK版本:JavaJDK1.8开发工具:IDEA数据库版本:mysql5.7或8.0数据库可视化工具:navicat服务器:apachetomcat主要技术:Java,Spring,SpringMvc,mybatis,mysql,vue2.视频演示地址3.功能系统定义了两个......
  • 【含文档】基于ssm+jsp的NBA球队管理系统(含源码+数据库+lw)
    1.开发环境开发系统:Windows10/11架构模式:MVC/前后端分离JDK版本:JavaJDK1.8开发工具:IDEA数据库版本:mysql5.7或8.0数据库可视化工具:navicat服务器:apachetomcat主要技术:Java,Spring,SpringMvc,mybatis,mysql,vue2.视频演示地址3.功能系统定义了两个......
  • 基于Python的热门旅游景点数据分析系统的设计与实现
    ......