doc
  • 2024-11-18.only('field_name') 的作用
    在使用mongoengine的QuerySet时,.only('field_name')是一种优化查询的方法,用于指定只查询某些字段的数据。以下是其工作原理及返回的内容:.only('field_name')的作用它限制MongoDB查询返回的字段,仅获取指定的字段内容。用于提高查询性能,减少不必要的数据加载。示例`res
  • 2024-11-15【Python】将同一目录下的多个doc文件批量转为docx文件
    同一目录有多个doc文件: importwin32com.clientaswcimportos#设置.doc文件所在的目录docs_directory=r'F:\xxx\PycharmProjects\Python学习项目\doc文件'defgetpath(docs_directory):#输出docx文件的路径和名称[路径,名称]#遍历目录中的所有.doc文件
  • 2024-11-15linux之文件权限
    文件权限管理rwx含义是指在Linux系统中,文件的权限可读(r)、可写(w)、可执行(x)。文件权限是由三组rwx组成,开头第一位表示文件的类型为文件(-)、目录(d)、链接(l)等形式rwx的数字概念r4w2x1-rwxr-xr-xrwx#属主位r-x#属组位r-x#其它位文件权限数字表示为:755文件权限
  • 2024-11-14Python实现批量提取Word文档中的图片(支持.doc和.docx格式)
            在工作中,我们可能会遇到需要从多个Word文档中批量提取图片的需求。如果手动操作,效率低且容易出错。因此,利用Python自动化批量提取图片是一个不错的选择。本篇文章将详细介绍如何使用Python来实现从.doc和.docx格式的Word文档中批量提取图片并保存
  • 2024-11-14分区Partition
    理解Partition向量检索服务DashVector的Collection具有分区(Partition)的能力,同一个Collection下的Doc可通过不同的Partition进行物理和逻辑上的分区。各种Doc操作(如插入Doc、检索Doc等。若指定Partition,则该操作将限定在该指定的Paritition内进行。通过合理的Partition设置,可有效
  • 2024-11-1303LangChain初学者指南:从零开始实现高效数据检索
    LangChain初学者指南:从零开始实现高效数据检索https://python.langchain.com/v0.2/docs/tutorials/retrievers/这个文档,我们将熟悉LangChain的向量存储和抽象检索器。支持从(向量)数据库和其他来源检索数据,并与大模型的工作流集成。这对于需要检索数据以进行推理的应用程序非常重
  • 2024-11-12Elasticsearch简介
    前言什么是搜索引擎搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上采集信息,在对信息进行组织和处理后,为用户提供检索服务,将检索的相关信息展示给用户的系统。分类:全文索引搜索引擎采集ip段内的网页数据,扫描网页内容的每一个词,对其创建索引,指明词
  • 2024-11-12RAG 应用优化策略:从文档处理到检索技巧
    引言RAG(检索增强生成)应用的性能很大程度上取决于文档处理、分割策略和检索方法的优化。本文将系统地介绍RAG应用的各个环节优化策略,帮助开发者构建更高效的RAG系统。文档预处理优化非分割类型的文档转换器1.问答转换器(QATransformer)问答转换器可以将文档转换为问答对的
  • 2024-11-12docx 生成word报告
    #-*-coding:utf-8-*-importbase64importosfromioimportBytesIOfromdocximportDocumentfromdocx.sharedimportInches,Ptfrombs4importBeautifulSoupfrommatplotlibimportpyplotaspltfromwordcloudimportWordCloud#设置全局字体plt.rcParams[
  • 2024-11-08【NLP】使用 SpaCy 通过 LLM 合成数据微调 NER 模型
    在我们之前的文章“使用SpaCy、ollama创建用于命名实体识别的合成数据集”中,我们探讨了如何使用Qwen生成合成数据,以自动化命名实体识别(NER)的注释过程。通过利用合成数据,我们能够高效地准备来自SmoothNLP金融新闻数据集  的高质量数据集。现在,在这篇文章中,我们将更进
  • 2024-11-07Schema Free
    向量检索服务DashVector在设计上支持SchemaFree,在插入Doc、更新Doc、插入或更新Doc时,可设置任意KeyValue结构的字段(Field),如下所示:Python示例:collection.insert(Doc(id='1',vector=np.random.rand(4),fields={'name':'zhangsan
  • 2024-11-06word转pdf
    fromwin32comimportclient#转换doc为pdfdefdoc2pdf(fn):word=client.Dispatch("Word.Application")#打开word应用程序#forfileinfiles:doc=word.Documents.Open(fn)#打开word文件doc.SaveAs("{}.pdf".format(fn[:-4]),17)
  • 2024-11-06如何通过Python SDK更新Collection中已存在的Doc
    本文介绍如何通过PythonSDK更新Collection中已存在的Doc。说明若更新Doc时指定id不存在,则本次更新Doc操作无效如只更新部分属性fields,其他未更新属性fields默认被置为NonePythonSDK1.0.11版本后,更新Doc时vector变为非必填项前提条件已创建Cluster:创建Cluster。
  • 2024-11-06将doc文件转换为docx文件
    将.doc文件转换为.docx文件通常不会导致兼容性变差,反而可能提升兼容性。以下是一些关键点:文件格式更新:.docx是Microsoft在2007年引入的新版文件格式,基于开放XML标准,具有更好的跨平台兼容性和开放性。与旧的.doc格式相比,.docx文件通常更小,支持更多的格式和功
  • 2024-11-05批量删除word文件指定页
     环境准备:系统    Windows语言Python3.8开发工具Pycharmimportosimportcomtypes.clientdefdelete_first_page(doc_path):#获取Word应用程序对象word=comtypes.client.CreateObject('Word.Application')word.Visible=0#不可见doc=w
  • 2024-11-02python读word中的表格和插入表格
    读取word中的表格有时候需要从word中读取表格数据。不同于excel,word中表格的对象属性是Table。示例文档如下:读取效果:行:6,列:3['物料','数量','单价']['车轮','2','100']['坐垫','1','20']['车把','
  • 2024-11-02python在word的页脚插入页面
    1、插入简易页码importwin32com.clientaswin32fromwin32com.clientimportconstantsimportosdoc_app=win32.gencache.EnsureDispatch('Word.Application')#打开word应用程序doc_app.Visible=Truedoc=doc_app.Documents.Add()footer=doc.Sections(1).Foo
  • 2024-10-30DashText-进阶使用
    前置知识BM25简介BM25算法(BestMatching25)是一种广泛用于信息检索领域的排名函数,用于在给定查询(Query)时对一组文档(Document)进行评分和排序。BM25在计算Query和Document之间的相似度时,本质上是依次计算Query中每个单词和Document的相关性,然后对每个单词的相关性进行加权求和。BM
  • 2024-10-29ElasticSearch知识点小记
    ElasticSearch索引的基本操作#创建索引PUT/index_name可以初始不定义{ "settings":{ //索引设置 "number_of_shards":"1",//索引的分片书决定了索引的并行度和数据分布不可以动态修改 "number_of_replicas":"1",//副本的数量提高了数据的可用性和容错能力可以动态
  • 2024-10-25使用Lucene.net来进行索引和检索
    1.去http://lucenenet.apache.org/ 下载lunece.net 文件2.在项目添加引用Lucene.Net.dll classProgram{staticvoidMain(string[]args){//索引Directorydirecotry=FSDirectory.GetDirectory("LuceneIndex");
  • 2024-10-25【原创】修正fpspreadsheet读某些复杂xlsx文件时出错的Bug
    网友“海”在使用fpspreadsheet时遇到读取复杂的xlsx文件会出错: 经跟踪发现运行到fpspreadsheet\source\common\xlsxooxml.pas的procedureTsSpreadOOXMLReader.ReadFromStream的ReadDefinedNames(Doc.DocumentElement.FindNode('definedNames'))这行出错,查看早期(fpspreadsheet
  • 2024-10-24【AIGC】AI如何匹配RAG知识库:关键词搜索
    关键词搜索引言jieba库简介TF-IDF简介实践例子用jieba库提取关键词计算TF-IDF计算文档和查询相似度结果完整代码:总结引言RAG作为减少模型幻觉和让模型分析、回答私域相关知识最简单高效的方式,我们除了使用之外可以尝试了解其是如何实现的。在实现RAG的过程中,有语义
  • 2024-10-22使用rem更好的去适配页面元素
    需要一段JS:(function(doc){letdocEl=doc.documentElement;// 获取根节点的htmldoc.addEventListener("DOMContentLoaded",recalc);functionrecalc(){letwidth=docEl.clientWidth;docEl.style.fontSize
  • 2024-10-21ansible
    ansible批量管理自动化1)概念作用 更加快捷方便 可以进行批量管理 重复性操作2)核心重点 ansible的hosts文件如何编写(3种场景) ansible的模块作用 ansible的剧本编写规范3)实现更好的管理多台主机,剧本编写更加合理 a、引入了剧本编写的多个扩展功能 b、引入了角色概念
  • 2024-10-20ES脚本使用
    简要介绍有时候需要一些复杂逻辑时,就需要用到ES提供的脚本,可以在字段、自定义分数、排序等场景下使用。ES默认的脚本叫做painless。在支持脚本的ESAPI中,基本都循序以下的语法格式"script":{"lang":"...","source"|"id":"...","params":{&q