- 2024-11-19late chunking 源码分析-https://github.com/jina-ai/late-chunking
importbisectimportloggingfromtypingimportDict,List,Optional,Tuple,Unionfromllama_index.core.node_parserimportSemanticSplitterNodeParserfromllama_index.core.schemaimportDocumentfromllama_index.embeddings.huggingfaceimportHugging
- 2024-11-18PGML:向量数据库内一体化的RAG框架
架构总览特性:●支持数据库中进行的ai和ml分析●支持gpu加速●集成多种开源llm和rag框架●支持传统的机器学习模型使用方法云端试用官方提供了云服务试用,根据要求注册账号即可:注册地址本地部署官方提供了docker镜像,执行如下命令即可安装dockerrun\-it\
- 2024-11-16【GraphRAG】本地部署全流程!超详细介绍!
1、GraphRAG是什么?GraphRAG(Graph-basedRelation-AwareGrouping)是一种基于图的关系感知分组方法,通常用于计算机视觉和机器学习领域。它的核心思想是利用图结构来表示和处理实体之间的关系,从而更有效地进行分组和识别任务。2、本地部署在autodl上进行运行,4090单显卡+24GB内
- 2024-11-12RAG 应用优化策略:从文档处理到检索技巧
引言RAG(检索增强生成)应用的性能很大程度上取决于文档处理、分割策略和检索方法的优化。本文将系统地介绍RAG应用的各个环节优化策略,帮助开发者构建更高效的RAG系统。文档预处理优化非分割类型的文档转换器1.问答转换器(QATransformer)问答转换器可以将文档转换为问答对的
- 2024-11-12自定义 LangChain 组件:打造专属 RAG 应用
引言在构建专业的检索增强生成(RAG)应用时,LangChain提供了丰富的内置组件。然而,有时我们需要根据特定需求定制自己的组件。本文将深入探讨如何自定义LangChain组件,特别是文档加载器、文档分割器和检索器,以打造更加个性化和高效的RAG应用。自定义文档加载器LangChain的文档
- 2024-11-11用Python计算栅格数据的真实面积
用Python计算栅格数据的真实面积在地理空间分析中,栅格数据的像素值通常代表某种属性,比如土地利用比例、植被覆盖率等。这些数据往往基于经纬度网格表示的比例值,而为了更直观地理解这些数据的空间意义,我们需要将这些比例值转化为实际面积(如平方米或公顷)。对于高分辨率的大尺寸栅
- 2024-11-08glibc 内存分配与释放机制详解
作者:来自vivo互联网存储团队-WangYuzhi本文以一次线上故障为基础介绍了使用glibc进行内存管理可能碰到问题,进而对库中内存分配与释放机制进行分析,最后提供了相应问题的解决方案。一、引言内存对象的分配与释放一直是后端开发人员代码设计中需要考虑的问题,考虑不周极易
- 2024-10-29♀️概念问题:module chunk bundle的区别
module:模块,各个源码文件。比如说src下面的index.js就是模块,而在其中引用的一切都是模块。上面lodash啦,别的文件啦(math.js),css文件啦,图片啦。可以引用的都是模块。chunk:多模块合并成的,比如entry里面可以定义;import(),splitChunk比如上面的index.html不一定只有一个index
- 2024-10-24二进制菜鸟的杂谈-调试与pwn
反调试技术NLFlagGlobalPEB的偏移当被调试的时候会有标志位:FLG_HEAP_ENABLE_TAIL-CHECK()FLG_HEAP_ENABLE_FREE_CHECK()FLG_HEAP_VALIDATE_PARAMETERS()一般为:moveax,fs:[30h]moval,[eax+68h]moval,70hcmpal,70h其实是因为isDebugger被检测到了进而影响
- 2024-10-21S3cmd使用常见问题及技巧
问题一:错误提示如下:ERROR:Parameterproblem:Chunksize15MBresultsinmorethan10000chunks.Pleaseincrease--multipart-chunk-size-mb这是s3cmdput命令出现错误的日志,提示“参数问题:块大小15MB导致超过10000个块。请增加–multipart-chunk-size-mb”。
- 2024-10-20Python加速运算——"-O优化"和Cython
1.以release模式运行Pythonpython-Oprocess_file.py可以在代码中加入以下命令,判断是否为release模式:if__debug__:print("Debugmode")else:print("Releasemode")2.使用Cython下载Cython:pipinstallcython编写pyx文件,即要编译的Python代码:为了后面方
- 2024-10-04BUUCTF_MISC题解析(3,4)
3.你竟然赶我走搜索010editor官网,点第一个页面,下载010editor(十六进制编译器)(黄色图标),直接010editor打开(或者使用stegSolve)一般情况用ctrl+f进入字符串搜索查看是否有插入的flag信息,就可以在文件尾看到flag是flag{stego_is_s0_bor1ing} 4.二维码扫码识别二维码,发现隐
- 2024-10-02【HITCON-Training】Lab 12 - SecretGarden
学习于2024-10-0122:00:17星期二心得感想:这次真的把我整笑了,现在是10/2的晚上23点,我都不敢想象自己弄了多久(整整两天国庆的下午
- 2024-09-29Large_bins_attack
导言在libc版本越来越高的情况下,许多旧的攻击方式已然失效,而large_bin_attack始终屹立不倒,是许多攻击方式的先决条件,这也是我们要学习它的原因large_bin概念large_bin是一种堆分配的管理方式,是双向链表,用于管理大于某个特定大小阈值的内存块。一般而言,进入large_bin的最低字节
- 2024-09-28[场景设计]断点续传
要实现大文件的断点续传,通常的实现方式是将文件分块上传(切割文件)并记录每个块的状态,以便在中断后可以从上次上传完成的块继续上传。你可以基于以下几个步骤来实现这个功能,主要涉及字节流操作、文件分块、状态记录和续传的逻辑。1.文件分块将大文件切割成多个小块进行上传,这样在
- 2024-09-25如何在生成式AI里使用 Ray Data 进行大规模 RAG 应用的 Embedding Inference
检索增强生成(RAG,即RetrievalAugmentedGeneration)是企业级生成式AI(GenAI)应用的热门案例之一。多数RAG教程演示了如何利用OpenAIAPI结合Embedding模型和大语言模型(LLM)来进行推理(Inference)。然而,在开发过程中,如果能使用开源工具,就可以免去访问自己数据的费用,同时也能加
- 2024-09-22创建对外部存储库的拉取请求
本周的重点是实验2,其中涉及通过创建拉取请求(pr)为我不拥有的存储库做出贡献。我首先选择一个同学的存储库来进行工作。鉴于javascript是我的主要编程语言,我选择了基于javascript的存储库来简化我的工作流程。虽然我愿意探索其他语言,但我选择js项目节省了时间,让我可以更
- 2024-09-20从源码看透 Ptmalloc:堆内存分配与释放的背后
- 2024-09-20vue.config.js 多页面配置打包 样例
基本概念EntryPoints:每个页面都有自己的入口点(entrypoint),例如main-index.js和main-about.js。这是每个页面的起点,定义了该页面需要加载的所有资源。Chunks:由Webpack生成的JavaScript文件块。每个页面会有自己的chunk,还有一些共享的chunk。VendorChunk:包含第三方库
- 2024-09-18大模型企业级RAG应用优化(一):数据索引阶段的8个必知技巧
基于大模型的RAG应用,一个普遍的认识是:做原型很简单,投入生产很难为什么我的RAG应用很难按预期工作?在之前的文章中我们曾经陆续的对RAG应用优化做过零星与局部的探讨,如融合检索、查询转换、多模态处理、AgenticRAG等。接下来我们将结合之前的方法与实践,总结形成更完整的企业级RAG应
- 2024-09-17xyctf2024 pwn
helloworldchecksec大多保护都开启了main函数int__fastcallmain(intargc,constchar**argv,constchar**envp){charbuf[20];//[rsp+0h][rbp-20h]BYREFinit();printf("%s","pleaseinputyourname:");read(0,buf,0x48uLL);p
- 2024-09-15xyctf2024 pwn
helloworldchecksec大多保护都开启了main函数int__fastcallmain(intargc,constchar**argv,constchar**envp){charbuf[20];//[rsp+0h][rbp-20h]BYREFinit();printf("%s","pleaseinputyourname:");read(0,buf,0x48uLL);p
- 2024-09-12Python编译器IDE爬虫爬取3首歌曲代码
importrequestssong_urls=[“http://music.163.com/song/media/outer/url?id=25795016.mp3”,“http://music.163.com/song/media/outer/url?id=5255631.mp3”,“http://music.163.com/song/media/outer/url?id=5255640.mp3”]forindex,song_urlinenumerate(so
- 2024-09-10动态内存管理
C/C++malloc-free底层原理-动态内存管理关于动态内存管理这块在面试中被考察频率非常高,切入的点也很多,有从操作系统虚拟内存问起的,也有从malloc、new等开始问起的。但是无外乎就是两块内容:虚拟内存机制:物理和虚拟地址空间、TLB页表、内存映射动态内存管理:内存管理、分配
- 2024-09-10MIT6.824 课程-GFS
GFS原文:https://zhuanlan.zhihu.com/p/113161014搬运用于参考学习概述存储(Storage)是一个非常关键的抽象,用途广泛。GFS论文还提到了很多关于容错、备份和一致性的问题。GFS本身是Google内部一个很成功的实用系统,其关键点被很好的组织到一块发表成为了学术论文,从硬件到