切分

2025-01-12RAG中的文本切分策略详解
RAG中的文本切分策略详解1.选择RAG中的文本切分策略1.1不同的文本切分策略1.CharacterTextSplitter-这是最简单的方法。它默认基于字符（默认为""）来切割，并且通过字符的数量来衡量块的长度2.RecursiveCharacterTextSplitter-基于字符列表拆分文本。3.-基
2025-01-10机器学习之留出法中的分层采样和多次切分
留出法（Hold-outMethod）本身是数据划分的一种方式，将数据集分为训练集和测试集。为了提升留出法的评估效果，常常结合分层采样和多次切分等技术。以下是详细说明这些方法如何增强留出法的效果。1.留出法（Hold-outMethod）留出法是将数据集划分为训练集和测试集的一种方法，通常
2025-01-03江大白 | 基于腾讯混元大模型，业务落地实践汇总！
本文来源公众号“江大白”，仅用于学术分享，侵权删，干货满满。原文链接：基于腾讯混元大模型，业务落地实践汇总！祝各位同仁元旦快乐！2025继续学习，越来越强！导读本文探讨腾讯大语言模型在内容生成、智能客服等场景的应用，解析RAG技术在文档生成、问答系统的优势，探讨GraphRAG在角色扮演
2024-12-14转载：【AI系统】昇思MindSpore并行
本文将会介绍昇思MindSpore的并行训练技术，以及如何通过张量重排布和自动微分简化并行策略搜索，实现高效大模型训练。大模型的带来随着深度学习的发展，为了实现更高的准确率和更丰富的应用场景，训练数据集和神经网络模型的规模日益增大。特别是自然语言处理（NaturalLanguageProcess
2024-12-14转载：【AI系统】昇思MindSpore并行
本文将会介绍昇思MindSpore的并行训练技术，以及如何通过张量重排布和自动微分简化并行策略搜索，实现高效大模型训练。大模型的带来随着深度学习的发展，为了实现更高的准确率和更丰富的应用场景，训练数据集和神经网络模型的规模日益增大。特别是自然语言处理（NaturalLanguageProcess
2024-12-14转载：【AI系统】昇思MindSpore并行
本文将会介绍昇思MindSpore的并行训练技术，以及如何通过张量重排布和自动微分简化并行策略搜索，实现高效大模型训练。大模型的带来随着深度学习的发展，为了实现更高的准确率和更丰富的应用场景，训练数据集和神经网络模型的规模日益增大。特别是自然语言处理（NaturalLanguageProcess
2024-12-12转载:【AI系统】昇思MindSpore并行
本文将会介绍昇思MindSpore的并行训练技术，以及如何通过张量重排布和自动微分简化并行策略搜索，实现高效大模型训练。大模型的带来随着深度学习的发展，为了实现更高的准确率和更丰富的应用场景，训练数据集和神经网络模型的规模日益增大。特别是自然语言处理（NaturalLanguageProcess
2024-12-12转载：【AI系统】昇思MindSpore并行
本文将会介绍昇思MindSpore的并行训练技术，以及如何通过张量重排布和自动微分简化并行策略搜索，实现高效大模型训练。大模型的带来随着深度学习的发展，为了实现更高的准确率和更丰富的应用场景，训练数据集和神经网络模型的规模日益增大。特别是自然语言处理（NaturalLanguageProcess
2024-12-11MobiSys'2022 CoDL论文详解
算子切分在了解算子切分前，先了解一下卷积的运算过程，作者将算子切分分为了两个维度的切分：OC维度和H维度，没有W维度可能与数据在内存中的存储方式有关。OC维度切分卷积就是OC数量个kernel_size×kernel_size×IC大小的卷积核与输入张量卷积计算后的输出叠加，因此从OC维度上切分，将
2024-12-10RAG分块策略：主流方法（递归、jina-seg）+前沿推荐（Meta-chunking、Late chunking、SLM-SFT）
RAG分块策略：主流方法（递归、jina-seg）+前沿推荐（Meta-chunking、Latechunking、SLM-SFT）大多数常用的数据分块方法（chunking）都是基于规则的，采用fixedchunksize（译者注：将数据或文本按照固定的大小进行数据分块）或overlapofadjacentchunks（译者注：让相邻的数据块具有重叠内容，确保信
2024-12-10模型并行-Megatron-LM
1.原理针对transformer模型的模型并行方法，利用矩阵乘法的特性，将每个层切开，放入不同GPU中。对于注意力层，是按注意力头进行切分;对于MLP层，是按矩阵列进行切分。整个执行流程中，每个层的需要进行数据通信，因为对于矩阵切分后的乘法要得到最终的结果需要每个分块的结果进行矩
2024-12-09模型并行-Gpipe算法
1.原理与CPU的流水线的方法相同，Gpipe将模型分成多个块，每个块含有原模型的数个层。将每个块放在不同的GPU上，实现模型的流水线执行。只对模型进行切分实际上并没有达到并行的效果，因为是按照模型的层进行切分，不同层之间的前向传播和反向传播存在同步关系，所以无法并行执行。
2024-12-03转载：【AI系统】昇思MindSpore并行
本文将会介绍昇思MindSpore的并行训练技术，以及如何通过张量重排布和自动微分简化并行策略搜索，实现高效大模型训练。大模型的带来随着深度学习的发展，为了实现更高的准确率和更丰富的应用场景，训练数据集和神经网络模型的规模日益增大。特别是自然语言处理（NaturalLanguageProcess
2024-12-11聊一下量子芯片为什么这么牛？
前几天谷歌发布了一款量子芯片Willow，在互联网上掀起了一阵追捧，其中获得了一众互联网大佬的点赞。包括马斯克和奥特曼等。据说这款芯片解决了量子计算领域三十年来未攻克的难题，并且在5分钟内完成了当今最快的超级计算机需要10²⁵年（这个数字远远超过了宇宙的年龄）才能完成的计算
2024-12-10动态链接器（二）：使用Rust实现一个elf动态链接器
1动态链接器动态链接器（DynamicLinker）是操作系统的一部分，它能够在程序运行时动态地链接程序所需的共享库。两大libc——glibc和musl中都带有自己的动态链接器（ld.so）。通常来说，使用什么工具链编译，最终得到的PIE文件中INTERP段就会包含工具链对应libc的ld.so的路径。比如使用
2024-12-06风扇灯吊扇灯美国DOE认证加州CEC认证
吊扇灯风扇灯出口美国需要做DOE认证与加州CEC认证风扇灯CEC与DOE认证DOE认证，作为美国能源部（DepartmentofEnergy）的强制性认证，是进入美国市场的必经之路。此外，制造商和品牌商还需向DOE提交关键声明文件，完成官网注册，并指定美国授权代理（美代），以确保合规无忧。CEC和DOE都是能效认
2024-09-08A Fast and High Quality Multilevel Scheme for Partitioning Irregular Graphs
目录概METISCoarseningPartitioningphaseUncoarseningphaseKarypisG.andKumarV.Afastandhighqualitymultilevelschemeforpartitioningirregulargraphs.SIAM,1998.概本文提出了一种multilevelgraphpartitioning方法.METISMETIS的思想比较简单:
2024-08-15Embedding 之大规模数据拆分
Embedding之大规模数据拆分受限于常见LLM的上下文大小，例如gpt3.5t是16k、gpt4t是128k，我们并不能把完整的数据整个塞到对话的上下文中。即使数据源接近于LLM的上下文窗口大小，llm在读取数据时很容易出现分神，或者忽略其中部分细节的问题。因此，我们需要对数据进行
2024-08-13TextIn文档树引擎，助力RAG知识库问答检索召回能力提升
TextIn团队的文档解析测评工具MarkdownTester在Github发布后，我们陆续与大家探讨了目前业内对PDF解析工作的评判标准与我们各项测评指标的设计原理，包括段落、表格、公式、阅读顺序等维度。今天，我们将介绍另一项重要指标，也是业内面对的一项普遍性难点：标题识别，以及它如何
2024-08-10Nginx日志切分脚本
因为学习初期都是习惯自己去解决问题没有使用工具切分日志,所以当时写了一个根据天数日志切分脚本,现在记录下。LOG_FILE="/data/log/nginx/filter.access1.log"PROCESSED_LOG_FILE="/data/log/nginx/filter.access.log"month=$(LC_ALL=Cdate"+%b")year=$(date"+%Y")
2024-07-30我用Awesome-Graphs看论文：解读PowerGraph
PowerGraph论文：《PowerGraph:DistributedGraph-ParallelComputationonNaturalGraphs》上次通过文章《论文图谱当如是：Awesome-Graphs用200篇图系统论文打个样》向大家介绍了论文图谱项目Awesome-Graphs，并从Google的Pregel开始解读图计算系统关键论文。这次向大家分享发表
2024-07-25贝叶斯分析与决策理论：用于确定分类问题决策点的应用
在分类问题中，一个常见的难题是决定输出为数字时各类别之间的切分点。例如，一个神经网络的输出是介于0到1之间的数字，比如0.7，这是对应于正类（1）还是负类（0）？常识告诉我们使用0.5作为决策标记，但如果低估正类的风险较高怎么办？或者如果类别不平衡呢？在这些情况下，正确估计切分点需要复审概率
2024-07-10Perl中的切分艺术：深入探索split函数的神秘力量
2024-07-08分布式混合并行训练关键技术解读
为个人参与深度学习框架飞桨PaddlePaddle开发时，梳理的个人笔记。一、并行方式1.数据并行（Batch维度）数据并行分为了两种模式：DataParallel（DP）和DistributedDataParallel（DDP）。1.1DataParallelDP是一种单进程多线程的并行策略，只能在单机上进行训练，从卡做Forward和Backw