• 2024-09-08A Fast and High Quality Multilevel Scheme for Partitioning Irregular Graphs
    目录概METISCoarseningPartitioningphaseUncoarseningphaseKarypisG.andKumarV.Afastandhighqualitymultilevelschemeforpartitioningirregulargraphs.SIAM,1998.概本文提出了一种multilevelgraphpartitioning方法.METISMETIS的思想比较简单:
  • 2024-08-15Embedding 之大规模数据拆分
    Embedding之大规模数据拆分受限于常见LLM的上下文大小,例如gpt3.5t是16k、gpt4t是128k,我们并不能把完整的数据整个塞到对话的上下文中。即使数据源接近于LLM的上下文窗口大小,llm在读取数据时很容易出现分神,或者忽略其中部分细节的问题。因此,我们需要对数据进行
  • 2024-08-13TextIn文档树引擎,助力RAG知识库问答检索召回能力提升
    ​TextIn团队的文档解析测评工具MarkdownTester在Github发布后,我们陆续与大家探讨了目前业内对PDF解析工作的评判标准与我们各项测评指标的设计原理,包括段落、表格、公式、阅读顺序等维度。今天,我们将介绍另一项重要指标,也是业内面对的一项普遍性难点:标题识别,以及它如何
  • 2024-08-10Nginx日志切分脚本
    因为学习初期都是习惯自己去解决问题没有使用工具切分日志,所以当时写了一个根据天数日志切分脚本,现在记录下。LOG_FILE="/data/log/nginx/filter.access1.log"PROCESSED_LOG_FILE="/data/log/nginx/filter.access.log"month=$(LC_ALL=Cdate"+%b")year=$(date"+%Y")
  • 2024-07-30我用Awesome-Graphs看论文:解读PowerGraph
    PowerGraph论文:《PowerGraph:DistributedGraph-ParallelComputationonNaturalGraphs》上次通过文章《论文图谱当如是:Awesome-Graphs用200篇图系统论文打个样》向大家介绍了论文图谱项目Awesome-Graphs,并从Google的Pregel开始解读图计算系统关键论文。这次向大家分享发表
  • 2024-07-25贝叶斯分析与决策理论:用于确定分类问题决策点的应用
    在分类问题中,一个常见的难题是决定输出为数字时各类别之间的切分点。例如,一个神经网络的输出是介于0到1之间的数字,比如0.7,这是对应于正类(1)还是负类(0)?常识告诉我们使用0.5作为决策标记,但如果低估正类的风险较高怎么办?或者如果类别不平衡呢?在这些情况下,正确估计切分点需要复审概率
  • 2024-07-10Perl中的切分艺术:深入探索split函数的神秘力量
  • 2024-07-08分布式混合并行训练关键技术解读
    为个人参与深度学习框架飞桨PaddlePaddle开发时,梳理的个人笔记。一、并行方式1.数据并行(Batch维度)数据并行分为了两种模式:DataParallel(DP)和DistributedDataParallel(DDP)。1.1DataParallelDP是一种单进程多线程的并行策略,只能在单机上进行训练,从卡做Forward和Backw
  • 2024-07-02【决策树回归的原理】
    决策树之回归树模型何为回归树?回归树?回归树计算何为回归树?解决回归问题的决策树模型即为回归树。特点:必须是二叉树。回归树?回归树(RegressionTree)是一种使用树模型来解决回归问题的算法。其基本原理是将特征空间划分为多个子区域,每个子区域输出一个预测值,通常是
  • 2024-06-19架构漫谈读后感
     首先,我们要明白一个道理,什么是架构?王概凯的架构漫谈中说道,根据要解决的问题,对目标系统的边界进行界定。并对目标系统按某个原则的进行切分。切分的原则,要便于不同的角色,对切分出来的部分,并行或串行开展工作,一般并行才能减少时间。并对这些切分出来的部分,设立沟通机制。使得
  • 2024-06-18常见的排序算法——快速排序(四)
    本文记述了J.Bently和D.Mcllroy的快速三向切分快速排序的基本思想和一份参考实现代码,并在说明了算法的性能后用随机数据进行了验证。◆思想对比快速排序、快速排序(二)和快速排序(三)可以发现,对于随机数据而言,E.W.Dijkstra的三向切分快速排序的性能要慢于标准快速排序以及改进
  • 2024-06-12常见的排序算法——快速排序(三)
    本文记述了E.W.Dijkstra的三向切分快速排序的基本思想和一份参考实现代码,并在说明了算法的性能后用随机数据进行了验证。◆思想“在有大量重复元素的情况下,快速排序的递归性会使元素全部重复的子数组经常出现。这就有很大的改进潜力,将当前实现的线性对数级的性能提高到线性级
  • 2024-06-11王概凯架构漫谈阅读笔记
    架构漫谈是由资深架构师王概凯Kevin执笔的系列专栏,专栏将会以Kevin的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好程序等问题。什么是架构?根据要解决的问题,对目标系统的边界进行界定。并对目标系统按某个原则的进行切分。切分的原则,要便于不
  • 2024-06-07SVC数据集准备及预处理
      此文档主要为SVC数据集预处理的详细步骤。音源准备时长要求:训练音源需准备至少20min以上,最好是1-2小时的数据。注:由于歌曲中歌手并不会整首歌都在演唱,因此这里的时长说的是歌手实际演唱的时长,不包括前奏、间奏等无歌声的部分。质量要求:训练音源尽量使用高保真及以上品
  • 2024-06-02常见的排序算法——快速排序
    本文记述了快速排序的基本思想和一份参考实现代码,并在说明了算法的性能后用随机数据进行了验证。◆思想基于分治思想的快速排序,使用切分函数找到一个切分位置,保证其左侧子范围内的所有元素都不大于切分位置的元素,右侧子范围内的所有元素都不小于切分位置的元素。然后用递归调用
  • 2024-05-29三角网分块问题
        针对超大数据的构网问题,目前可行的方法就是对三角网进行分块处理,但是三角网的分块显然不像点云数据那么简单,如何对三角网进行切分,以及切分后块与块之间索引关系的建立都是难点;例如下图仅仅是对三角网进行了空间的切分,但是块与块的边界处的联系并没有建立。当然三角网
  • 2024-05-07A Revisiting Study of Appropriate Offline Evaluation for Top-N Recommendation Algorithms
    目录概实验设置EvaluationMetricsMetric的一致性不同的metrics导致的算法排名差异SampledmetricsSampledmetrics是否会导致和fullranking的metrics不同的评价数据集构建数据集的选择和预处理\(k\)-corefiltering的影响数据集的切分数据集的切分方式对结果的影响数据
  • 2024-05-05A Critical Study on Data Leakage in Recommender System Offline Evaluation
    目录概主要内容数据集统计信息Top-NRecommendationListRecommendationAccuracy理想的切分方式代码JiY.,SunA.,ZhangJ.andLiC.Acriticalstudyondataleakageinrecommendersystemofflineevaluation.TOIS,2022.概本文讨论了现在的推荐系统评价方式(如L
  • 2024-04-292-ICEM入门练习:梯形切分映射
    前言这一篇主要学习icem的分割以及映射功能。几何采用一个梯形,因为icem创建的block都是长方体,所以需要将block和几何进行一一对应才可以生成网格。因此通过梯形的网格划分来理解block及映射这部分知识。其余部分比如建模等,就不详细描述。具体步骤几何如图:创建block此时
  • 2024-04-24MySQL 分库分表方案,总结太全了。。
    来源:https://www.cnblogs.com/405845829qq/p/7552736.html前言公司最近在搞服务分离,数据切分方面的东西,因为单张包裹表的数据量实在是太大,并且还在以每天60W的量增长。之前了解过数据库的分库分表,读过几篇博文,但就只知道个模糊概念,而且现在回想起来什么都是模模糊糊的。今天
  • 2024-04-20银行笔试计算
    跑道问题                     长方体表面积切割问题 切割成正方体那么宽高必相等,之切分长 
  • 2024-04-10QGIS对较大的shp文件进行切片操作
    一般情况下,shp文件不是很大时可以通过geoserver去发布wms服务;但是业务中遇到了文件大小为1.5g的shp文件同时需要根据里面的字段类型进行分类直接通过geoserver发布会发现渲染非常的缓慢这边我是先将shp文件通过QGIS打开具体可以通过QGIS将shp文件直接拖到数据库中让它变成
  • 2024-04-09决策树模型(4)Cart算法
    Cart算法Cart是Classificationandregressiontree的缩写,即分类回归树。它和前面的ID3,C4.5等算法思想一致都是通过对输入空间进行递归划分并确定每个单元上预测的概率分布,进而进行回归和分类任务。只不过由于任务的不同,所以回归树和分类树的划分准则并不相同。Cart生成回归
  • 2024-04-02中间件之Mycat
    一、概念介绍Mycat是开源的、活跃的、基于Java语言编写的MySQL数据库中间件。可以像使用mysql一样来使用mycat,对于开发人员来说根本感觉不到mycat的存在Mycat不负责存储数据,只是逻辑上多数据进行分处理,实际存储数据的为后端数据库。Mycat拦截了用户发送过来的SQL语句,对SQL
  • 2024-03-23自动驾驶建图--道路边缘生成方案探讨
    自动驾驶建图--道路边缘生成方案探讨一、背景对于自动驾驶来说,建图是必不可少的,目前主流厂商技术都在从HD到"无图"进行过渡筹备中,不过想要最终实现真正的"无图"还是有很长的一段路要走。对于建图来说,包含了很多的道路元素,车道线,停止线,斑马线,导流属性,道路边缘以及中心线(包含引