• 2024-06-22大数据运维学习笔记之filebeat+kafka+MM1跨机房实时日志传输案例——筑梦之路
    日志数据量:日均30亿  
  • 2024-06-20构建高效的大数据量延迟任务调度平台
    目录引言系统需求分析系统架构设计总体架构任务调度模块任务存储模块任务执行模块任务调度算法时间轮算法优先级队列分布式锁数据存储方案关系型数据库NoSQL数据库混合存储方案容错和高可用性主从复制数据备份与恢复故障转移性能优化水平扩展缓存机制异步处理监
  • 2024-06-18Navicat和SQLynx功能比较三(数据导出:使用MySQL近千万数据测试)
    数据导出的功能在数据库管理工具中是最普遍的功能之一。所以数据导出的功能稳定性和性能也是数据库管理工具是否能很好地满足应用需求的一个考虑因素。目录1.整体比较2.示例2.1 前置环境2.2Navicat导出2.3 SQLynx导出2.4 性能对比结果(690万行数据)3.结论Nav
  • 2024-06-122.负载压力测试
        负载压力测试是一种重要的系统测试方法,旨在评估系统在正常和峰值负载情况下的性能表现。一、基本概念:  负载压力测试是在一定约束条件下,通过模拟实际用户访问系统的行为,来测试系统所能承受的并发用户数、运行时间、数据量等,以确定系统所能承受的最大负载压力。有助
  • 2024-06-12【MeshLib & VTK】MeshLib PK VTK
    很高兴在雪易的CSDN遇见你 VTK技术爱好者QQ:870202403   公众号:VTK忠粉前言本文分享三维几何处理库MeshLib,并将其与VTK进行对比,希望对各位小伙伴有所帮助!感谢各位小伙伴的点赞+关注,小易会继续努力分享,一起进步!你的点赞就是我的动力(^U^)ノ~YO目录前言1. MeshLib1
  • 2024-06-11大模型LLM出现涌现能力的原因介绍
    大模型的涌现能力主要是由以下几个原因造成的:(1)数据量的增加:随着互联网的发展和数字化信息的爆炸增长,可用于训练模型的数据量大大增加。更多的数据可以提供更丰富、更广泛的语言知识和语境,使得模型能够更好地理解和生成文本。(2)计算能力的提升:随着计算硬件的发展,特别是图形
  • 2024-06-11银行数据迁移项目,init(初始化)脚本怎么开发(实战)
    银行数据迁移项目,比起一般遇到的项目,其实难度还是挺大的。从0到1的项目好做,普通迭代开发的也不难,但是,对于(系统升级)数据迁移的项目,有点要老命。0,数迁项目背景一般由于业务部门新的业务需求的增加或者合并,为满足新需求,将某个系统(比如说最常见的信用卡系统)进行改造升级,其数据要
  • 2024-06-10【工作必备知识】Linux磁盘I/O故障排查分析定位 iostat 介绍
    【工作必备知识】Linux磁盘I/O故障排查分析定位iostat介绍大家好,我是秋意零。前言:今天,介绍Linux磁盘I/O故障排查时,必备命令iostat。该命令是监视系统I/O设备使用负载,它可以实时监视IO设备,从而帮助我们进行分析定位问题。iostat命令介绍iostat命令:监视系统I/O设备使
  • 2024-06-10attention机制、LSTM二者之间,是否存在attention一定优于LSTM的关系呢?
    这里没有严格的论证,只是自己的一些理解。attention机制下的Transformer确实是当前AI技术中最为火热的,基于其构建的大语言模型可以说是AI技术至今最强的技术之一了,但是attention是否真的的一定优于LSTM呢?其实,attention的效果或者说Transformer的效果是和数据量的多少有关系的,如
  • 2024-06-07hive性能优化系列-distinct-有限key
    案例方式1使用groupbyselects_age,count(1)from(selects_agefromstudent_tb_orcgroupbys_age)b方式2使用distinctselects_age,count(distincts_age)fromstudent_tb_orc分析数据量特别大方式1的代码在数据量特别大的情况下能够有效避免Reduce端的数据
  • 2024-06-05Oracle 表内数据量少,但是查询速度很慢
    优化方向1.使用合适的索引:确保查询中涉及的字段有适当的索引。索引可以帮助数据库引擎快速定位和检索数据,提高查询效率。2.避免使用通配符查询:尽量避免在查询条件中使用通配符'%',因为这样的查询会导致全表扫描,影响性能。3.避免使用函数:在查询条件中避免使用函数,尽量在字段上
  • 2024-06-05数据治理 - [01] 关于数据质量的问题
    题记部分 一、如何保证数据质量问题在数据处理的每一个环节,根据业务要求,提前设置好告警规则。比如,(1)设置日增数据量的阈值以及对于计算结果、某些关键指标的阈值;(2)从数据源获取到数据之后的第一步,就可以根据这个制定的规则,先看数据量是否在阈值范围内,比如正常的情况下,应该
  • 2024-06-04如何理解mysql小表驱动大表
    就像自行车爬坡一样么,小齿轮驱动大齿轮MySQL采用“小表驱动大表”的策略,确实在某种程度上类似于自行车爬坡时小齿轮驱动大齿轮的原理,目的都是为了更高效地利用有限的资源达到目标。在数据库查询的上下文中,这个策略背后的逻辑可以这样理解:1.**效率最大化**:小表数据量少,遍历小
  • 2024-06-03如何实现倾斜摄影三维模型OSGB格式轻量化
    如何实现倾斜摄影三维模型OSGB格式轻量化   倾斜摄影三维模型以其高精度和真实感受在城市规划、建筑设计和虚拟漫游等领域发挥着重要作用。然而,由于其庞大的数据量和复杂的几何结构,给数据存储、传输和可视化带来了挑战。为了解决这个问题,倾斜摄影三维模型OSGB格式的轻量化
  • 2024-05-312年go蓝炎科技、爱诗科技面试经历,期望薪资22K
    广州蓝炎科技一面1、简单自我介绍?用的什么技术栈?2、go的map是线程安全的吗?3、Channel一般会在什么场景下使用?往一个未初始化的channel发送数据,会怎样?4、关于go里头的随机数是线程安全的吗?随机数的那个种子的设置有什么注意的地方?需不需设置5、go里头的对象池了解吗?6、长
  • 2024-05-28如何实现倾斜摄影三维模型OSGB格式轻量化
    如何实现倾斜摄影三维模型OSGB格式轻量化 倾斜摄影三维模型以其高精度和真实感受在城市规划、建筑设计和虚拟漫游等领域发挥着重要作用。然而,由于其庞大的数据量和复杂的几何结构,给数据存储、传输和可视化带来了挑战。为了解决这个问题,倾斜摄影三维模型OSGB格式的轻量化成为必
  • 2024-05-25Redis基本数据结构
    String数据结构如果存储的是整型,直接把值存储在RedisObject里面,数据类型为int。如果存储的数据量不大(早期版本,32字节),采用动态字符串SDS存储,存储类型是embstr。超过32字节,采用动态字符串SDS进行存储,存储类型是raw。embstr和raw类型的区别在于,RedisObject和embstr是连续存
  • 2024-05-22面试疑难问题
    为什么不直接把CSV文件上传到hdfs而要用flume采集  动态分区 提取其中的时间戳断点续传 实时监听不用手动续传要有拦截器配置事务传输时更多控制能力积攒到多少批flushing一次忽略哪种类型的不上传 文件太多了一个个手动上传费时费力且容易出错我一直纠结
  • 2024-05-21在机器学习项目中,将原始数据集划分为训练数据集和测试数据集划分比例的确定
    在机器学习项目中,将原始数据集划分为训练数据集和测试数据集是非常重要的一步。这个划分比例会影响模型的训练效果和对未来数据的泛化能力。虽然没有固定的规则,但有一些建议和常见做法可以参考:常见的划分比例70%训练/30%测试:这是一个较为传统的划分比例,被广泛应用于各种机器
  • 2024-05-16如何实现城市三维模型CIM 轻量化
    如何实现城市三维模型CIM轻量化 城市三维模型CIM(CityInformationModeling)在城市规划、管理和可视化方面发挥着重要的作用。然而,大规模的城市模型往往具有复杂的几何结构和庞大的数据量,给数据存储、计算和可视化带来了挑战。为了解决这个问题,实现城市三维模型CIM的轻量化成
  • 2024-05-13sql优化思路以及方式
    后端服务的性能优化是一个永恒的话题。这一篇随笔主要记录一下在各种业务场景下,sql优化的一些思路以及方式。note:DML(datamanipulationlanguage)是数据操纵语言:它们是SELECT、UPDATE、INSERT、DELETE,就象它的名字一样,这4条命令是用来对数据库里的数据进行操作的语言。DDL(datad
  • 2024-05-12Oracle 删除千万级数据量时,可以考虑以下方法来提高删除效率
    Oracle删除千万级数据量时,可以考虑以下方法来提高删除效率:分批删除:如果需要删除的数据量非常大,可以考虑分批进行删除。sqlDELETEFROMyour_tableWHEREyour_conditionANDrownum<=10000;COMMIT;使用直接路径删除:直接路径删除会绕过常规的SQL解析和绑定,可以减少删除操
  • 2024-05-09混合再生码
    作者在2017年就已经想出并且提出了解决方案,而我2024年还在这里徘徊,真的令人难以形容。 最小存储再生码可以最优利用存储资源(因为是最小存储再生码,所以存储是最优的),同时可以实现数据修复开销最优;在进行数据修复时,给定存储开销下的最优修复开销可计算为:什么含义呢?一个具有k个数
  • 2024-05-08轻量化城市三维模型CIM的主要技术方法
    轻量化城市三维模型CIM的主要技术方法 城市三维模型CIM(CityInformationModeling)是在数字化时代中,为城市规划、管理和可视化提供重要支持的关键工具。然而,大规模的城市模型往往具有复杂的几何结构和庞大的数据量,给数据存储、计算和可视化带来了挑战。为了解决这个问题,轻量化
  • 2024-05-07关于《一本书读懂ChatGPT》阅读笔记
    目录机器学习与深度学习比较神经网络感知机单层感知机Perceptron多层感知机MultilayerPerceptron卷积神经网络CNN循环神经网络RNNRecurrentNeuralNetsLSTMGPT实现过程机器学习与深度学习比较MLDL数据适用数据量小、维度低的情况训练需要较多数据量特征工程