Tetadata性能优化案例

时间：2023-12-06 21:22:39浏览次数：38

1.不当使用SET表

问题描述：建表不指定MULTISET关键字，默认SET表（不允许重复记录），如果建了SET表又未指定UPI ，则每次在插入数据时都会进行Duplicate row check操作消耗额外的系统资源

建议：建表时统一加上MULTISET关键字如果需要保证表中没有重复记录，则可在设置PI时指定UNIQUE PRIMARY INDEX

2.PI设置不合理

问题描述：2张表的PI表设置不一致

建议：PI选取时首先考虑均匀分布不偏移，其次考虑使用过程中的关联及过滤情况

3.大数据量聚合与关联

问题描述：交易流水表有大量明细数据，取一年数据关联后再汇总的方式在关联阶段会消耗大量系统资源

建议：当遇到大量数据需汇总统计并且过程中还需关联其他表时，可以考虑先聚合减少数据量再关联的方式

方法：建临时表先做聚合，过滤条件后数据量约10亿，按日聚合约2000w，按月聚合约200w，根据应用原始逻辑，可按月先进行聚合

4.相似逻辑重复使用

问题描述：5段INSERT逻辑基本相同，只有部分过滤条件不同，分段拆入导致系统多次读取来源表数据，额外消耗了系统资源

建议：可以将条件合并，5段INSERT合并1段INSERT，然后通过CASE WHEN进行区分

5.同一张表的多次关联

问题描述：同一张表多次关联造成了系统资源的额外消耗

建议：表只需要关联一次，通过CASE WHEN的行转列方式获取最终结果

6.PI中带DATA_DT

问题描述：在主索引中加入数据日期字段会导致在关联等场景时更加容易出现重分布的情况，导致额外的系统资源消耗

建议：除非出现单日数据重复较多需要多加一个日期字段来避免偏移的情况，否则不建议在PI中加上DATA_DT字段，比较推荐的方式是将DATA_DT作为PPI使用

7.关联字段中有大量空值

问题描述：字段有大量空值，导致执行过程中产生了严重的偏移

建议：因空值的关联大多数情况下没有实际的业务含义，当关联字段中存在大量空值时，可以在关联时加上过滤条件来排除掉空值的关联

8.PPI字段逻辑处理

问题描述：使用PPI字段时如果进行了逻辑处理会导致获取数据时无法利用到PPI，造成全表扫描

建议：为了获取当月数据，保持PPI字段不加额外处理

9.不必要的排重

建议：

第一步：新建临时表取有多条记录的记录

第二步：直接插入唯一记录条数

第三步：有多条记录排重后插入

其他案例：冗余逻辑处理、导出目标列过多
————————————————
版权声明：本文为CSDN博主「wangtian_6」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_21413865/article/details/134817813

标签：Tetadata,PPI,关联,空值,案例,字段,PI,优化,系统资源
From： https://www.cnblogs.com/wangtian-6/p/17880561.html

QuadTree 优化版
QuadTree.h#pragmaonce#include<iostream>#include<string>#include<stdlib.h>#include<ctime>#include<vector>#include<algorithm>usingnamespacestd;#defineMAX_ELE_NUM300//每块区域的最大点数#defineQUADRANT_R......
java进行文件搜索的一个小案例
分享一个小demo，可以查询某个文件目录下的某个文件并启动，来自黑马的IO教程importjava.io.File;importjava.io.IOException;publicclassApp3{publicstaticvoidmain(String[]args)throwsIOException{searchFile(newFile("D:/"),"pycharm64.exe");......
武汉星起航：突破上架瓶颈，卖家们如何精益求精优化亚马逊上新流程
在亚马逊平台的激烈竞争中，卖家们经常为了确保产品及时上架而苦苦挣扎。上新速度缓慢成为制约业务增长的瓶颈，然而，为了解决这个普遍的问题，卖家们正积极寻找优化上架流程的创新之道。本文将深入分析上架速度缓慢的原因，并揭示卖家们如何通过精益求精的手段优化亚马逊上新流程，实现快速上......
基于Browscap对浏览器工具类优化
项目背景原有的启动平台公共组件库comm-util的浏览器工具类BrowserUtils是基于UserAgentUtils的，但是该项目最后一个版本发布于2018/01/24，之至今日23年底，已有5年没有维护更新，会造成最新版本的部分浏览器不能正确获取到浏览器信息。（至于为什么停更了获取不到最新浏览器和操作系统......
优化 uniapp 发行操作：一键打包、混淆代码
uniapp一键发行代码并混淆代码第一步.在项目根目录下安装插件npminstalljavascript-obfuscator-g 安装完成后，javascript-obfuscator就是一个独立的可执行命令了。javascript-obfuscator-v 第二步：HbuilderX点击发行按钮，打包代码到dist文件中小程序发行......
故障发现、定位提效超 70%，去哪儿可观测体系做了哪些优化？
一分钟精华速览去哪儿网的原有监控系统在指标数量上展现出了强大实力——上亿指标量和百万级的告警量，但在故障数据方面却稍显不足——订单类故障平均发现时间长达4分钟，仅有20%的订单类故障能在1分钟内被发现，近半数的故障处理时长超过30分钟。为了解决这些问题，去哪儿网决定从......
多开工具对手机应用网络连接的优化与改进
多开工具对手机应用网络连接的优化与改进摘要：随着智能手机应用的日益普及，用户对于多个账号同时登录一个应用程序的需求也在增加。为了满足这一需求，多开工具应运而生。本文将探讨多开工具在优化和改进手机应用网络连接方面的作用。引言：在日常生活中，我们经常需要同时登录不同的......
Vue 应用程序性能优化：代码压缩、加密和混淆配置详解
简介在Vue应用程序的开发中，代码压缩、加密和混淆是优化应用程序性能和提高安全性的重要步骤。VueCLI是一个功能强大的开发工具，它提供了方便的配置选项来实现这些功能。本文将介绍如何使用VueCLI配置代码压缩、加密和混淆功能，以提高应用程序的性能和安全性。一、配置代......
选择CRM系统时，企业应注意这些功能以优化业务管理
CRM系统可以帮助企业整合各类销售渠道，精准获取客户需求，打通市场与销售之间的协作壁垒，提升客户转化效率。那么企业选择CRM系统时要注意的功能有哪些？一起跟着小编看看吧。一、市场管理通过CRM系统，市场人员可以通过电子邮件、电话咨询以及网络研讨会等方式举办活动，以获取初级销......
机器学习-逻辑回归：从技术原理到案例实战
在本篇文章中，我们对逻辑回归这一经典的机器学习算法进行了全面而深入的探讨。从基础概念、数学原理，到使用Python和PyTorch进行的实战应用，本文旨在从多个角度展示逻辑回归的内在机制和实用性。关注TechLead，分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团......

Tetadata性能优化案例

相关文章

赞助商

阅读排行