首页 > 数据库 >hiveSQL mapreduce任务调优

hiveSQL mapreduce任务调优

时间:2023-04-21 13:46:22浏览次数:34  
标签:set exec -- hiveSQL mapreduce hive 调优 mapred size

set hive.merge.mapredfiles=true; --在Map-Reduce的任务结束时合并小文件
set mapred.max.split.size=30000000; -- 决定每个map处理的最大的文件大小,单位为B
--set mapred.min.split.size=10000000; --公司集群默认值
--set mapred.min.split.size.per.node=; -- 节点中可以处理的最小的文件大小
--set mapred.min.split.size.per.rack=20; -- 机架中可以处理的最小的文件大小
set mapreduce.task.io.sort.mb=50;
set mapreduce.map.memory.mb=8000;
set mapreduce.reduce.memory.mb=8000;
set mapred.reduce.tasks=600;
set hive.merge.size.per.task=20000000; --合并后文件的大小为128M左右
set hive.merge.smallfiles.avgsize=20000000; --当输出文件的平均大小小于128M时,启动一个独立的map-reduce任务进行文件merge
SET hive.exec.compress.output = true;
set hive.exec.max.dynamic.partitions=500000;
set hive.exec.max.dynamic.partitions.pernode=10000;
SET hive.exec.dynamic.partition.mode = nonstrict;
SET hive.exec.dynamic.partition = true;
set hive.exec.parallel=true;
set hive.groupby.skewindata=true;
set hive.limit.query.max.table.partition=100000;
set mapred.task.timeout=600000;

标签:set,exec,--,hiveSQL,mapreduce,hive,调优,mapred,size
From: https://www.cnblogs.com/afra17/p/17340057.html

相关文章

  • 深度学习基础入门篇[六(1)]:模型调优:注意力机制[多头注意力、自注意力],正则化【L1、L2,D
    深度学习基础入门篇[六(1)]:模型调优:注意力机制[多头注意力、自注意力],正则化【L1、L2,Dropout,DropConnect】等1.注意力机制在深度学习领域,模型往往需要接收和处理大量的数据,然而在特定的某个时刻,往往只有少部分的某些数据是重要的,这种情况就非常适合Attention机制发光发热。举......
  • 零样本文本分类应用:基于UTC的医疗意图多分类,打通数据标注-模型训练-模型调优-预测部署
    零样本文本分类应用:基于UTC的医疗意图多分类,打通数据标注-模型训练-模型调优-预测部署全流程。1.通用文本分类技术UTC介绍本项目提供基于通用文本分类UTC(UniversalTextClassification)模型微调的文本分类端到端应用方案,打通数据标注-模型训练-模型调优-预测部署全流程,可快速......
  • 深度学习基础入门篇[六(1)]:模型调优:注意力机制[多头注意力、自注意力],正则化【L1、L2,D
    1.注意力机制在深度学习领域,模型往往需要接收和处理大量的数据,然而在特定的某个时刻,往往只有少部分的某些数据是重要的,这种情况就非常适合Attention机制发光发热。举个例子,图2展示了一个机器翻译的结果,在这个例子中,我们想将”whoareyou”翻译为”你是谁”,传统的模型处理方式是......
  • 深度学习基础入门篇[六]:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优
    深度学习基础入门篇[六]:模型调优,学习率设置(WarmUp、loss自适应衰减等),batchsize调优技巧,基于方差放缩初始化方法。1.学习率学习率是训练神经网络的重要超参数之一,它代表在每一次迭代中梯度向损失函数最优解移动的步长,通常用$\eta$表示。它的大小决定网络学习速度的快慢。在网络......
  • 一次线上JVM调优实践的优化过程
    通过这一个多月的努力,将FullGC从40次/天优化到近10天才触发一次,而且YoungGC的时间也减少了一半以上,这么大的优化,有必要记录一下中间的调优过程。对于JVM垃圾回收,之前一直都是处于理论阶段,就知道新生代,老年代的晋升关系,这些知识仅够应付面试使用的。前一段时间,线上服务器的FullGC......
  • Hadoop的生态体系,HDFS和MapReduce等的具体介绍
    Hadoop的两大核心就是HDFS和MapReduce,而整个Hadoop的体系结构主要是通过HDFS的分布式存储作为底层数据支持的。并且会通过MapReduce来进行计算分析。Hadoop1.x的核心:HadoopCommonHadoopDistributedFileSystem(HDFS)HadoopMapReduceHadoop2.x的核心:HadoopCommonHadoopDistribu......
  • 【JVM】JVM调优工具命令详解
    1 前言这节我们来实际的用一用JVM平时常用的调优命令,来实际体验回顾一下。这里我直接用的是我们生产环境的一个Pod里,来真实的带大家体验一下。2 jpsjps大家应该都知道吧,就是列出当前的java进程有哪些:3 jmap3.1  jmap‐histo此命令可以用来查看内存信息,实例个数以......
  • 深入理解 JVM ------ 调优案例分析与实战
    1、大内存硬件上的程序部署策略网站失去响应是由垃圾收集停顿所导致的,在该系统软硬件条件下,HotSpot虚拟机是以服务端模式运行,默认使用的是吞吐量优先收集器,回收12GB的Java堆,一次FullGC的停顿时间就高达14秒(太大会导致回收停顿时间过长。再加上直接进入老年代,FullGC次数多)。......
  • Oracle12C 调整 sga pga 调优记录
    3.2oracle参数调优查询oracle当前参数配置情况(processs=500;sessions=2280)1)以dba身份登录查看sga和pga情况SGA:SystemGlobalArea是OracleInstance的基本组成部分,在实例启动时分配;系统全局域SGA主要由三部分构成:共享池、数据缓冲区、日志缓冲区。SQL>showparametersga;NA......
  • 【性能调优】总体指导
    参考《java性能优化权威指南》 Java堆大小计算规则名称设置参数说明Java堆 -Xms和-Xmx 3-4倍FullGC后老年代空间量新生代 -Xmn 1-1.5倍FullGC后老年代空间量老年代 Java堆大小减新生代大小 2-3倍FullGC后老年代空间量永久代 -XX:permSize和-XX:MaxPermSize 1.2-1.5倍FullGC......