首页 > 其他分享 >Sqoop 数据导入hive size大小如何控制?

Sqoop 数据导入hive size大小如何控制?

时间:2023-07-20 09:47:33浏览次数:33  
标签:392.31 MB 一个 Sqoop hive 修改 39.03 size

描述:sqoop 从 hana 导入数据到 hive,数据量1300万,当 设置参数 -m 7 时,产生7个文件,但只有 3 个有数据,且大小不一,600多m,300dm,40m,修改参数为 -m 5,文件变成了5个,但是有数据的还是那三个,奇怪 该如何控制文件大小接近块大小。

 

修改 -m 1时,倒是变成了一个 1.04GB 的文件

修改 -m 2时,一个627.22MB,一个 437.36MB

修改 -m 3时,一个633.24 MB,一个392.31 MB,一个39.03 MB

修改 -m 4时,一个588.19 MB,一个392.31 MB,一个345.06 MB,一个39.03 MB

修改 -m 5时,一个633.24 MB,一个392.31 MB,一个39.03 MB

修改 -m 6时,一个588.19 MB,一个392.31 MB,一个345.06 MB,一个39.03 MB

 

查询 分区字段 按照四等分查询数量,没有明显差距

数量
11608524 16341564 2553845
16341564 21074603 3095375
21074603 25807643 3566136
25807643 30540682 4366937

很奇怪,不知道为什么。

 

标签:392.31,MB,一个,Sqoop,hive,修改,39.03,size
From: https://www.cnblogs.com/mmql-bjz/p/17567441.html

相关文章

  • (GCC) gcc编译选项 -Wl, -start-group,whole-archive,-Wl, Bstatic
    1.start-group编译选项假设程序x依赖三个静态库:libX1.a、libX2.a和libX3.a,而libX2.a又依赖libX1.a,libX3.a依赖libX2.a和libX1.a,正常情况下的CMakeLists.txt格式如下target_link_libraries(xlibX1.alibX2.alibX3.a)但也可以偷懒,不关心静态库的顺序问题,ld......
  • html 学习 day3 css 的层叠 父子size 的继承
    今天遇到一个问题,css的父子继承关系在一种case下不生效。:子节点无法继承父节点的 width和height的设定下面代码的原始版本img无法继承div的宽和高的设定。当 img的css设定为:img{height:100%;width:100%;margin-right:1......
  • MySQL数据库没有hive数据库
    如何实现MySQL数据库没有hive数据库概述在这篇文章中,我们将介绍如何在MySQL数据库中创建一个没有hive数据库的实例。我们将通过一系列步骤来实现这个目标,包括创建数据库、创建表和插入数据等。我将为你提供每一步所需的代码,并解释每个代码的含义。步骤下面是实现这个目标的步骤......
  • android transaction failed 29201/-1, size 0-0 line 3009
    解决"androidtransactionfailed29201/-1,size0-0line3009"错误引言在Android开发中,我们经常会遇到各种错误和异常。其中一个常见的错误是"androidtransactionfailed29201/-1,size0-0line3009"。这个错误通常与Fragment事务相关,并且可能会导致应用崩溃或功能异常......
  • hive gbk文件乱码
    解决HiveGBK文件乱码问题的步骤1.引言在使用Hive进行数据处理时,有时候会遇到GBK(国标码)文件乱码的问题。这种问题通常是由于文件编码格式与Hive表的编码格式不匹配导致的。为了解决这个问题,我们需要进行以下步骤:步骤描述步骤1确认文件的编码格式步骤2修改......
  • hive 3.1.1 的下载
    下载Hive3.1.1的流程为了帮助你下载Hive3.1.1,我将提供一步一步的指导。以下是整个流程的概览:步骤描述1下载并安装JavaDevelopmentKit(JDK)2下载并安装ApacheHive3配置环境变量4启动Hive现在我们将详细介绍每个步骤所需的操作和代码。步骤......
  • Hive分区/分桶
    分区hive的分区的是针对于数据库的分区,将原来的数据(有规律的数据)分为多个区域,数据和表的信息是不会有变化的,但是会增加namenode的压力分区的目的是提升查询效率,将原来的文件进行多层次的管理分区有三种,静态分区,动态分区,混合分区关键字:partitionedby(字段)分桶分......
  • sqoop安装教程
    Sqoop的安装注意:在安装Sqoop之前要配置好本机的Java环境和Hadoop环境先把spoop的安装包sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz拷贝在系统目录下的/root/softwares下面解压配置环境变量#解压tar.gz包[root@qianfeng01local]tar-zxvf/root/sqoop-1.4.7.bin__hadoop-......
  • hive sql 查询 所有表 行数
    HiveSQL查询所有表行数ApacheHive是一个基于Hadoop的数据仓库基础架构,它提供了一种类似于SQL的查询语言,称为HiveSQL。在Hive中,我们可以使用HiveSQL查询和处理大规模的结构化和半结构化数据。本文将介绍如何使用HiveSQL查询所有表的行数。Hive中的表在Hive中,表是数据的逻辑......
  • hive parquet格式不能为空
    HiveParquet格式不能为空在大数据领域中,Hive是一种常用的数据仓库工具,用于处理和分析大规模数据集。HiveParquet格式是Hive中一种常用的数据存储格式。本文将介绍HiveParquet格式以及为什么它不能为空。什么是HiveParquet格式?HiveParquet格式是一种列式存储格式,它使用了Apa......