首页 > 其他分享 >hdfs小文件分析

hdfs小文件分析

时间:2024-10-10 17:33:53浏览次数:9  
标签:分析 hdfs string 文件 hive fsimage split path

导出namenode的元数据文件,并将数据转成csv格式,逗号分割字段

hdfs dfsadmin -fetchImage  ./ # 将文件拉到本地

hdfs oiv -i fsimage_0000000000243832876 -o fsimage.csv -p Delimited  -delimiter ","  -Xmx30720m  # 使用hdfs工具本地解析文件,我的镜像是30G,我就用了30的堆内存解析

# 创建hive表

CREATE TABLE temp_dev_db.fsimage_info_csv(
path string,
replication int,
modificationtime string,
accesstime string,
preferredblocksize bigint,
blockscount int,
filesize bigint,
nsquota string,
dsquota string,
permission string,
username string,
groupname string)
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'=',',
'serialization.format'=',')
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat';

# 将解析的文件导入到hive的目录下

hdfs dfs -put fsimage.csv hdfs://ns/xxxxxx

# 统计小于10MB的文件个数,根据路径分组

select concat('/',split(path,'/')[1], '/',split(path,'/')[2], '/',split(path,'/')[3], '/',split(path,'/')[4], '/', split(path,'/')[5]) AS dir_path,count(1) as small_file_num from temp_dev_db.fsimage_info_csv
where path like '/apps/dcp/hive%' and dsquota != -1 and filesize < 1024*1024*10
group by concat('/',split(path,'/')[1], '/',split(path,'/')[2], '/',split(path,'/')[3], '/',split(path,'/')[4], '/', split(path,'/')[5])
order by count(1) desc
limit 100;

# 将结果导出本地开始治理小文件问题

 

标签:分析,hdfs,string,文件,hive,fsimage,split,path
From: https://www.cnblogs.com/zyp87/p/18456824

相关文章

  • Pandas测试Excel文件:fillna()与strip()相互作用的影响
    遇见的问题np.nan被strip之后仍为nan,但是此nan无法被.fillna()处理,处理后仍然为nanget_address_local_mail['CountryID_mail']=get_address_local_mail['CountryID_mail'].apply(lambdax:np.nanifx=="00000000-0000-0000-0000-000000000000"orx==&......
  • 联想拯救者R7000P蓝屏分析修复
    背景介绍这台联想笔记本是我在2021年2月份在京东自营旗舰店购买的,具体的型号是:联想(Lenovo)拯救者R7000P15.6英寸游戏笔记本电脑(R7-4800H16G512GSSDRTX2060,买了笔记本后新加了一个固态硬盘具体的型号是:西部数据(WesternDigital)1TSSD固态硬盘M.2接口(NVMe协议)WDBlue......
  • 嘟嘟牛在线登陆加密分析-RPC调用
    加密参数JADX反编译后搜索代码user/login基本可以确定就是从这里发起网络请求跟进addRequestMap方法分析这一看逻辑就清晰了先添加一个时间戳,在对sign进行加密后在调用encodeDesMap进行加密最后put到请求中先分析encodeDesMap有KEY和IV,不是AES就是DES加密encryp......
  • LaTeX 教學系列 (II):第一份 LaTeX 文件
    在上一篇文章LaTeX教學系列(I):LaTeX簡介中,提到了如何選擇編譯器與編輯器,以及一些LaTeX的基本操作,包含下指令、註解某段指令、開啟環境與章節深度設定。文章目錄LaTeX文件的工廠:文件環境設定資料夾的設定如何快速做品管:資料夾樹狀結構實際操作文件類別設定關於縮......
  • 【阻抗建模、验证扫频法】光伏并网逆变器扫频与稳定性分析(包含锁相环电流环)(Simulink
    ......
  • 又一款windows搜索神器!非常实用的文件搜索工具,可以说很智能了(带私活源码)
     哈喽,大家好,今天为大家介绍一款文件搜索神器!Listary简介Listary是一款非常实用的搜索工具,它可以为“我的电脑”(资源管理器)添加许多智能命令,包括收藏文件夹、快速打开最近浏览的文件夹、快速显示/隐藏文件扩展名等功能。这些实用功能可以帮助你在日常收藏和整理文件时提高效......
  • 使用ffmpeg修复本地视频文件(mp4)播放时进度条无法拖动的问题
    右击视频文件查看属性,在详细信息页查看视频时长,显示为空,推测进度条无法拖动的原因是时间轴损坏于是采用了以下解决办法将视频分离出来,命名为video.mp4ffmpeg-i视频名称.mp4-map0:v-vcodeccopy-bsf:vh264_mp4toannexbvideo.mp4将音频分离出来,命名为audio.wavffm......
  • html input file 选择时不显示所有文件*.*
    constpickerOpts={types:[{description:"Images",accept:{"image/*":[".png",".gif",".jpeg",".jpg"],},},],excludeAcceptAllOption:true,multiple:false,};document.getElementById(&......
  • [问题记录]SQLserver数据库是否可以新建多个.mdf文件?
    结论:1.可以,但只有第一个(.mdf)为当前数据库主文件。2.当有多个(.mdf)文件时,语句不会出现错误,但不符合命名约定,即命名约定不正确。3.数据库扩展名可以任意,官方文档中推荐主数据文件使用(.mdf),辅数据文件使用(.ndf),但如果使用例如:(.abc)作为文件后缀名,也是正确的。(具体官方文件截......
  • CentOS系统解压缩.7z后缀的文件
    先安装工具sudoyuminstallp7zipp7zip-plugins解压缩7zxmvtec3d.7zx参数表示解压并保持原有目录结构。有报错7-Zip[64]16.02:Copyright(c)1999-2016IgorPavlov:2016-05-21p7zipVersion16.02(locale=en_US.UTF-8,Utf16=on,HugeFiles=on,64bits,6......