首页 > 其他分享 >Hadoop har 归档实战

Hadoop har 归档实战

时间:2023-07-01 20:07:32浏览次数:48  
标签:tmp 归档 year Hadoop databus online har class dir

  • 现象:
  • Databus 实时同步任务失败
  • Hadoop har 归档实战_hdfs
  • 报错:
  • Hadoop har 归档实战_har_02
  • 结论:
  • 当前hdfs目录下超过了最大可容纳文件个数,默认是1048576
  • 目录统计
#统计该目录下文件数量
HADOOP_CLIENT_OPTS="-Xmx4096m" hdfs dfs -ls -h /databus_online_class/class/class_stock_relation | wc -l


#查看该目录下最新的10个文件
HADOOP_CLIENT_OPTS="-Xmx4096m" hdfs dfs -ls -h /databus_online_class/class/class_stock_relation | tail -10


#查看该目录被访问的审计日志
HADOOP_CLIENT_OPTS="-Xmx4096m" hdfs dfs -text /ranger/audit/hdfs/202305*/* |grep  '/databus_online_class/class/class_stock_relation'


#跳过垃圾桶,删除该目录下文件
HADOOP_CLIENT_OPTS="-Xmx4096m" hdfs dfs -rm -skipTrash /databus_online_class/class/class_stock_relation/2020*
  • /databus_online_class/class/class_stock_relation
  • count:926133
  • tail :2022121504-20221215041000-9.gz
  • last visit:最近一周无访问(一周前的审计日志缺失,无法确认一周前的有无访问)
  • /databus_online_class/class/flow_compensate_operate
  • count:1048577(已满)
  • tail :2023020311-20230205194000-0.gz.tmp
  • last visit:有写请求、但失败;无读请求
  • /databus_online_class/class/learning_progress
  • count:1036229
  • tail :2023051214-20230516011000-0.gz.tmp
  • last visit:有写请求、成功;无读请求
  • /databus_online_class/class/online_class
  • count:1048577(已满)
  • tail :2022121506-20221215070000-0.gz
  • last visit:有写请求、但失败;无读请求
  • /databus_online_class/class/online_class_extend
  • count:970881
  • tail :2022121506-20221215070000-0.gz
  • last visit:最近一周无访问(一周前的审计日志缺失,无法确认一周前的有无访问)
  • /databus_online_class/class/online_class_student
  • count:983171
  • tail :2022121506-20221215070000-0.gz
  • last visit:最近一周无访问(一周前的审计日志缺失,无法确认一周前的有无访问)
  • /databus_online_class/class/order_compensate_operate
  • count:7128
  • tail :2021080720-20210807204000-7.gz
  • last visit:最近一周无访问(一周前的审计日志缺失,无法确认一周前的有无访问)
  • /databus_online_class/class/require_class
  • count:614347
  • tail :2022120908-20221209084000-0.gz
  • last visit:最近一周无访问(一周前的审计日志缺失,无法确认一周前的有无访问)
  • 解决
  • hadoop-achive 归档
#!/bin/bash


year_arr=(2019 2020 2021 2022)
dir_arr=(flow_compensate_operate online_class_extend online_class_student order_compensate_operate require_class)


source_dir=/databus_online_class/class
tmp_dir=/tmp/backup


for dir in ${dir_arr[*]};
do
        for year in ${year_arr[*]};
        do
                echo 'hdfs dfs -mkdir -p '$tmp_dir'/'$dir'/'$year''
                hdfs dfs -mkdir -p $tmp_dir/$dir/$year
                echo 'HADOOP_CLIENT_OPTS="-Xmx20480m" hadoop distcp -m 400 '$source_dir'/'$dir'/'$year'* '$tmp_dir'/'$dir'/'$year'/'            
                HADOOP_CLIENT_OPTS="-Xmx20480m" hadoop distcp -m 400 $source_dir/$dir/$year* $tmp_dir/$dir/$year/
                echo 'HADOOP_CLIENT_OPTS="-Xmx8192m" hadoop archive -archiveName '$year'_history.har -p '$tmp_dir'/'$dir'/'$year' '$tmp_dir'/'$dir''
                HADOOP_CLIENT_OPTS="-Xmx8192m" hadoop archive -archiveName ${year}_history.har -p $tmp_dir/$dir/$year $tmp_dir/$dir
                echo -----------
                sleep 60s
        done
done

标签:tmp,归档,year,Hadoop,databus,online,har,class,dir
From: https://blog.51cto.com/u_11701690/6600600

相关文章

  • Csharp的CancellationToken 案例
    usingSystem;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Net.Http;usingSystem.Text;usingSystem.Threading;usingSystem.Threading.Tasks;//命名空间namespacepro01{//类internalclassProgram{//main方法......
  • 3、apache-kylin-3.1.3-bin-hadoop3基本操作(创建model和cube、数据查詢)
    apache-kylin-3.1.3-bin-hadoop3系列文章1、apache-kylin-3.1.3-bin-hadoop3介绍及部署、验证详解2、apache-kylin-3.1.3-bin-hadoop3集群部署3、apache-kylin-3.1.3-bin-hadoop3基本操作(创建model和cube、数据查詢)4、apache-kylin-3.1.3-bin-hadoop3增量构建、全量构建详细示例......
  • 5、apache-kylin-3.1.3-bin-hadoop3 segment管理及JDBC操作
    apache-kylin-3.1.3-bin-hadoop3系列文章1、apache-kylin-3.1.3-bin-hadoop3介绍及部署、验证详解2、apache-kylin-3.1.3-bin-hadoop3集群部署3、apache-kylin-3.1.3-bin-hadoop3基本操作(创建model和cube、数据查詢)4、apache-kylin-3.1.3-bin-hadoop3增量构建、全量构建详细示例......
  • 9、Elasticsearch7.6.1 ES与HDFS相互转存数据-ES-Hadoop
    Elasticsearch系列文章1、介绍lucene的功能以及建立索引、搜索单词、搜索词语和搜索句子四个示例实现2、Elasticsearch7.6.1基本介绍、2种部署方式及验证、head插件安装、分词器安装及验证3、Elasticsearch7.6.1信息搜索示例(索引操作、数据操作-添加、删除、导入等、数据搜索及分......
  • C# OpenCvSharp 图像校正
    效果Demo下载  代码usingSystem;usingSystem.Collections.Generic;usingSystem.ComponentModel;usingSystem.Data;usingSystem.Drawing;usingSystem.Linq;usingSystem.Text;usingSystem.Windows.Forms;usingOpenCvSharp;usingOpenCvSharp.Extensions;namesp......
  • Pyside6-QtCharts+psutil实战-绘制一个CPU监测工具
    今天是实战篇章,我们结合可以快速提升我们开发效率的工具一起开实战一波实时读取系统CPU使用情况的折线图。使用的开发工具QtDesigner来开发UI界面。十分便捷。使用起来也算比较的简单了,虽然也存在不少的BUG。对所需要的控件进行拖拽式,就OK。后续会出一个简单的视频录制。第二步,......
  • hadoop如何为用户赋予操作权限
    #首先使用vi命令在hdfs-site.xml最后加上下面配置<property><name>dfs.permissions.superusergroup</name><value>自定义组名</value></property> #把用户添加到组,先进入root模式usermod-a-G组名<账号名> #给用户赋予所有权限 chown-R用户名:组名/usr/local/ha......
  • Echart基本案例
    一、静态效果图 二,前期需要2.1、vue3项目,Echart引入2.2、原理解释略案例代码1:<template><divid="radarChart"style="width:100%;height:100%;"></div></template><scriptsetup>import*asechartsfrom'echarts'......
  • 大数据面试题集锦-Hadoop面试题(三)-MapReduce
    你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。目录1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?2、FileInputFormat切片机制3、......
  • PyCharm 运行时报错 allure: command not found
    安装Allure(Mac)方法一brewinstallallure方法二可能因为网络等,方式一会下载失败,可以通过以下方式安装1.https://repo.maven.apache.org/maven2/io/qameta/allure/allure-commandline/下载对应版本的压缩包2.配置环境变量-exportPATH=$PATH:/Users......