Hadoop har 归档实战

时间：2023-07-01 20:07:32浏览次数：53

标签：tmp 归档 year Hadoop databus online har class dir

现象：

Databus 实时同步任务失败

报错：

结论：

当前hdfs目录下超过了最大可容纳文件个数，默认是1048576

#统计该目录下文件数量
HADOOP_CLIENT_OPTS="-Xmx4096m" hdfs dfs -ls -h /databus_online_class/class/class_stock_relation | wc -l


#查看该目录下最新的10个文件
HADOOP_CLIENT_OPTS="-Xmx4096m" hdfs dfs -ls -h /databus_online_class/class/class_stock_relation | tail -10


#查看该目录被访问的审计日志
HADOOP_CLIENT_OPTS="-Xmx4096m" hdfs dfs -text /ranger/audit/hdfs/202305*/* |grep  '/databus_online_class/class/class_stock_relation'


#跳过垃圾桶,删除该目录下文件
HADOOP_CLIENT_OPTS="-Xmx4096m" hdfs dfs -rm -skipTrash /databus_online_class/class/class_stock_relation/2020*

/databus_online_class/class/class_stock_relation

count：926133
tail ：2022121504-20221215041000-9.gz
last visit：最近一周无访问(一周前的审计日志缺失，无法确认一周前的有无访问)

/databus_online_class/class/flow_compensate_operate

count：1048577(已满)
tail ：2023020311-20230205194000-0.gz.tmp
last visit：有写请求、但失败；无读请求

/databus_online_class/class/learning_progress

count：1036229
tail ：2023051214-20230516011000-0.gz.tmp
last visit：有写请求、成功；无读请求

/databus_online_class/class/online_class

count：1048577(已满)
tail ：2022121506-20221215070000-0.gz
last visit：有写请求、但失败；无读请求

/databus_online_class/class/online_class_extend

count：970881
tail ：2022121506-20221215070000-0.gz
last visit：最近一周无访问(一周前的审计日志缺失，无法确认一周前的有无访问)

/databus_online_class/class/online_class_student

count：983171
tail ：2022121506-20221215070000-0.gz
last visit：最近一周无访问(一周前的审计日志缺失，无法确认一周前的有无访问)

/databus_online_class/class/order_compensate_operate

count：7128
tail ：2021080720-20210807204000-7.gz
last visit：最近一周无访问(一周前的审计日志缺失，无法确认一周前的有无访问)

/databus_online_class/class/require_class

count：614347
tail ：2022120908-20221209084000-0.gz
last visit：最近一周无访问(一周前的审计日志缺失，无法确认一周前的有无访问)

解决

hadoop-achive 归档

#!/bin/bash


year_arr=(2019 2020 2021 2022)
dir_arr=(flow_compensate_operate online_class_extend online_class_student order_compensate_operate require_class)


source_dir=/databus_online_class/class
tmp_dir=/tmp/backup


for dir in ${dir_arr[*]};
do
        for year in ${year_arr[*]};
        do
                echo 'hdfs dfs -mkdir -p '$tmp_dir'/'$dir'/'$year''
                hdfs dfs -mkdir -p $tmp_dir/$dir/$year
                echo 'HADOOP_CLIENT_OPTS="-Xmx20480m" hadoop distcp -m 400 '$source_dir'/'$dir'/'$year'* '$tmp_dir'/'$dir'/'$year'/'            
                HADOOP_CLIENT_OPTS="-Xmx20480m" hadoop distcp -m 400 $source_dir/$dir/$year* $tmp_dir/$dir/$year/
                echo 'HADOOP_CLIENT_OPTS="-Xmx8192m" hadoop archive -archiveName '$year'_history.har -p '$tmp_dir'/'$dir'/'$year' '$tmp_dir'/'$dir''
                HADOOP_CLIENT_OPTS="-Xmx8192m" hadoop archive -archiveName ${year}_history.har -p $tmp_dir/$dir/$year $tmp_dir/$dir
                echo -----------
                sleep 60s
        done
done

标签：tmp,归档,year,Hadoop,databus,online,har,class,dir
From： https://blog.51cto.com/u_11701690/6600600

Csharp的CancellationToken 案例
usingSystem;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Net.Http;usingSystem.Text;usingSystem.Threading;usingSystem.Threading.Tasks;//命名空间namespacepro01{//类internalclassProgram{//main方法......
3、apache-kylin-3.1.3-bin-hadoop3基本操作(创建model和cube、数据查詢)
apache-kylin-3.1.3-bin-hadoop3系列文章1、apache-kylin-3.1.3-bin-hadoop3介绍及部署、验证详解2、apache-kylin-3.1.3-bin-hadoop3集群部署3、apache-kylin-3.1.3-bin-hadoop3基本操作(创建model和cube、数据查詢)4、apache-kylin-3.1.3-bin-hadoop3增量构建、全量构建详细示例......
5、apache-kylin-3.1.3-bin-hadoop3 segment管理及JDBC操作
apache-kylin-3.1.3-bin-hadoop3系列文章1、apache-kylin-3.1.3-bin-hadoop3介绍及部署、验证详解2、apache-kylin-3.1.3-bin-hadoop3集群部署3、apache-kylin-3.1.3-bin-hadoop3基本操作(创建model和cube、数据查詢)4、apache-kylin-3.1.3-bin-hadoop3增量构建、全量构建详细示例......
9、Elasticsearch7.6.1 ES与HDFS相互转存数据-ES-Hadoop
Elasticsearch系列文章1、介绍lucene的功能以及建立索引、搜索单词、搜索词语和搜索句子四个示例实现2、Elasticsearch7.6.1基本介绍、2种部署方式及验证、head插件安装、分词器安装及验证3、Elasticsearch7.6.1信息搜索示例（索引操作、数据操作-添加、删除、导入等、数据搜索及分......
C# OpenCvSharp 图像校正
效果Demo下载代码usingSystem;usingSystem.Collections.Generic;usingSystem.ComponentModel;usingSystem.Data;usingSystem.Drawing;usingSystem.Linq;usingSystem.Text;usingSystem.Windows.Forms;usingOpenCvSharp;usingOpenCvSharp.Extensions;namesp......
Pyside6-QtCharts+psutil实战-绘制一个CPU监测工具
今天是实战篇章，我们结合可以快速提升我们开发效率的工具一起开实战一波实时读取系统CPU使用情况的折线图。使用的开发工具QtDesigner来开发UI界面。十分便捷。使用起来也算比较的简单了，虽然也存在不少的BUG。对所需要的控件进行拖拽式，就OK。后续会出一个简单的视频录制。第二步，......
hadoop如何为用户赋予操作权限
#首先使用vi命令在hdfs-site.xml最后加上下面配置<property><name>dfs.permissions.superusergroup</name><value>自定义组名</value></property> #把用户添加到组，先进入root模式usermod-a-G组名<账号名> #给用户赋予所有权限 chown-R用户名:组名/usr/local/ha......
Echart基本案例
一、静态效果图二，前期需要2.1、vue3项目，Echart引入2.2、原理解释略案例代码1：<template><divid="radarChart"style="width:100%;height:100%;"></div></template><scriptsetup>import*asechartsfrom'echarts'......
大数据面试题集锦-Hadoop面试题(三)-MapReduce
你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题，关注一下"张飞的猪大数据分享"吧，公众号会不定时的分享相关的知识和资料。目录1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?2、FileInputFormat切片机制3、......
PyCharm 运行时报错 allure: command not found
安装Allure（Mac）方法一brewinstallallure方法二可能因为网络等，方式一会下载失败，可以通过以下方式安装1.https://repo.maven.apache.org/maven2/io/qameta/allure/allure-commandline/下载对应版本的压缩包2.配置环境变量-exportPATH=$PATH:/Users......

Hadoop har 归档实战

相关文章

赞助商

阅读排行