cdh
  • 2024-09-26centos7通过CDH部署Hadoop
    一、角色分配及安装环境准备资料下载地址:链接:百度网盘1.机器及机器角色规划2.关闭防火墙及SELinux3.安装依赖(server)redhat-lsb-core4.配置hosts解析192.168.1.136hadoop01192.168.1.137hadoop02192.168.1.138hadoop035.配置ClouderaManageryum仓库(server)#服务端配置y
  • 2024-09-13CDH Hive集群的create/drop慢问题,在200s 多一点处理分析
    现象:CREATETABLEtest911(SNString,PN_CODEString);Totaltimespentinthismetastorefunctionwasgreaterthan1000ms:createTable_(Table,)=200091Hive集群的create/drop操作时间基本都稳定在200s多一点。分析:HMS会实时向Sentry同步Notifications请
  • 2024-08-15CDH 集群 使用 JindoFS SDK 访问 OSS
    CDH集群使用JindoFSSDK访问OSSCDH(Cloudera'sDistribution,includingApacheHadoop)是众多Hadoop发行版本中的一种,本文以CDH5.16.2为例介绍如何配置CDH支持使用JindoFSSDK访问OSS。步骤1.安装jar包下载最新的jar包jindofs-sdk-x.x.x.jar(​​下载页面​​),将
  • 2024-08-08CDH的CM金丝雀Canary报错
    CM金丝雀Canary报错1HDFS金丝雀Canary测试无法为/tmp/.cloudera_health_monitoring_canary_files创建父目录。2HiveMetastoreCanaryHiveMetastorecanary创建huehdfs主目录失败。检查:1)hdfs是否处于safemode,正常是off#hdfsdfsadmin-safemodegetSafe
  • 2024-07-28生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程
    原因:因为主机扩容内存重启以后发现有七台服务器无法进入系统,重启之前Centos7的启动项被修改过导致无法重启,只能重新安装操作系统,但是HDFS的数据是保存到data盘中.系统OS:CentOSLinuxrelease7.6.1810(Core)CDH版本:6.2.1重新安装操作系统的服务器10.170.12.43db-p
  • 2024-07-25基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优
    基于CDH6.3.0搭建HiveonSpark及相关配置和调优Hive默认使用的计算框架是MapReduce,在我们使用Hive的时候通过写SQL语句,Hive会自动将SQL语句转化成MapReduce作业去执行,但是MapReduce的执行速度远差于Spark。通过搭建一个HiveOnSpark可以修改Hive底层的计算引擎,将Map
  • 2024-06-12CDH详解(史上最全)
    工作记录知识研究CDH概览CDH(ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台,简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的核心元素-可伸缩存储和分布式计算-以
  • 2024-04-1152 Things: Number 11: What are the DLP, CDH and DDH problems?
    52Things:Number11:WhataretheDLP,CDHandDDHproblems?52件事:数字11:DLP、CDH和DDH问题是什么? Thisisthelatestinaseriesofblogpoststoaddressthelistof'52ThingsEveryPhDStudentShouldKnowToDoCryptography':asetofquestion
  • 2024-03-27大数据开发之CDH使用搭建大数据平台
    大数据开发之CDH使用搭建大数据平台1、CDH介绍它是Cloudera公司提供的一种大数据平台解决方案。CDH的全称是Cloudera’sDistributionincludingApacheHadoop,它是一个开放源代码的大数据平台,基于ApacheHadoop和其他相关的开源技术构建,包括HDFS、MapReduce、HBase、ZooKee
  • 2024-03-25CDH - [02] 安装部署
     一、参考链接CDH6.3.2集群安装部署:https://blog.csdn.net/u010839779/article/details/130127169 二、版本信息ComponentComponentVersionChangesInformationApacheAvro1.8.2ChangesApacheFlume1.9.0ChangesApacheHadoop3.0.0ChangesApacheH
  • 2024-03-14CDH - [01] 概述
      一、什么是CDH  CDH是Cloudera'sDistributionIncludingApacheHadoop的缩写,即Cloudera公司发布的Hadoop发行版。它是一个为Hadoop构建的企业级数据平台,提供了Hadoop核心组件的预编译、测试和优化的版本,以及管理这些组件的工具和附加功能。Cloudera提供了易于安装、配
  • 2024-01-28CDH,HDP,CDP介绍
    CDH是Cloudera公司的代表产品,HDP是Hortonworks公司的代表产品,2019年1月进行了合并,形成了新的Cloudera公司,代表产品CDP。在两家公司合并前,Cloudera当时有两个主推的大数据平台产品:CDH5和CDH6。Hortonworks有两个主推的平台产品:HDP2和HDP3。这两家公司的产品分别对应Hadoop2和Ha
  • 2024-01-17docker安装CDH[单机单节点]---大数据
    https://www.cnblogs.com/51record/p/16378663.html 第一步:拉取cdh镜像dockerpullcloudera/quickstart第二步:启动容器dockerrun--namecdh-d--hostname=quickstart.cloudera--privileged=true-t-i-p8888:8888-p8020:8020-p8022:8022-p7180:7180-p21050:
  • 2023-12-16kylin&CDH理论基础
    Kylin&CDH理论基础一、维度与度量维度是观察数据的角度。比如电商的销售数据,可以从时间维度来观察,进一步细化时间和地区维度来观察。度量是被聚合的统计值,也是聚合运算的结果。知道维度和度量,可以对数据模型上的所有字段进行分类,要么维度,要么度量,由此就出现了根据维度、度量
  • 2023-12-08Ranger2.1集成CDH 6.3.2
    Ranger介绍针对Ranger与CDH平台的集成,需要通过编译ranger的源码,解决兼容性问题。当然,网上也有提供好的tar包,但是这种方式比较适合社区版本。对应的下载地址为:https://mirrors.tuna.tsinghua.edu.cn/apache/ranger/2.4.0/apache-ranger-2.4.0.tar.gz目前在github上,ranger最新版
  • 2023-11-15Hibench对大数据平台CDH/HDP基准性能测试
    一、部署方式1.1、源码/包:https://github.com/Intel-bigdata/HiBench部署方法:https://github.com/Intel-bigdata/HiBench/blob/master/docs/build-hibench.md注意:hibench执行需hadoop客户端jar包环境如何使用HiBench进行基准测试说明:https://cloud.tencent.com/developer/ar
  • 2023-10-19CDH集群日志清理
    CDH集群日志清理一、查看磁盘占用情况df-h二、查看日志占用情况cdh的各种组件日志一般在/var/log目录下,因此需要关注“/”根目录,查看/var/log下使用空间较大的文件夹,并又大到小排列cd/var/log/du-s./*|sort-nr还有一个是ClouderaManagementService服
  • 2023-08-17CDH集群之YARN性能调优
    CDH集群之YARN性能调优本文主要讨论CDH集群的YARN调优配置,关于YARN的调优配置,主要关注CPU和内存的调优,其中CPU是指物理CPU个数乘以CPU核数,即Vcores=CPU数量*CPU核数。YARN是以container容器的形式封装资源的,task在container内部执行。集群配置集群的配置主要包括三步,第一是
  • 2023-08-17使用CDH调整yarn的内存和CPU资源大小
    1、登录CDH后选择YARN2、更改CPU在yarn配置页面,搜索在类别->资源管理中找到【容器虚拟CPU内核】或者直接搜索yarn.nodemanager.resource.cpu-vcores这里改的是单个服务器可以用的CPU的核心数,假设有3台服务器,每台这里设置32那总的yarn集群可用的cpu数就是32*3=96C,这个效果
  • 2023-08-08hadoop基础----hadoop实战(十三)-----hadoop管理工具---断电后重启CDH集群步骤
    我们在CDH集群运维过程中,偶尔会遇到机房突然断电的情况,我们来梳理下遇到机房断电之后的CDH集群恢复步骤,以免无从下手。在调试CDH集群之前,肯定需要先重启好服务器,以及确保他们的网络畅通。下面记录恢复CDH集群的步骤:首先需要启动CDH的server服务,并查看状态sudo/etc/init.d/cloude
  • 2023-08-08遇到问题--hadoop---cdh识别不到服务器状态
    情况公司停电之后回来看到集群情况如下,主要问题是cdh识别不到其中一台服务器状态。这种情况下重启整个集群会超时失败。原因识别不到的可能原因有三个:一是服务器没有启动二是cm客户端程序没有启动三是防火墙问题解决方法依次排查以上三个原因解决问题。ssh远程连接服务器可
  • 2023-07-25cdh node扩容
    参考:https://blog.csdn.net/xiaoweite1/article/details/123919740#hostname修改hostnamectlset-hostnamebpit64#ssh免密认证。。。略#/etc/hosts修改10.5.250.56bpit56.tal.combpit5610.5.250.57bpit57.tal.combpit5710.5.250.58bpi
  • 2023-07-08搭建CDH后,hdfs的权限问题设置
    搭建CDH后,hdfs的权限问题问题描述:搭建cdh集群后,在hdfs中创建文件报错:Permissiondenied:user=root,access=WRITE,inode=“/“:hdfs:supergroup:drwxr-xr-x即使使用root账户也是一样。无论是用sudohadoopdfs-mkdir建立文件还是put文件,都会显示,同样的错误!!经过百度发现
  • 2023-06-07CDH cm节点高可用方案
        近期因工作需要,对CDHcm管理节点的高可用做了些相关的测试,测试大概分2部分。具体如下,希望有兴趣的同学可以多交流学习。 1.cm节点关于postgres数据库的备用节点高可用。 2.cm节点关于mysql数据库的备用节点高可用。测试需求:因线上cm管理节点是单点,一旦cm管理节点的
  • 2023-04-09CDH集群之间迁移hive数据脚本
    #!/bin/bash#set-xDB=$1#获取hive表定义ret=$(hive-e'use${DB};showtables;'|grep-v_es|grep-v_hb|grep-vimportinfo)fortemin$ret;dohive-e"use${DB};showcreatetable$tem">>/tmp/secha.shecho-e';\c&