首页 > 其他分享 >自建基于Hadoop+Hive+Spark的离线数仓总结

自建基于Hadoop+Hive+Spark的离线数仓总结

时间:2023-04-07 09:46:48浏览次数:32  
标签:数仓 http LoggerServer jar 离线 Hadoop Application hadoop1

  1. 整体架构图

     

  2. 服务台账
      hadoop1 hadoop2 hadoop3
      172.23.112.160 172.23.112.161 172.23.112.162
    HDFS NameNode
    DataNode
    HDFS NameNode HTTP UI:9870
    HDFS DataNode HTTP UI:9864
    DataNode SecondaryNameNode
    DataNode
      http://hadoop1:9870/dfshealth.html#tab-overview   http://hadoop3:9868/status.html
    YARN NodeManager
    8042端口
    ResourceManager
    NodeManager
    NodeManager
        http://hadoop2:8088/cluster  
    JOBHISTORY historyserver    
      http://hadoop1:19888/jobhistory    
    日志mock user_action.jar user_action.jar  
    flume-job实时toKfka Application Application  
    flume-job实时toHdfs     Application-log
    业务mock business_db.jar    
    maxwell实时任务toKafka Maxwell    
    maxwell离线增量+flume-job实时     Application-db
    dataX离线全量 每日定时提交任务    
    hive metaStoreServer hive2Server metaStoreServer hive2Server metaStoreServer hive2Server
    spark/sparkSql 4040端口    
    dolphinscheduler MasterServer    
      WorkerServer WorkerServer WorkerServer
      LoggerServer LoggerServer LoggerServer
      AlertServer    
      ApiApplicationServer    
      http://hadoop1:12345/dolphinscheduler    
  3. 按步骤解析

标签:数仓,http,LoggerServer,jar,离线,Hadoop,Application,hadoop1
From: https://www.cnblogs.com/xuetieqi/p/17294950.html

相关文章

  • Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop1:10000
    解决方法:配置超级用户代理其他用户在hadoop配置文件core-site.xml添加<property><name>hadoop.proxyuser.super.hosts</name><value>host1,host2</value></property><property><name>hadoop.proxyuser.super.groups&l......
  • Hadoop3常用端口
    Namenode默认端口:端口介绍9820NameNode默认的内部端口9870NameNode的web访问(http访问)端口9871NameNode的web访问(https访问)端口SecondaryNamenode默认端口:端口介绍9868SecondaryNameNode的web访问(http访问)端口9869SecondaryNameNode的web......
  • GaussDB(DWS)云原生数仓技术解析
    摘要:本文主要介绍GaussDB(DWS)云原生数仓架构、产品能力,帮助开发者快速了解GaussDB(DWS)云原生数仓相关信息与能力。本文分享自华为云社区《直播回顾|GaussDB(DWS)云原生数仓技术解析》,作者:胡辣汤。在本期《GaussDB(DWS)云原生数仓技术解析》的主题直播中,我们邀请到华为云EID......
  • linux离线测试监控脚本
    在实际工程应用中,经常会遇到设备在现场才会出问题,并且出错的概率很低(几天甚至一个月),这种情况下,不能连接调试串口获取打印信息,日志系统的信息可能也不完全,这个时候需要添加监控脚本来监控系统。如下是一个简单的实用监控脚本,分别对内核日志,内存,线程状态进行监控#!/bin/shmkdi......
  • Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述
    Hadoop离线是大数据生态圈的核心与基石,是整个大数据开发的入门。本次分享内容让初学者能高效、快捷掌握Hadoop必备知识,大大缩短Hadoop离线阶段学习时间,下面一起开始今天的学习!一、Hadoop集群简介Hadoop集群整体概述Hadoop集群包括两个集群: HDFS集群、YARN集群两个集群逻辑上分离......
  • EasyMR 安全架构揭秘:如何管理 Hadoop 数据安全
    2017年,美国信用评级机构Equifax遭受黑客攻击,导致1.4亿个人的敏感信息泄露;2020年,发生了SolarWinds公司的软件供应链遭受恶意代码攻击事件,涉及多个行业和国家;2022年,网信办依据《数据安全法》等法律法规,对滴滴公司开出人民币80.26亿元的巨额罚款,对互联网企业敲响数据安全警钟。......
  • 第二十一篇 离线应用与客户端存储
    bycaixin深圳离线应用支持离线Web应用开发是HTML5的另一个重点。所谓离线Web应用,就是在设备不能上网的情况下仍然可以运行的应用开发离线Web应用需要几个步骤。首先是确保应用知道设备是否能上网,以便下一步执行正确的操作。然后,应用还必须能访问一定的资源(图像、Java......
  • Hadoop搭建(集群)
    core-site.xmlhadoop.tmp.dir/opt/hadoop/tmpfs.defaultFShdfs://master:9000hdfs-site.xmlhadoop.namenode.name.dir/opt/hadoop/dfs/namehadoop.datanode.data.dir/opt/hadoop/dfs/datadfs.replication2dfs.permissionsfalse......
  • Hadoop、Hive和Spark的关系
    大数据技术生态中,Hadoop、Hive、Spark是什么关系?|通俗易懂科普向Hadoop、Hive和Spark,都是大数据相关的系统和技术。大数据也是数据管理系统的范畴。数据管理系统涉及两个方面的问题,一个是数据怎么存储?一个是数据怎么计算?为了方便理解,我们需要从单机的时代来讲解。在单机的数......
  • 离线重装k8s-mef
    1.k8s (提前下载镜像)kubeadmresetkubeadminit最好可以指定versioncp-iadmin.conf$HOME/.kube/configchown$(id-u):$(id-g)$HOME/.kube/config2.calico(提前下载镜像)find/-namecalico.yamlkubectlapply-fcalico.yaml3.去隔离kubectltaintnodes--al......