• 2024-06-30Hadoop:全面深入解析
       Hadoop是一个用于大规模数据处理的开源框架,其设计旨在通过集群的方式进行分布式存储和计算。本篇博文将从Hadoop的定义、架构、原理、应用场景以及常见命令等多个方面进行详细探讨,帮助读者全面深入地了解Hadoop。1.Hadoop的定义1.1什么是Hadoop   Hadoop是
  • 2024-06-19hadoop一些相关知识
    大数据概念什么是大数据?大数据是指高速(velocity)涌现的大量(volume)多样化(variety)具有一定价值(value)并且真实(veracity)的数据,其特性可简单概括为5V。原理流程数据采集大数据首先需要将来自不同来源和应用的数据汇集在一起。需要导入和处理数据、执行格式化操作,以符合业
  • 2024-06-18Hadoop习题汇总(更新中)
    目录选择单选多选判断填空简答选择单选查看HDFS系统版本的Shell命令,以下正确的是()。hdfs-verhdfsversion(答案)dfsadminversionhadoop-ver数据存储单位从小到大排列顺序是()TB、PB、EB、ZB、YB(答案)TB、YB、ZB、PB、EBTB、PB、EB、YB、ZBTB、EB、PB、YB、ZB假设已经
  • 2024-06-10kettle_Hbase
    kettle_Hbase☀Hbase学习笔记 读取hdfs文件并将sal大于1000的数据保存到hbase中前置说明:1.需要配置HadoopConnect将集群中的/usr/local/soft/hbase-1.4.6/conf/hbase-site.xml复制至Kettle中的Kettle\pdi-ce-8.2.0.0-342\data-integration\plugins\pentaho-big-data
  • 2024-06-09Docker部署hadoop+运行wordcount详解
    一、拉取ubuntu镜像抓取ubuntu的镜像作为基础搭建hadoop环境#如果不指定版本号的话,默认拉取最新的ubuntu版本dockerpullubuntu二、创建容器#1.查看已拉取的镜像dockerimages#2.创建容器dockerrun-it--namemyhadoop-p80:80ubuntu#dockerrun:创建并运
  • 2024-06-05hdfs小文件是啥意思
    所谓小文件,即存储在hdfs上的数据文件明显小于hdfs文件块大小的(默认是64MB)。小文件过多,占用大量内存。小文件的产生:主要由Hive启动的mr任务生成。在hdfs中,每次读写文件都需要先从namenode获取表结构(元数据),然后再与datanode建立连接。而访问大量的小文件会经常需要大量的定位
  • 2024-06-03DataX HiveReader
    DataXHiveReader来源:github-datax-hivereader1快速介绍Hivereader插件:从Hive表读取数据2实现原理实现方式是:根据配置的QuerySql,通过将查询结果保存到一张新的临时hive表中这种方式;然后获取临时表的hdfs文件地址,然后读取文件到缓冲区,最后删除临时的表。3功能说明Hiv
  • 2024-05-30datax 从 hive 同步数据配置
    DataXHiveReader1快速介绍Hivereader插件:从Hive表读取数据2实现原理实现方式是:根据配置的QuerySql,通过将查询结果保存到一张新的临时hive表中这种方式;然后获取临时表的hdfs文件地址,然后读取文件到缓冲区,最后删除临时的表。3功能说明Hivereader插件:从Hive表读取数据
  • 2024-05-29Hadoop HDFS DataNode动态扩容机制
    胡弦,视频号2023年度优秀创作者,互联网大厂P8技术专家,SpringCloudAlibaba微服务架构实战派(上下册)和RocketMQ消息中间件实战派(上下册)的作者,资深架构师,技术负责人,极客时间训练营讲师,四维口袋KVP最具价值技术专家,技术领域专家团成员,2021电子工业出版社年度优秀作者,获得2023电
  • 2024-05-29Hadoop HDFS DataNode存储高性能,高可用和高并发设计
    胡弦,视频号2023年度优秀创作者,互联网大厂P8技术专家,SpringCloudAlibaba微服务架构实战派(上下册)和RocketMQ消息中间件实战派(上下册)的作者,资深架构师,技术负责人,极客时间训练营讲师,四维口袋KVP最具价值技术专家,技术领域专家团成员,2021电子工业出版社年度优秀作者,获得2023电
  • 2024-05-28Hadoop学习之hdfs的操作
    Hadoop学习之hdfs的操作1.将HDFS中的文件复制到本地packagecom.shujia.hdfs;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.junit.After;importorg.junit.Before;importor
  • 2024-05-28数据是如何写入到Hadoop HDFS中的?
    胡弦,视频号2023年度优秀创作者,互联网大厂P8技术专家,SpringCloudAlibaba微服务架构实战派(上下册)和RocketMQ消息中间件实战派(上下册)的作者,资深架构师,技术负责人,极客时间训练营讲师,四维口袋KVP最具价值技术专家,技术领域专家团成员,2021电子工业出版社年度优秀作者,获得2023电
  • 2024-05-28Hadoop HDFS NameNode核心原理分析
    胡弦,视频号2023年度优秀创作者,互联网大厂P8技术专家,SpringCloudAlibaba微服务架构实战派(上下册)和RocketMQ消息中间件实战派(上下册)的作者,资深架构师,技术负责人,极客时间训练营讲师,四维口袋KVP最具价值技术专家,技术领域专家团成员,2021电子工业出版社年度优秀作者,获得2023电
  • 2024-05-27常用hdfs命令
    hdfsdfs-mkdir/home/hdp-ait/wangwei22hdfsdfs-ls/home/hdp-ait/wangwei22hdfsdfs-du-h/home/hdp-ait/wangwei22hdfsdfs-touchz/home/hdp-ait/wangwei22/a.txthdfsdfs-rm/home/hdp-ait/wangwei22/edges.txthdfsdfs-rm/home/hdp-ait/wangwei22/vertexs.txt
  • 2024-05-2732道HDFS高频题整理(附答案背诵版)
    简述什么是HDFS,以及HDFS作用?HDFS,即HadoopDistributedFileSystem,是Hadoop分布式文件系统。它是一个专门为了存储大量数据而设计的文件系统,能够在廉价的商用硬件上提供高吞吐量的数据访问,非常适合那些有大量数据集的应用程序。HDFS的设计目标是处理大文件,它支持的文件尺
  • 2024-05-26Hadoop创建文件、上传文件、下载文件、修改文件名、删除文件精细全流程
    目录一、起步流程1.创建配置参数对象---Configuration类(org.apache.hadoop.conf.Configuration)2.通过配置参数对象指定hdfs的地址3.创建HDFS文件系统的对象---带配置项---FileSystem类​二、具体操作(1)创建目录:/wordcount(2)下载文件:/data/input/word.txt下载到D:/hadoop
  • 2024-05-26Hadoop 学习
    Hadoop三种运行模式:1.本地模式(学习)1.没有HDFS,使用当前系统下的文件系统2.没有YARN,使用的是Linux中的资源3.使用了Map-ReduceFramework2.伪分布式模式(学习)1.只有单台机器2.使用HDFS、Yarn、MapReduce3.分布式模式(企业级)1.多台服务器2.集群模式,包含整
  • 2024-05-24Griffin编译安装
    ApacheGriffin编译安装1.环境准备Maven(ApacheMaven3.6.3)Mysql数据库(可以是PostgreSQL,mysql版本5.7)npm(版本6.14.6)(version6.0.0+,用于编译ui模块)(推荐此版本)Scala(版本2.11.8)Hadoop(版本3.0.0或更高版本)(本地:2.6.0)Hive(版本2.1.1)(本地:1.1.0
  • 2024-05-24Doris:数据导入导出
    数据导入导入(Load)功能就是将用户的原始数据导入到Doris中。导入成功后,用户即可通过Mysql客户端查询数据。为适配不同的数据导入需求,Doris系统提供了6种不同的导入方式(Broker、Stream、Insert、Multi、Routine、S3)。每种导入方式支持不同的数据源,存在不同的使用方式(异步,
  • 2024-05-15HDFS写数据微观流程
    HDFS微观流程每个block块都被划分成多个大小为64k的paccket每个paccket中都有两个部分组成,一个是packetHeader,一个是packetDatapacketHeader存储一些变量值:pktlen:(packet总长度)、offsetInBlock:(记录当前packet在blocck中的位置)、seqNo:(在同一个block块中的唯一编号(序列号))la
  • 2024-05-15HDFS写数据宏观流程
    HDFS写数据宏观流程客户端使用rpc通信框架向NameNode发送请求,NameNode接收并处理用户请求,同时检测用户是否拥有上传文件操作的权限。磁盘空间是否可用,路径是否存在,NameNode会针对这个文件创建一个空的Entry对象,并返回成功的状态给DFS,如果DFS接收到成功的状态,会创建FSDataOutPut
  • 2024-05-11HBase架构
    HBase架构HBase概述:HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储海量的结构化或者半结构化,非结构化的数据(底层存储的类型只有一种,是字节数组)1、HBase是可以提供实时计算的分布式数据库,数据保存在HDFS分布式文件系统上,由HDFS保证其高容错性2、HBase上
  • 2024-04-22启动hadoop步骤和遇到的坑
    格式化HDFS分布式文件系统hadoopnamenode–format启动Hadoopstart-all.sh停止Hadoopstop-all.shjps命令可以看到Hadoop的所有守护进程用hdfsdfsadmin-report命令来检查,能看到DataNode状态才是正常可以通过HadoopNameNode和JobTracker的Web接口来查看集群是
  • 2024-04-17用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本
    在实际项目中,从Kafka到HDFS的数据是每天自动生成一个文件,按日期区分。而且Kafka在不断生产数据,因此看看kettle是不是需要时刻运行?能不能按照每日自动生成数据文件?为了测试实际项目中的海豚定时调度从Kafka到HDFS的Kettle任务情况,特地提前跑一下海豚定时调度这个任务,看看到底什么
  • 2024-04-15用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本
    在实际项目中,从Kafka到HDFS的数据是每天自动生成一个文件,按日期区分。而且Kafka在不断生产数据,因此看看kettle是不是需要时刻运行?能不能按照每日自动生成数据文件?为了测试实际项目中的海豚定时调度从Kafka到HDFS的Kettle任务情况,特地提前跑一下海豚定时调度这个任务,看看到底什么