• 2024-09-26Flink(二)集群安装
    集群安装Standalone模式安装解压缩[user@hadoop102software]$tar-zxvfflink-1.10.1-bin-scala_2.12.tgz-C/opt/module/修改flink/conf/flink-conf.yaml文件jobmanager.rpc.address:hadoop102修改/conf/slaves文件hadoop103hadoop104分发给其他两台虚拟
  • 2024-09-23Spark(六)运行模式(二)
    Yarn模式1、解压缩文件[user@hadoop102software]$tar-zxvfspark-3.0.0-bin-hadoop3.2.tgz-C/opt/module[user@hadoop102software]$cd/opt/module[user@hadoop102module]$mvspark-3.0.0-bin-hadoop3.2spark-yarn2、修改配置文件(1)修改hadoop配置文件/opt/module
  • 2024-09-23Spark(五)运行环境(一)
    Local模式不需要其他任何节点资源就可以在本地执行Spark代码的环境,一般用于教学,调试,演示等在IDEA中运行代码的环境称之为开发环境1、解压缩文件将spark-3.0.0-bin-hadoop3.2.tgz文件上传到Linux并解压缩,放置在指定位置,路径中不要包含中文或空格压缩文件放在'/opt/software
  • 2024-09-14Hadoop(九)HDFS Shell操作
    Shell操作一、基本语法hadoopfs具体命令hdfsdfs具体命令二、命令大全[user@hadoop102~]$hadoopfsUsage:hadoopfs[genericoptions] [-appendToFile<localsrc>...<dst>] [-cat[-ignoreCrc]<src>...] [-checksum<src>...] [-chgrp[-R]GROUPP
  • 2024-09-13Hadoop(六)生产集群搭建(三)
    完全分布式运行模式一、群起集群1、配置workers[user@hadoop102hadoop]$vim/opt/module/hadoop-3.1.3/etc/hadoop/workers在文件中添加如下内容:hadoop102hadoop103hadoop1042、启动集群(1)如果集群是第一次启动,需要在hadoop102节点格式化NameNode[user@hadoop102had
  • 2024-09-12Hadoop(五)生产集群搭建(二)
    完全分布式运行模式一、SSH无密登录配置1、基本语法ssh另一台电脑的IP地址[user@hadoop102~]$sshhadoop103退回hadoop102[user@hadoop103~]$exit2、配置(1)生成公钥和私钥[[email protected]]$pwd/home/atguigu/.ssh[[email protected]]$ssh-keygen-tr
  • 2024-09-11Hadoop(三)环境准备
    环境准备模板虚拟机准备1、安装模板虚拟机IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G下载安装VWareWorkstationPro16,因为Win11与VMWare15不兼容,在15中打开虚拟机会蓝屏Linux系统全部以CentOS-7.5-x86-1804为例2、hadoop100虚拟机配置测试虚拟机联网
  • 2024-07-28在线教育数仓项目(数据采集部分1)
    文章目录数据仓库概念项目需求及架构设计项目需求分析系统数据流程设计框架版本选型集群规模估算集群资源规划设计数据生成模块目标数据页面事件曝光启动播放错误数据埋点主流埋点方式(了解)埋点数据上报时机埋点数据日志结构服务器和JDK准备服务器准备编写集群分发脚本
  • 2024-04-08HBase 数据库
    目录一、HBase数据模型1)NameSpace2)Table3)Row4)Column5)TimeStamp6)Cell二、HBase的逻辑结构三、HBase的物理结构四、HBase基本架构1)Master2)RegionServer3)Zookeeper4)HDFS 五、安装HBase数据库1)上传、解压2)配置环境变量3)修改HBase配置文件4)分发HBase到另外两
  • 2024-02-05kafka-oti
    尚硅谷大数据技术之Kafka(作者:尚硅谷研究院)版本:V4.0第1章Kafka概述1.1定义1.2消息队列目前企业中比较常见的消息队列产品主要有Kafka、ActiveMQ、RabbitMQ、RocketMQ等。在大数据场景主 要采用Kafka作为消息队列。在JavaEE开发中主要采用ActiveMQ、RabbitMQ、RocketMQ。
  • 2024-02-04学习记录21
    本次学习学习了Spark的Streaming的一些外来输入源进行操作的形式文件流创建一个文件[atguigu@hadoop102~]$cd/usr/local/spark/mycode/[atguigu@hadoop102mycode]$mkdirstreaming[atguigu@hadoop102mycode]$cdstreaming[atguigu@hadoop102streaming]$mkdir
  • 2024-01-24学习记录13
    本次主要对综合案例进行了学习案例1:求TOP值任务描述:orderid,userid,payment,productidfile1.txt1,1768,50,1552,1218,600,2113,2239,788,2424,3101,28,5995,4899,290,1296,3110,54,12017,4436,259,8778,2369,7890,27file2.txt100,4287,226,233101,65
  • 2024-01-24学习记录12
    本次学习学习了共享变量的相关知识内容以及文件系统的读写本地文件系统的数据读写读scala>valtextFile=sc.textFile("file:///usr/local/spark/mycode/wordcount/word.txt")因为Spark采用了惰性机制,在执行转换操作的时候,即使输入了错误的语句,spark-shell也不会马
  • 2024-01-24启动hiveserver2
    (1)启动hiveserver2前台启动[atguigu@hadoop102hive]$bin/hiveserver2后台启动[atguigu@hadoop102hive]$nohupbin/hiveserver2>/dev/null2>&1& (1)启动hiveserver2[atguigu@hadoop102hive]$bin/hive--servicehiveserver2或者[atguigu@hadoop102hive]$
  • 2023-11-29分布式系统HDFS
    1、完全分布式搭建hadoop102[namenode,datanode],hadoop103[datanode],hadoop104[secondarynamenode,datanode]缺少104,配置104选择完全克隆103机器的名称hadoop104配置机器的IP192.168.18.104修改vim /etc/sysconfig/network-scripts/ifcfg-ens33重启⽹络
  • 2023-09-12日结
    这些天一直在搞虚拟机的配置,昨天配置了hdfs集群,但遇到了很多问题,今天继续配置,hdfs集群配置好了,但遇到了新的问题 问题:配置免密登录时显示root@hadoop103'spassword:sh:.ssh/authorized_keys:权限不够解决:在hadoop103上重启ssh服务,systemctlrestartsshd 问题:[atguigu
  • 2023-09-129月12日总结
    配置zookeeper集群启动脚本#!/bin/bashcase$1in"start"){foriinhadoop102hadoop103hadoop104doforiinhadoop102hadoop103hadoop104doecho--------------------zookeeper$i启动----------------
  • 2023-09-112023年9月11日每日随笔
    今天,上了一些课,讲讲收获吧,首先,对于深度学习学不了一点;进行了zookeeper的配置:本地模式安装输入java-version验证是否有jdk拷贝apache-zookeeper-3.5.7-bin.tar.gz到/opt/software/中解压到opt/moduletar-zxvfapache-zookeeper-3.5.7-bin.tar.gz-C/opt/module/进入opt/
  • 2023-07-23假期第五周每周总结
       本周,学习了大数据相关的知识,首先先是在中国大学mood上看了会课程,了解了基本的概念,然后进行配置,然后配置过程太简略,一直配置失败,就在b站上找相关的课程,在黑马程序员那里看的有点人少,毕竟出来bug也不知怎么解决,然后就找到了b站的尚硅谷的大数据进行学习,学习了几天,还行,至少
  • 2023-06-1902-Hadoop集群搭建
    1.集群配置1.1集群部署规划资源上有抢夺冲突的,尽量不要部署在一起;工作上需要互相配合的,尽量部署在一起。\Hadoop102Hadoop103Hadoop104HDFSNameNode&DataNodeDataNode2rdNameNode&DataNodeYARNNodeManagerResourceManager&NodeManagerNodeManag
  • 2023-05-28数据库流转工具—Maxwell
    第1章Maxwell简介1.1Maxwell概述Maxwell是由美国Zendesk公司开源,用Java编写的MySQL变更数据抓取软件。它会实时监控Mysql数据库的数据变更操作(包括insert、update、delete),并将变更数据以JSON格式发送给Kafka、Kinesi等流数据处理平台。官网地址:http://maxwells-daemon.io/
  • 2023-05-08Hadoop的运行模式
    Hadoop官方网站http://hadoop.apache.org/Hadoop运行模式本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。完全分布式模式:多
  • 2023-04-17Hadoop完全分布式 => 集群ssh配置与群起
    ssh配置cd/root/.ssh/ (注意如果没有.ssh文件,执行下命令ssh会自动生成)ssh-keygen-trsa 一路回车将公钥拷贝到hadoop102ssh-copy-idhadoop102拷贝成功后hadoop102的/root/.ssh/文件夹会生成文件authorized_keys这样之后就hadoop101可以无密登录hadoop102了,之后三个虚拟机都
  • 2023-04-03笔记十五:gitlab-自建代码托管平台
    一:学习内容gitlab简介gitlab安装说明gitlab登录gitlab创建远程库idea集成gitlab 二:gitlab简介GitLab是由GitLabInc.开发,使用MIT许可证的基于网络的Git仓库管理工具,且具有wiki和issue跟踪功能,使用Git作为代码管理工具,并在此基础上搭建起来的web服务。gitlab官方网址:htt
  • 2023-03-06虚拟机连接xshell报错 Could not connect to 'hadoop102' (port 22): Connection failed.
    在hadoop102中打开终端ping一下百度pingwww.daidu.com输入命令ifconfig出现下图这样的情况发现没有ens33重启networkservicenetworkrestart报错结尾出现红字Fa