• 2024-07-02Hadoop权威指南-读书笔记-01-初识Hadoop
    Hadoop权威指南-读书笔记记录一下读这本书的时候觉得有意思或者重要的点~第一章—初识HadoopTips:这个引例很有哲理嘻嘻
  • 2024-07-01hadoop集群部署【二】YARN & MapReduce 的部署
    提前注意:请注意路径是否和我的相同,放置的位置不同,请修改标红处 HDFS部署HDFS介绍及部署http://t.csdnimg.cn/Q3H3Y部署说明HadoopHDFS分布式文件系统,我们会启动:NameNode进程作为管理节点DataNode进程作为工作节点SecondaryNamenode作为辅助同理,HadoopYARN分布式资源
  • 2024-07-01Hadoop基础及安装
    Hadoop基础了解hadoop我们生活在一个数据大爆炸的时代,数据飞速的增长,急需解决海量数据的存储和计算问题Hadoop适合海量数据分布式存储和分布式计算Hadoop的作者是DougCutting,Hadoop这个名字是他的孩子给他的毛绒象玩具起的名字Hadoop3.x的细节优化Hadoop三
  • 2024-06-30什么是未授权访问漏洞?Hadoop & Redis靶场实战——Vulfocus服务攻防
    什么是未授权访问漏洞?Hadoop&Redis靶场实战——Vulfocus服务攻防一、介绍未授权访问,也称为未经授权的访问或非法访问,是指在没有得到适当权限或授权的情况下,个人或系统访问了网络、计算机、数据库、文件、应用程序或其他受保护资源的行为。这种访问可能出于恶意或非恶意的目
  • 2024-06-30Hadoop:全面深入解析
       Hadoop是一个用于大规模数据处理的开源框架,其设计旨在通过集群的方式进行分布式存储和计算。本篇博文将从Hadoop的定义、架构、原理、应用场景以及常见命令等多个方面进行详细探讨,帮助读者全面深入地了解Hadoop。1.Hadoop的定义1.1什么是Hadoop   Hadoop是
  • 2024-06-23大数据复习练习
    大数据复习练习题填空题简答题简单分析题程序设计题程序设计题填空题(数据)过观察、实验或计算得出的结果。(消息)是较为宏观的概念,它是由数据的有序排列组合而成。大数据的数据类型包括(结构化数据)和(非结构化数据),前者占10%左右,后者占90%左右。HDFS伪分布式配置中属性df
  • 2024-06-23Hadoop+Hive超全笔记 一站式搞定!!
    Hadoophadoop集群的组成hadoop常用端口HDFS常用shell命令HDFS的原理、机制块和副本edits和fsimage文件HDFS的三大机制HDFS数据上传、写入原理(写流程)【重点】HDFS数据读取(读流程)【重点】原数据存储流程【重点】安全模式归档机制(小文件)垃圾桶机制MapReduce底层原
  • 2024-06-23Hadoop电商日志数据分析(一)
    项目要求根据电商日志文件,分析:1.统计页面浏览量(每行记录就是一次浏览)2.统计各个省份的浏览量(需要解析IP)3.日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本
  • 2024-06-23Hadoop电商日志数据分析(三)
    ETL1.ETL的重要性==>存在的问题:每个MR作业都去全量读取待处理的原始日志,如果数据量很大,将非常不可取ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。全量数据不方便直接进行计算
  • 2024-06-23Hadoop电商日志数据分析(二)
    浏览量统计功能实现统计页面的浏览量count一行记录做成一个固定的KEY,value赋值为1PVStatApp点击查看代码packagecom.imooc.bigdata.hadoop.mr.project.mr;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.
  • 2024-06-23大数据主流技术演进历程:从传统数据处理到智能数据分析
    大数据技术的发展历程充满了创新和变革。从最初的批处理系统到如今的实时数据分析平台,技术的演进不仅推动了数据处理能力的提升,也改变了各行各业的运营模式。本文将深入探讨大数据主流技术的演进历程,分析其技术亮点、实际应用以及对行业的深远影响。一、传统数据处理阶段
  • 2024-06-23从工具产品体验对比spark、hadoop、flink
    作为一名大数据开发,从工具产品的角度,对比一下大数据工具最常使用的框架spark、hadoop和flink。工具无关好坏,但人的喜欢有偏好。目录评价标准1效率2用户体验分析从用户的维度来看从市场的维度来看从产品的维度来看3用户体验的基本原则成本和产出是否成正比操作是否“
  • 2024-06-23Hadoop 2.0 大家族(二)
    目录三、Hbase(一)Hbase简介(二)Hbase入门四、Pig(一)Pig简介(二)Pig入门三、Hbase  Hbase是基于Hadoop的开源分布式数据库,它以Google的BigTable为原型,设计并实现了具有高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统。HBase适合于存储非结构化数据H
  • 2024-06-22MapReduce和YARN
    一:MapReduce概述MapReduce是hadoop三大组件之一,是分布式计算组件Map阶段:将数据拆分到不同的服务器后执行Maptask任务,得到一个中间结果Reduce阶段:将Maptask执行的结果进行汇总,按照Reducetask的计算规则获得一个唯一的结果我们在MapReduce计算框架的使用过程
  • 2024-06-19hadoop一些相关知识
    大数据概念什么是大数据?大数据是指高速(velocity)涌现的大量(volume)多样化(variety)具有一定价值(value)并且真实(veracity)的数据,其特性可简单概括为5V。原理流程数据采集大数据首先需要将来自不同来源和应用的数据汇集在一起。需要导入和处理数据、执行格式化操作,以符合业
  • 2024-06-18数据分析与处理技术-题目测试
    搜集了一些简单的题目来测试Hadoop和Hive的基础知识掌握程度。用于复习或者自测都很合适。1EB等于多少TB?A.210
  • 2024-06-18Hadoop习题汇总(更新中)
    目录选择单选多选判断填空简答选择单选查看HDFS系统版本的Shell命令,以下正确的是()。hdfs-verhdfsversion(答案)dfsadminversionhadoop-ver数据存储单位从小到大排列顺序是()TB、PB、EB、ZB、YB(答案)TB、YB、ZB、PB、EBTB、PB、EB、YB、ZBTB、EB、PB、YB、ZB假设已经
  • 2024-06-16(高清pdf集合)图灵程序设计丛书:大规模数据处理入门与实战(套装全10册)【图灵出品!一套囊括SQL、Python、Spark、Hadoop、Kafka、Flink的数据科学的实用指南
    书:pan.baidu.com/s/1tIHXj9HmIYojAHqje09DTA?pwd=jqso提取码:jqso数据处理基础:介绍数据处理的基本概念、流程和应用场景,帮助读者建立对数据处理的整体认识。SQL语言与应用:详细讲解SQL的语法和用法,包括数据查询、数据操作和数据定义等,以及在实际应用中的最佳实践。Python数据挖
  • 2024-06-15hadoop伪分布式安装
    配置ssh要点:要求免密码登陆cd~/.sshssh-keygen-trsacat./id_rsa.pub>>./authorized_keysHadoop伪分布式安装#java1.8!importantJAVA必须安装1.8,不要安装高版本,会不兼容wgethttps://repo.huaweicloud.com/java/jdk/8u201-b09/jdk-8u201-linux-x64.tar.gzsudom
  • 2024-06-15Flink高级配置
    高级配置主题#Flink依赖剖析#Flink自身由一组类和依赖项组成,这些共同构成了Flink运行时的核心,在Flink应用程序启动时必须存在,会提供诸如通信协调、网络管理、检查点、容错、API、算子(如窗口)、资源管理等领域的服务。这些核心类和依赖项都打包在flink-dist.jar,可以在下
  • 2024-06-13es-spark +docker
    本项目使用es+spark的技术,并且采用容器进行项目的构建FROMubuntu:20.04RUNapt-getupdate-y&&apt-getinstallvim-y&&apt-getinstallwget-y&&apt-getinstallssh-y&&apt-getinstallopenjdk-8-jdk-y&&apt-getinstallsudo-y&
  • 2024-06-12意外停电致hadoop所有namenode节点无法启动故障处理
    环境hadoop(版本:3.3.5)集群由3个datanode(dn)节点组成,其中2个namenode(nn)节点,采用QJM(QuorumJournalManager)方案组建高可用服务。问题描述与处理单位意外断电导致hdfs服务不可用,尝试重启服务:myhadoop.shstopmyhadoop.shstart多次执行jpsall观察各服务启动情况,发现na
  • 2024-06-12大数据安全经典面试题及回答(上)
    目录一、大数据安全的主要挑战及应对策略二、大数据安全中的“五个V”及其影响三、在Hadoop集群中实施数据加密的步骤和注意事项四、在大数据环境中实施访问控制和身份认证五、大数据环境中数据备份和恢复的策略六、大数据处理过程中保护用户隐私的策略七、大数据环境中
  • 2024-06-12CDH详解(史上最全)
    工作记录知识研究CDH概览CDH(ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台,简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的核心元素-可伸缩存储和分布式计算-以
  • 2024-06-10云计算导论—搭建Hadoop平台
    一、Hadoop平台介绍   Hadoop平台是一个由Apache基金会所开发的分布式系统基础架构,专为大数据处理而设计。以下是关于Hadoop平台的详细介绍:1.1Hadoop基础架构概述核心组件:Hadoop主要由两个核心组件构成,即HadoopDistributedFileSystem(HDFS)和MapReduce。HDFS:负责分