首页 > 其他分享 >⼤数据概况及⽣态

⼤数据概况及⽣态

时间:2023-11-24 21:12:00浏览次数:28  
标签:opt 存储 hadoop Hadoop 概况 install 数据

1、⼤数据

  1. ⼤数据:是指⽆法在⼀定时间内⽤常规软件⼯具对其内容进⾏抓取、管理和处理的数据集合
  2. 主要解决海量的数据存储和分析计算的问题。

2、数据单位

  1. 按⼤小: bit Byte KB MB GB TB PB EB ZB YB BB NB DB
  2. 1Byte=8bit 1KB=1024Byte 1MB=1024KB...

3、⼤数据4特征 4V

Volume(⼤数据量):90% 的数据是过去两年产⽣ Velocity(速度快):数据增长速度快,时效性⾼ Variety(多样化):数据种类和来源多样化 结构化数据、半结构化数据、⾮结构化数据 Value(价值密度低):需挖掘获取数据价值 4、固有的属性
  1. 时效性
  2. 不可变性

5、⼤数据部门的组织结构

  1. 平台组
    1. Hadoop,Flume,Kafka,Hbase,Spark,Hive 等框架的平台搭建
    2. 集群性能监控
    3. 集群性能调优
  2. 数据仓库组
    1. ETL⼯程师 (数据清洗)
    2. 数据分析(数据仓库建模)
  3. 实时组
    1. 实时的指标分析,性能调优
  4. 数据挖掘组
    1. 算法工程师
    2. 推荐系统
    3. 用户画像工程师

6、Hadoop

  1. Hadoop是⼀个开源分布式系统架构,解决海量数据存储和海量数据计算的问题
  2.  创始⼈:Doug Cutting
  3. 2008年 - 成为Apache顶级项⽬
  4. Hadoop发⾏版本 社区版:Apache Hadoop Cloudera发⾏版:CDH Hortonworks发⾏版:HDP

7、为什么使⽤Hadoop

⾼扩展性 在集群间分配任务数据,可⽅便的扩展数以千计的节点 ⾼可靠性 Hadoop底层维护多个数据副本 ⾼容错性 Hadoop框架能够⾃动将失败的任务重新分配 低成本 Hadoop架构允许部署在廉价的机器上 灵活,可存储任意类型数据 开源,社区活跃 8、Hadoop的组成
  1. hadoop 1.x
    1. MapReduce(计算+资源调度)
    2. HDFS (数据存储)
    3. Common (辅助⼯具)
  2. hadoop 2.x
    1. MapReduce(计算)
    2. Yarn (资源调度)
    3. HDFS (数据存储)
    4. Common (辅助⼯具)

9、Common (辅助⼯具)

  1. nn NameNode 存储⽂件的元数据, 如 ⽂件名,⽂件⽬录结构,⽂件属性(⽣成时间 ,副本数,⽂件权限),以及每个⽂件的块列表和块所在的DataNode等。
  2. dn DataNode 在本地⽂件系统存储⽂件块数据,以及块数据的检验和
  3. 2nn Secondary NameNode 每隔⼀段时间 对NameNode元数据备份

10、Yarn 架构概述

 

11、MapReduce 架构 

  1.  Map 阶段并⾏处理输⼊数据
  2. Reduce 阶段对Map结果进⾏汇总

12、⼤数据的⽣态体系

  1. 数据来源层          数据库(结构化的数据) ⽂件⽇志(半结构化数据) 视频PPT等(⾮结构化的数据) 
  2. 数据传输层            sqoop 数据传递 Flume⽇志收集 Kafka 消息队列 
  3. 数据存储层           HDFS存储
  4. 资源管理层            Yarn资源管理
  5. 数据计算层
    1. MapReduce离线计算 -> Hive 数据查询
    2. Spark Core 内存计算
      1. 数据挖掘SparkMilib
      2. 数据查询 Spark sql 
      3. 实时计算 Spark Streaming
    3.  Storm 实时计算            Flink
  6.  任务调度层               Azkaban任务调度
  7. 数据模型层               数据可视化,业务应⽤

13、Hadoop运⾏环境搭建(重点)

1、启动虚拟机hadoop101

2、检查jdk是否已安装:java -version

3、在windows端修改hosts使192.168.18.101与hadoop101对应并 ping通

4、切换到安装包路径:cd /opt/software/并上传hadoop-2.6.0.tar.gz

5、解压安装包⽂件:tar -zxvf hadoop-2.6.0.tar.gz -C /opt/install/

6、创建软链接:切换到install⽬录cd /opt/install 然后再创建软件 链接 ln -s hadoop-2.6.0/ hadoop

7、添加环境变量:vi /etc/profile,并在最后添加以下两⾏

8、使配置⽂件⽣效:source /etc/profile 

9、测试试是否安装成功:hadoop version 

10、测试本地运⾏模式:当前在/opt/install/hadoop/⽬录下,创建 输⼊⽬录:mkdir wcinput

11、创建wc.input⽂件:cd wcinput/;vi wc.input,并在⽂件中输⼊ 任意单词,然后保存退出

12、切换到/opt/install/hadoop⽬录:cd /opt/install/hadoop 

13、执⾏程序:hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount wcinput wcoutput

14、查看输出⽂件:cat wcoutput/*

15、清理测试⽂件并停机做快照


 

标签:opt,存储,hadoop,Hadoop,概况,install,数据
From: https://www.cnblogs.com/hsk991213/p/17854774.html

相关文章

  • C语言【自定义数据类型、typedef、动态内存分配】
    C语言【自定义数据类型、typedef、动态内存分配】一、自定义数据类型。​ 关于下面讲到的所有自定义数据类型(enum、struct、union),有一点要说的是:定义类型不是声明变量,做这步操作时不分配内存,也不能在定义类型时赋值(枚举那个不是赋值,是做一个限定,赋值时赋限定之外的值也不报错。)......
  • 低代码的核心思想 如何统一数据的格式
    哲学上的统一{       name:'deepsort',       label:'1234',       type:'hidden',       value:false,       description:'',      },      {      ......
  • 练习题:观影大数据分析
    王S聪想要在海外开拓万D电影的市场,这次他在考虑:怎么拍商业电影才能赚钱?毕竟一些制作成本超过1亿美元的大型电影也会失败。这个问题对电影业来说比以往任何时候都更加重要。所以,他就请来了你(数据分析师)来帮他解决问题,给出一些建议,根据数据分析一下商业电影的成功是否存在......
  • python mysql 文件数据入库
    概述使用python读取数据文件(本文用的csv),处理后批量插入MySQL数据库中,在此做个记录。程序importpandasaspdfromdatetimeimportdatetimeimportpymysql#GLBS_real_power_mv_no=1000001real_power_file_file_path='./GLBS__DATA.csv'#mysqlmysql_host='127.0......
  • antd的表单当数据发生变化时
    onValuesChange字段值更新时触发回调事件function(changedValues,allValues)initialValue设置子元素默认值,如果与Form的 initialValues 冲突则以Form为准string-4.2.0  在antd里面的组件是form属于非受控组件。 所以用到formref ......
  • 4.MySQL(数据模型,SQL简介,DDL,DML)
    MySQL(数据模型,SQL简介,DDL,DML)概述:数据库:DataBase(DB),是存储和管理数据的仓库;数据库管理系统:DataBaseManagementSystem(DBMS),操纵和管理数据库的大型软件;SQL:StructuredQueryLanguage,操作关系型数据库的编程语言,定义了一套操作关系型数据库统一标准;MySQL是一......
  • SqlServer 数据库表死锁
    数据库表死锁 spid  锁表进程tableName  被锁表名declare@spid intSet@spid =618--锁表进程declare@sqlvarchar(1000)set@sql='kill'+cast(@spid asvarchar)exec(@sql)select  request_session_id  spid,OBJECT_NAME(resource_associated_entity_i......
  • Linux下Oracle11G数据备份恢复(RMAN)
    数据库安装参考步骤1--14https://www.cnblogs.com/baixisuozai/p/17852235.html创建初始pfile文件$viminit.umpay.ora文件内容:umpay.__java_pool_size=4194304umpay.__large_pool_size=4194304umpay.__oracle_base='/DataBase/app/oracle'#ORACLE_BASEsetfromenv......
  • 选择振弦采集仪:易操作、快速数据传输和耐用性是关键要素
    选择振弦采集仪:易操作、快速数据传输和耐用性是关键要素振弦采集仪是一种可以测量和记录振动、冲击、声音等信号的设备。它是目前工程、科研、医学、环保等领域中常见的一种测试设备。在选择振弦采集仪时,易操作、快速数据传输和耐用性是关键要素。 易操作是选择振弦采集仪的......
  • 一文掌握MySQL多表查询技巧:告别繁琐操作,轻松搞定数据查询!
    在数据库的世界里,我们经常需要处理各种各样的数据。有时候,我们需要从多个表中查询数据,这时候就需要用到MySQL的多表查询了。今天,就让我们一起来了解一下MySQL多表查询的魅力吧!一、表的关系简介现实生活中,实体与实体之间肯定是有关系的,比如:部门和员工,老师和学生等。在设计表的时......