首页 > 其他分享 >大数据导论

大数据导论

时间:2023-05-14 20:47:28浏览次数:49  
标签:海量 导论 Hadoop 开源 Apache 数据 分布式

大数据导论

1.数据

数据概念:一切能被记录和查询的事物
数据价值: 对数据的内容进行深入分析,可以更好的帮助了解事和物在现实世界的运行规律  

2.大数据概述

大数据是什么?
狭义上:对海量数据进行处理的软件技术体系
广义上:数字化、信息化时代的基础支撑,以数据为生活赋能

大数据解决了什么问题?
1.海量数据的存储
2.海量数据的计算
3.海量数据的传输

大数据的核心工作是什么?
存储:利用各类大数据技术栈,安全保存海量待处理数据
计算:利用各类大数据技术栈,完成海量数据的价值挖掘
传输:利用各类大数据技术栈,协助各个环节的数据传输

3.大数据特征

特征可以简单概括为"5V"(大、多、值、快、信)
大:数据题量大,一般计量单位是P(1000 T),E(100万 T)
多:种类来源多样化,包括结构化,半结构化,非结构化数据。如网络日志、音频、视频、图片、地理位置信息等。
值:数据价值高但是低价值密度
快:速度快,数据增长速度快,处理速度快,时效性要求高。
信:数据准确度高
总的来说,大数据就是从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果,为企业决策赋能

4.大数据技术栈

Apache软件基金会(Apache Software Foundation,简称 ASF,是专门为运作一个开源软件项目的 Apache 的团体提供支持的非盈利性组织,这个开源软件的项目就是 Apache 项目。

存储

Apache Hadoop-HDFS :HDFS是Apache Hadoop Core项目的一部分,(Hadoop Distributed File System) Hadoop分布式文件存储系统

Apache Hbase: HBase是Apache的Hadoop项目的子项目

Apache Kudu: 是由Cloudera开源的存储引擎,贡献给Apache基金组织

计算

Apache Hadoop-MapReduce: MapReduce组件是最早一代的大数据分布式计算引擎对大数据的发展做出了卓越的贡献

Apache Hive: Hive是一款以SQL为要开发语言的分布式计算框架。HiveSQL其底层翻译成了Hadoop的MapReduce程序去执行

Apache Spark: Spark是目前全球范围内最火热的分布式内存计算引擎。是大数据体系中的明星计算产品

Apache Flink: Flink同样也是一款明星级的大数据分布式内存计算引擎。特别是在实时计算(流计算)领域占据了大多数的国内市场。

传输

Apache Sqoop: Sqoop是一款ETL工具,可以协助大数据体系和关系型数据库之间进行数据传输。

Apache Flume: Flume是一款流式数据采集工具,可以从非常多的数据源中完成数据采集传输的任务。

Apache Kafka: Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作。Apache Kafka在大数据领域也是明星产品

Apache Pulsar: Pulsar同样是一款分布式的消息系统。

5.Hadoop

Hadoop是开源的技术框架,提供分布式存储、计算、资源调度的解决方案

Hadoop:是包含HDFS,MapReduce,YARN三大组件的技术栈
Hadoop的开源版本:Apache开源社区版(原生版本)
Hadoop的商业版本:Cloudera等商业公司自行进行二次封装的商业版

标签:海量,导论,Hadoop,开源,Apache,数据,分布式
From: https://www.cnblogs.com/lionet-kk/p/bigdata1.html

相关文章

  • Lua 数据类型
    数据类型是各种语言的基础,本质上无论是Java,python,go,shell,powershell,redis,c#等各种L4的语言,本质上还是C系列。类型和语法基本都是沿用了C的风格进行了重新组装和定义。java人员一定要注意string和nil的特殊性,确实有点别扭。Lua数据类型Lua是动态类型语言,变量不要类型定义,只......
  • 数据结构与算法之一道题感受算法(算法入门)
    题目:给定N个整数的序列{A1,A2,....An},求函数F(i,j)=Max{Ai+.....Aj }题目要求:这道题的目的是要求给定的一个整数序列中,它所含的连续子序列的最大值,比如现在我有一个整数序列{-3,2,3,-3,1}它的最大子序列很显然是 {2,3}第一种方法蛮力法(强制枚举):我们从第一个整数开始遍历,依......
  • C#WPF大数据电子看板源码 WPF智慧工厂数据平台 1, 提供
    C#WPF大数据电子看板源码WPF智慧工厂数据平台1,提供一个智慧工厂数据平台框架。2,理解wpf的设计模式。3,学习如何绘制各种统计图。4,设计页面板块划分。5,如何在适当时候展现动画。6,提供纯源代码!有盆友问,这个是否带数据库,其实这个不是重点,重点是页面展示。数据库嘛,安装一个,连接......
  • WPF智慧工厂数据平台 1, 提供一个智慧工厂数据平台框架。 2,
    WPF智慧工厂数据平台1,提供一个智慧工厂数据平台框架。2,理解wpf的设计模式。3,学习如何绘制各种统计图。4,设计页面板块划分。5,如何在适当时候展现动画。有盆友问,这个是否带数据库,其实这个不是重点,重点是页面展示。数据库嘛,安装一个,连接上就可以了。可以互相交流。技术无止境。......
  • qt5_c++工业上位机自动扫码数据追溯 Qt5之工业应用! 一
    qt5_c++工业上位机自动扫码数据追溯Qt5之工业应用!一套完整工程,链接PLC,工业无人值守自动扫码使用,无线扫码枪SR1000的使用,使用qt5.14,用qtcreator加载工程后,编译,运行,可调试可扩展,目的是学习qt开发方式。Sqlserver存储方式,查询自由。excel方便导出,c++效率无需赘言。ID:6939637937650......
  • 注塑机上位机源码数据追溯 1, 采用C#编写。 2, plc为s7_1500。 3, 双
    注塑机上位机源码数据追溯1,采用C#编写。2,plc为s7_1500。3,双重数据库,本地和远程同时存取,mssql2012。4,同时使用OPCDA和OPCUA。OPCDA链接1500,OPCUA链接注塑机。5,使用多线程,界面流畅有好。6,数据查询与导出。ID:8829644753787492......
  • SBA-InSARS处理中参考 DEM 数据的获取
    本文参照Esri中国信息技术有限公司的ENVISARscape入门教程进行下载实践,仅供自己参考。在SAR数据处理中,常常需要用到参考DEM数据,用来提供参考地形或者参考地理坐标系。DEM获取的途径很多,比如网站免费下载、用户自己生产(如数字化的地图、遥感数据中获取的DEM、航空摄影测量......
  • 数据库什么时候分库分表
         分库分表实操-=====================容易造成读写都在最新的范围区间内的表,并未起到均分 ------哈希切分 双写,新旧数据库都要同步数据 重点,不会每个写操作都加代码,而是通过aop的方式还需要全量数据迁移 验证新库数据  分库分表工具,使用方无......
  • c#轻量级高并发物联网服务器接收程序源码(仅仅是接收硬件数据程序,没有web端,不是java,协
    c#轻量级高并发物联网服务器接收程序源码(仅仅是接收硬件数据程序,没有web端,不是java,协议自己写,如果问及这些问题统统不回复。),对接几万个设备没问题,数据库采用ef6+sqlite,可改ef+MySQL.该程序只是源码使用示例,里面有使用方法,自己研究,难度属中上层不建议新手拿YID:5999612973416375......
  • 工业数据采集模块方案 采集网口TCP主动上传模式,支持域名解
    工业数据采集模块方案采集网口TCP主动上传模式,支持域名解析和指定IP模式上传,模块本身可以设定IP地址和ID编号,也可以使用dhcp自动获取模式。模块集成2路4-20ma模拟量采集,4路0-10V电压,2路可变数字量输入或输也出接口,可实现远程采集及控制需求,支持局域网搜索设备,远程设置及重启。每个......