首页 > 其他分享 >大数据Hadoop入门教程 | (一)概论

大数据Hadoop入门教程 | (一)概论

时间:2022-08-19 23:36:04浏览次数:111  
标签:数据分析 分析 操作系统 入门教程 Hadoop Unix Linux 数据 概论

数据是什么

  • 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,它是可识别的、抽象的符号。
  • 它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,"0、1、2”、“阴、雨、下降”、"学生的档案记录、货物的运输情况”等都是数据。

数据如何产生

对客观事物的计量和记录产生数据

企业数据分析方向

  • 现状分析(分析当下的数据):现阶段的整体情况,各个部分的构成占比、发展、变动;
  • 原因分析(分析过去的数据):某一现状为什么发生,确定原因,做出调整优化;
    • 离线分析(Batch Processing):面向过去,面向历史,分析已有的数据;
      在时间维度明显成批次性变化。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理。
    • 实时分析(Real Time Processing | Streaming):面向当下,分析实时产生的数据;所谓的实时是指从数据产生到数据分析到数据应用的时间间隔很短,可细分秒级、毫秒级。
  • 预测分析(结合数据预测未来):结合已有数据预测未来发展趋势。
    • 机器学习(Machine Learning):基于历史数据和当下产生的实时数据预测未来发生的事情;侧重于数学算法的运用,如分类、聚类、关联、预测。

数据分析六步曲

数据分析步骤(流程)的重要性体现在:对如何开展数据分析提供了强有力的逻辑支撑

张文霖在《数据分析六步曲》说,典型的数据分析应该包含以下几个步骤:

Step1:明确分析目的和思路

  • 目的是整个分析流程的起点,为数据的收集、处理及分析提供清晰的指引方向;

  • 思路是使分析框架体系化,比如先分析什么,后分析什么,使各分析点之间具有逻辑联系,保证分析维度的完整性,分析结果的有效性以及正确性,需要数据分析方法论进行支撑;

  • 数据分析方法论是一些营销管理类相关理论,比如用户行为理论、PEST分析法、5W2H分析法等。

Step2:数据收集

  • 数据从无到有的过程:比如传感器收集气象数据、埋点收集用户行为数据
  • 数据传输搬运的过程:比如采集数据库数据到数据分析平台

Step3:数据处理

  • 准确来说,应该称之为数据预处理
  • 数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,主要包括数据清洗数据转化数据提取数据计算
  • 数据预处理可以保证数据的一致性和有效性,让数据变成干净规整结构化数据

Step4:数据分析

  • 用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程;
  • 需要掌握各种数据分析方法,还要熟悉数据分析软件的操作;

Step5:数据展现

  • 数据展现又称之为数据可视化,指的是分析结果图表展示,因为人类是视觉动物;
  • 数据可视化(Data Visualization)属于数据应用的一种;
  • 注意,数据分析的结果不是只有可视化展示,还可以继续数据挖掘(Data Mining)、即席查询(Ad Hoc)等。

step6:报告撰写

  • 数据分析报告是对整个数据分析过程的一个总结与呈现
  • 把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考
  • 需要有明确的结论,最好有建议或解决方案

总结

一切围绕着数据

通俗描述:数据从哪里来、数据到哪里去

核心步骤:采集、处理、分析、应用

大数据概念

大数据定义

  • 大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;
  • 是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据5V特征

  • Volume:数据体量大
  • Variety:种类、来源多样化
  • Value:低价值密度
  • Velocity:速度快
  • Veracity:数据的质量

应用场景

  • 电商领域:精准广告位、个性化推荐、大数据杀熟
  • 传媒领域:精准营销、猜你喜欢、交互推荐
  • 金融方面:理财投资,通过对个人的信用评估,风险承担能力评估,集合众多理财产品、推荐响应的投资理财产品。
  • 安防领域:犯罪预防、天网监控
  • 医疗领域:智慧医疗、疾病预防、病源追踪

分布式与集群

概念

分布式、集群是两个不同的概念,但口语中经常混淆二者。

  • 分布式:多台机器每台机器上部署不同组件
  • 集群:多台机器每台机器上部署相同组件

混淆点

  • 分布式、集群的共同点是:都是多台机器(服务器)组成的
  • 因此口语中混淆两者概念的
  • 时候都是:相对于单机来说的

应用

数据大爆炸,海量数据处理场景面临问题

  • 如何存储?

    • 单机存储有瓶颈多台机器分布式存储
  • 如何计算?

    • 单机计算能力有限多台机器分布式计算

操作系统

概念

  • 操作系统(operating system,简称OS)是管理计算机硬件与软件资源的程序,需要处理如:管理与配置内存、决定系统资源供需的优先次序、控制输入设备与输出设备、操作网络与管理文件系统等基本事务;
  • 没有操作系统的机器称之为裸机,不管是开发还是使用都十分不便。
  • 操作系统也提供一个让用户与系统交互的操作界面

操作系统分类

操作系统发展至今,种类繁多,可以根据应用的不同领域进行划分:

  • 桌面操作系统:所谓的桌面指的是图形化操作页面。
    • Mac os(Apple)、Windows(Microsoft)、Linux:三足鼎立
  • 服务器操作系统:般指的是安装在大型计算机上的操作系统。比如Wb服务器、应用服务器和数据库服务器等,是企业IT系统的基础架构平台。
    • 主要分为四大流派:Unix、Linux、Windows Server和Netware。
  • 系统嵌入式操作系统:是一种完全嵌入受控器件内部,为特定应用而设计的专用计算机系统。
    • 如μClinux(嵌入式Linux)、WinCE(微软嵌入式、移动计算平台)、RTOS(嵌入式实时操作系统,军事航空领域)等。
    • 在工业、军事、航空等领域使用较多。(车机系统)
  • 移动设备操作系统:主要应用在智能手机、平板等智能设备上。
    • 主要有Android(谷歌)、iOS(苹果)、Symbian(诺基亚)、BlackBerry 0S(黑莓)、windows mobile(微软)、Harmony(华为鸿蒙)等。

Linux起源与发展

  • Unix系统是较早被广泛使用的计算机操作系统之一,由Ken Thompson在AT&T贝尔实验室实现,后续发展中,因开源、版权等问题陷入不断纠纷,延伸出不同Unix版本;
  • 1991年芬兰学生Linus Torvalds发布Linux:系统第一个版本,遵循GPL协议(通用公共许可证),开源免费;
  • Linux是一个类似Unix的操作系统,Linux的初衷就是要替代Unix,并在功能和用户体验上进行优化,所以Linux模仿了Unix(但并没有抄袭Unix的源码),使得Linux在外观和交互上与Unix非常类似。

Linux内核(Kernel)

  • 操作系统的核心部分简称内核,Linux?第一版本独立内核由Linus Torvalds开发实现,约10000行代码;
  • 后续Linus Torvalds公开了Linux内核代码,并邀请他人一起完善Linux;现在只有2%的Linux核心代码是由Linus Torvalds自己编写,但是仍然拥有Linux内核且保留了选择新代码和需要合并的新方法的最终裁定权;
  • Linux操作系统=1 inux Kerne1+GNU软件及系统软件+必要的应用程序
  • Linuxi选择企鹅图案作为Logo,其含义是:开放源代码的Linux像企鹅一样为全人类共同所有。

Linux发行版本

  • Linux发行版就是由Linux内核与各种常用软件的集合产品,如今全球大约有数百款的Linux发行版本。
  • 从大的方面来说,Linux2发行版可大致分为个人桌面版企业服务器版
  • 个人桌面版中,Ubuntu成熟度颇高较受欢迎,而Redhat(红帽系列)及其延伸版本(Centos)凭借稳定的性能在企业服务器中占比很大。

视频链接:https://www.bilibili.com/video/BV1CU4y1N7Sh?p=7&share_source=copy_pc
原创作者:孤飞-博客园

标签:数据分析,分析,操作系统,入门教程,Hadoop,Unix,Linux,数据,概论
From: https://www.cnblogs.com/ranxi169/p/16606891.html

相关文章

  • Harley浅谈Hadoop(HDFS)
     一、HDFS概述 1.1、HDFS产出背景及定义 1.1.1、HDFS产生背景   随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘......
  • 【玩转 Cloud Studio】 Cloud Studio的入门教程
    原文链接简介CloudStudio是腾讯云发布的云端开发者工具,支持开发者利用WebIDE(集成开发环境),实现远程协作开发和应用部署。目前,CloudStudio全面支持JavaSpringBoot、......
  • 数值分析概论-思维导图(原创)
    简要概述:数值分析是利用计算机软件配合相关算法实现物体模型的搭建。 date:20210614lastupdated:20220817原创,转载需要声明。......
  • CMake快速入门教程:实战
    0.前言一个多月前,由于工程项目的需要,匆匆的学习了一下cmake的使用方法,现在有时间拿出来整理一下。本文假设你已经学会了cmake的使用方法,如果你还不会使用cmake,请参考相关......
  • Hadoop学习第一天
    学习课程是B站上的黑马程序员第一阶段主要是基础的概念,数据、大数据;大数据特点;数据分析的基本流程、方向;分布式、集群;操作系统,虚拟机。基本上就是这些基本概念的学习。第......
  • Hadoop 十八
    HDFS文件块HDFS的文件在物理上是分块存储块的大小可以通过配置参数来规定,一般是2^n,2.x/3.x是128M,1.x中是64M。块设置的太大,会增大处理时间。块设置的太小,会增加寻址时......
  • hadoop入门之虚拟机安装
    今天按照黑马的视频和课程资料安装了三台Centos的linux虚拟机,步骤非常简单但是视频提示会有很多踩坑的点,我就比较顺利从VMware安装到激活,网络的配置以及虚拟机的安装都非常......
  • 神经网络与深度学习入门必备知识|概论
    神经网络与深度学习绪论人工智能的一个子领域神经网络:一种以(人工)神经元为基本单元的模型深度学习:一类机器学习问题,主要解决贡献度分配问题知识结构学习路线图预......