首页 > 其他分享 >大数据时代该如何进行海量数据的处理?

大数据时代该如何进行海量数据的处理?

时间:2023-11-11 10:11:07浏览次数:28  
标签:时代 海量 data 数据仓库 数据源 数据 预处理 加载

什么是大数据?

网上流传很多种说法,亦或是对他的大小范围的定义(PB级别以上(1PB==2^20GB)),亦或是对他的处理难度(很大)

按我来说的话,我感觉就是一句话:

  • 用咱们现在普遍常用的软件工具来捕获管理和处理这些数据如果很耗时间,那这些数据就是大数据。(也说这个超过可容忍时间)

数据处理是什么?

数据处理就是对数据进行一系列的操作,比如说是数据收集、数据预处理、数据存储等等方面,这里先讲一下数据预处理

数据预处理

数据预处理,顾名思义就是对数据进行初步的处理,就是经历三个操作(数据抽取、转换、加载)简称ETL(分别是exact,translate,load)。

1.ETL其实是一个数据通道,它从数据源拿到数据(抽取操作)之后,会对数据进行处理(转换)之后会发送到(加载)数据仓库,对于数据源以上的模型用一张图来解释一下:


简单地说就是:(其实这也是个架构)

  • 首先从咱们主机上面日志,业务,各种运行的程序等等可获得data的地方抽取到data然后转换成某一种形式(下次讲),之后再加载给数据仓库(存储data的地方)

  • 其次就是这个预处理它也可以指在数据仓库上面的一些操作,因为在数据仓库上面的数据不只是存储,这些data在上面还会被管理分类,这些在数据仓库上面的操作也属于预处理的部分,(因为在应用之前,训练模型之前的data处理都可以简称data的预处理阶段)。

  • 接着就是预处理真正结束之后,数据仓库中的都是可以拿来用的(可以对他进行分析,提取有用的信息(其实就是数据挖掘),做一些可视化等等),从而训练出模型不断完善

  • 最后就是有了这些模型然后把这些模型应用到现实生活中,真正的实践(城市的建设之类,平安城市的建设)

2.其实从上面的架构可知,ETL它连着三个系统:交易系统(从数据源获取数据并操作),数据仓库(加载data到的地方),应用系统(最后的实践)

还有个ELT,跟ETL刚好转换和加载的操作反过来(看名字也能知道),他其实就是先加载数据仓库之后在进行转换,有什么好处呢?

  • 只需访问一次数据源,数据源抽取之后进行加载,(之后就开始进行转换,没有再继续抽取)然后直接在数据仓库上面进行转换,就省去了还要单独利用其他的转换的引擎部件,效率提高了不少(因为它是在数据仓库中进行的转换,非常恰好的利用的数据仓库里面的一些组件,函数等等)。

标签:时代,海量,data,数据仓库,数据源,数据,预处理,加载
From: https://www.cnblogs.com/cyz666666/p/17825565.html

相关文章

  • 汇编-XCHG交换数据
     XCHG(交换数据)指令交换两个操作数的内容。该指令有三种形式:XCHGreg,regXCHGreg,memXCHGmem,reg不接受立即操作数.386.modelflat,stdcalloptioncasemap:none.datavar1word2ExitProcessPROTO,dwExitCode:DWORD.codemainPROC......
  • 解决sqlserver数据库显示单个用户
    今天突然发现数据库显示为单个用户并且,访问速度超慢,执行以下语句解决了1USEmaster;2GO3DECLARE@SQLVARCHAR(MAX);4SET@SQL=''5SELECT@SQL=@SQL+';KILL'+RTRIM(SPID)--杀掉该进程6FROMmaster..sysprocesses7WHEREdbid=DB_ID('Test');89......
  • 基于MacOS M2 芯片的Mysql 数据库安装与使用
    第一步:MySQL软件下载与安装1.1 登录网址:https://dev.mysql.com/downloads/mysql/,选择系统:MacOS,版本:8.0.35,或者更新的版本,OSversion选择ARM,64-bit,点击下Download1.2 接下来安装软件:双击mysql-8.0.35-macos13-arm64.dmg,点继续或下一步,使用强密码usestrongpasswordencr......
  • python3: dlt - 数据结构2
    python3:dlt-数据结构2    一、源程序1[wit@fedoranull]$cattest.py2#!/usr/bin/envpython334567#file_name=test.py8#python_verion=3.11.1910111213#testthisscript14defmsg():15print......
  • Lab4:数据处理方法及创新应用(创新)
    代码#include<bits/stdc++.h>usingnamespacestd;#definelllonglongintmain(){ intcnt=0; for(inti=100;i<=999;i++) { inttmp=i,sum=0; while(tmp) { intx=tmp%10; tmp/=10; sum+=x*x*x; } if(sum==i) { cnt++; cout<......
  • 国产瀚高数据库简单实践 及 authentication method 13 not supported 错误解决方法
    近几年IT界软硬件“国产化”搞得很密集,给很多公司带来了商机。但是有些公司拿国外的代码改改换个皮肤,就是“自主知识产权”的国产软件,光明正大卖钱,这个有点...,还经常有丑闻露出,譬如某星浏览器、C某-IDE...话不多说,最近有个项目需要国产化改造,业主方推荐了国产数据库---瀚高数据库......
  • Grafana监控Oracle数据库的表大小等信息
    Grafana监控Oracle数据库的表大小等信息方案oracledb_exporter以及prometheusgrafana使用的SQL以及配置文件[[metric]]context="table_sizeinfo"labels=["table_nameinfo","table_tablespace"]metricsdesc={table_rownum="tablerownum&q......
  • 嗨,别着急做度量,平台工程需要先从“数据治理”开始做起
    最近一直想写一篇关于“数据治理”和“度量相关”的话题,一直太忙,今天静下心来写点自己的体会先从平台工程说起DevOps的兴起源于企业有意弥合运维与开发之间的裂隙,但在实施过程中有部分企业简单粗暴地将其理解为“让开发人员去负责运维的工作”,甚至让高级开发人员接管了运维角色......
  • 23.11.10(Ajax和Json的数据传输问题)
    使用Ajax写查询功能,后端数据一直传不到前端,遇到parse解析的卡住原因:传来的json数据格式不正确,后端Java还respond了一个success解决方法:把success去掉<scriptsrc="https://ajax.googleapis.com/ajax/libs/jquery/3.5.1/jquery.min.js"></script><script>$(d......
  • 数据库设计心得
    数据库设计心得前言我们小组的项目较为特殊,我们小组是基于Miniob的SQL请求并发处理的子系统,意思是在原有Miniob这个DBMS上面完善其功能,并且实现能够对SQL请求的并发处理。由于本身项目就是一个数据库管理系统,想要根据这个数据库管理系统再设计新的表不太合适。但我们小组仍然竭......