首页 > 其他分享 >新一代信息技术——大数据

新一代信息技术——大数据

时间:2023-07-13 22:32:41浏览次数:31  
标签:数据分析 结构化 信息技术 数据源 对大 新一代 应用 数据

第二节 大数据

1.大数据的概念
 麦肯锡公司对大数据的定义: 大数据是指大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。
 维基百科对大数据的定义: 大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间限制的数据集。这并不是一个精确的定义,因为无法确定常用软件工具的范围,可容忍时间也是个概略的描述。

2.大数据的特点
 大数据具有5V特点(IBM提出),即: Volume(规模大)、Variety (种类多) 、Velocity (处理速度快)、Value (价值密度低)、Veracity (真实性)

2.大数据的特点
 规模大: 数据规模大是大数据的基本属性。大数据已经从TB级别跃升到PB级别
 种类多: 大数据来自多种数据源,数据种类和格式日渐丰富,如网络日志、视频、图片、地理位置信息等
 速度快: 数据处理速度快是大数据区别于传统数据挖掘的显著特征。
 价值密度低: 数据价值密度的高低与数据总量成反比。
 真实性: 数据真实性是指数据的质量和保真性

 

 根据数据是否具有一定的模式、结构和关系,数据可分为三种基本类型:结构化数据、非结构化数据、半结构化数据
 其中,非结构化数据越来越成为数据的主要部分
 结构化数据: 指遵循一个标准的模式和结构,以二维表的形式存储在关系型数据库里的行数据。
 半结构化数据:是指有一定的结构性,但本质上不具有关系性介于完全结构化数据和完全非结构化数据之间的数据。
 非结构化数据:没有固定的数据结构,通常用于保存不同类型的文件,如文本文档、图片、音频和视频。

1.数据的采集
 数据采集是指从真实世界中获得原始数据的过程。它是大数据分析的入口,所以是相当重要的一个起始环节。没有高质量的数据,就没有高质量的数据挖掘结果。要尽可能收集异源,甚至是异构的数据,还可与历史数据对照多角度验证数据的全面性和可信性。因此,大数据采集不是采样,而是要获取全部的数据.

2.数据预处理
 (1)数据集成:数据集成是将多个数据源中的数据进行合并处理。
 (2) 数据清洗:数据清洗用于提高数据的质量,即使数据具有一致性、精确性、完整性、时效性和实体同一性。数据清洗的方法有缺失值填充平滑噪声、识别和去除离群点、不一致检测与修复、实体识别与真值发现等
 (3) 数据归约: 数据归约指在减小数据存储空间的同时,尽可能保证数据的完整性
 (4) 数据变换:数据变换是采用数学变换方法将多维数据压缩成较少维数的数据

3.数据处理与分析
 大数据的复杂性使得其难以用传统的方法描述与度量,需要将高维图像等多媒体数据降维后进行度量与处理。
 大数据分析注重分析数据的相关关系,而不是因果关系

4.数据可视化与应用
 数据可视化是指将大数据分析与预测结果以计算机图形或图像的直观方式显示给用户的过程,并可与用户进行交互

考点9 大数据的应用

 1.大数据在电子政务的应用:依托大数据的发展,节约政府投入,及时有效地进行社会监管和治理
 2.大数据在医疗行业的应用: 医疗业务活动、健康体检、公共卫生、传染病监测、人类基因分析等医疗卫生服务过程中将产生海量高价值的数据
 3.大数据在能源行业的应用: 能源行业企业对大数据产品和解决方案的需求
 4.大数据在零售行业的应用: 对顾客群体细分
 5.大数据在气象行业的应用: 气象卫星、天气雷达


标签:数据分析,结构化,信息技术,数据源,对大,新一代,应用,数据
From: https://blog.51cto.com/u_15964895/6716744

相关文章

  • 新一代信息技术——区块链
    第五节区块链1.区块的概念 区块”是一种记录交易的数据结构。每个区块由区块头和区块主体组成,区块主体负责记录前一段时间内的所有交易信息,区块链的大部分功能都由区块头实现。区块头中包括多重数据,如父区块哈希值、版本、时间戳、难度、Nonce.Merkle根。父区块哈希值是让每个区......
  • linux环境用mysqldump定时备份Mysql数据
    每日备份mysql的数据,并保留一定数量的备份文件一、Mysql备份脚本backup.shvibackup.sh#!/bin/bash#保存备份个,备份31天的数据number=31#备份保存路径backup_dir=/home/mysql/data/mysqlbackup#日期dd=`data+%Y-%m-%d-%H-%M-%S`#备份工具tool=mysqldump#用户......
  • mysql数据库和数据表
    1、介绍在mysql中,使用数据库database对应一个项目,管理项目下的数据表。使用数据表table对应一个对象结构,管理属性和值。2、数据库命令(1)查看所有数据库showdatabses;(2)删除数据库dropdatabasedatabase_name;(3)创建数据库createdatabasedatabase_name;(4)选择数据库use......
  • mysql数据类型
    1、介绍mysql中实现了sql语法的数据类型,并有所增加。总的来说分为三类:数值、字符和时间日期。声明:字段名数据类型2、数值tinyint、smallint、mediumint、int和bigint分别表示1、2、3、4、8个字节的有符号整数。在数据类型后添加unsigned关键字,表示无符号是,比如intunsigne......
  • RAC 11G 环境在数据泵操作期间部分服务名无法正常连接问题分析
    问题概述4节点ORACLERAC11G集群的节点4上的xxgsh服务在上午9点半左右和下午14点左右无法正常提供服务,通过重建服务和重启数据库实例解决。经过查看集群日志、osw信息发现数据库负载正常,集群日志正常,数据库日志存在大量导数的操作,并且自动产生了大量 altersystem 设置服务名......
  • navicat中数据传输、数据同步、结构同步的区别
    数据传输:表数据和结构一起同步(之前的数据会被覆盖)数据同步:表数据同步、表结构不同步(之前数据被覆盖(所有字段全部选择的情况下),数据同步时可选择要同步的数据(之前的可不覆盖,只同步新增的))结构同步:表数据不同步、表结构同步 注意:无论是数据传输、数据同步、结构同步都容易造成同......
  • 数据库的范式设计
    数据库的范式设计原文链接:(三)MySQL之库表设计篇:一、二、三、四、五范式、BC范式与反范式详解!-掘金(juejin.cn)【一】引言MySQL的库表设计,在很多时候我们都是根据我们自己的个人喜好和习惯创建出来的,在前期的设计中总是会有考虑不到的地方,对于库表结构的划分也并不明确......
  • 如何快速的构建数据集和迭代模型
    方法1:对于分类任务,每类先手动搞个100张图,然后训练个基础模型。找一些相关的数据,用这个模型跑出来一些结果,然后手工挑选一些来扩增数据集。方法2:使用clip把这些相关的数据做一个嵌入,保存下来,然后通过问问题的方式,找到需要类别的数据方法3:直接用clip来做图像分类任务?可能......
  • 数据全量增量抽取
    在这里插入图片描述在数据仓库中要实现增量抽取,关键是如何准确快速的捕获变化的数据。增量抽取机制能够将业务系统中的变化数据按一定的频率准确地捕获到,同时不对业务系统造成太大的压力,也不影响现有业务。相对全量抽取,增量抽取的设计更为复杂。思维导图在这里插入图片描述增量抽......
  • 管理软件开发平台:用科技提升数据治理能力,实现流程化办公!
    如果实现流程化办公,想必是很多企业心心念念的发展愿望。但是,如何实现?利用什么样的平台可以完成这一目标?这是很多人值得深思的问题之一。管理软件开发平台实行100%全源码开放,是轻量级、可视化低代码开发平台,流辰信息作为服务商,可以为客户实现交付一体化,用科技的力量帮助大家提升数......