首页 > 其他分享 >今日总结

今日总结

时间:2024-09-16 21:14:54浏览次数:1  
标签:总结 分析 预测 决策 挖掘 数据挖掘 今日 数据

一、什么是大数据
1.1 定义
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征
我自己的定义:大数据是一门旨在研究如何在巨大的数据集中高效地存储、处理、分析和提取价值的学科
百度百科节选:大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作是一种产业,那么这种产业实现盈利的关键在于,提高对数据的加工能力,通过加工实现数据的增值
1.2 特点
用4个V来表示:(案例建议联想微博、抖音、12306等场景)

Volumn-大量(1V): 像现在的一些大电商、大的社交平台、自媒体平台等他们的数据都是海量的,数据量大到远超过当前传统数据库工具的处理能力。以我们最为常用的Mysql数据库为对比,HBase组件设计的目的是为了存储以及检索数百万行*数十万列 的巨量数据集。这样量级的数据集,对于MySQL数据库来说,就算是分库分表,也很难处理如此大的数据集
Velocity-高速(2V): 这也是大数据区分于传统数据挖掘最为显著的特征。这里的【高速】是指数据量增长特别快
Variety-多样性(3V): 这个不同于我们的刻板印象,这里的多样性是指:数据形式的多样性。这是因为我们的数据来源比较多,它不只是说Mysql、Redis里面存储的结构性、非结构性业务数据,还指图片、音视频等数据
Value-价值(4V): 准确的说,这里其实指的是:数据【呈高密度低价值】状态。海量数据里面,很多时候真正有价值的数据就那么一点
综上4个大数据的特征,我们再回头联想一下【大数据的定义】,我们应该能理解,为什么说【大数据是一门旨在研究如何在巨大的数据集中高效地存储、处理、分析和提取价值的学科】了吧。

1.3 数据结构
大家不要把大数据的【数据】拘泥于我们过往接触的,存储在关系型或者非关系型数据库里面的结构化和半结构化数据中,它其实还包括其他非结构化数据,我在【1.2 特点】的【Variety-多样性(3V)】里面已经提到过了。
根据IDC调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。

1.4 补充总结
到了这里,我想结合【定义】跟【特征】额外补充说明一点,也是我在学习的时候,一直在纠结的问题:多大的数据量,才算大呢?
我知道大家心里想要的是一个具体的量化标准,比如说1TB算大,10TB才算大这样子。但其实上面的【1.1 定义】中可以看出,比较权威的定义是指【大到传统数据库软件无法有效地、在合理时间内实时得到结果的量】就是大,并没有具体的量化标准。
另外我们还得结合上面提到的其他3个特征——高速、多样、高密度低价值等去理解这个【大】。这说明,大数据的【大】不仅仅是体现在【量】上。

如果硬要说一个具体的量化数值,根据阿里通义千问的回答,是这样:

TB级别:数据量达到TB(Terabyte,太字节)级别通常被认为是大数据的入门门槛
PB级别:数据量达到PB(Petabyte,拍字节)及以上通常被认为是大数据的典型规模
EB级别:数据量达到EB(Exabyte,艾字节)及以上则是极其庞大的数据量
二、大数据能用来干什么
2.1 应用方向
下面这些是我培训课老师说的,综合对比之后我觉得比较合理的应用方向(宏观方向):

数据挖掘/分析方向:
定义:通俗地讲,数据挖掘是将原始数据转化为实用的知识。其目标不是提取或挖掘数据本身,而是对已有的大量数据,提取有意义或有价值的知识。另外,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。百度百科认为,狭义的数据分析与数据挖掘本质是一样的,都是发现有价值的信息。然后狭义的数据分析+数据挖掘==广义的数据分析
定位: 这个方向更注重于对已有数据进行整合,并通过数据挖掘深入体现出数据的内在价值,从而为各单位、企业的业务决策提供数据支持
例子:用户画像、餐厅画像、大型数据报表、个人征信报告、业务风控系统、电商行业就近分发的物流仓储系统等
数据预测方向:
定义:简单地说,就是利用历史数据和统计模型来预测未来的趋势、行为或事件。多用在金融、医疗、制造等领域(PS:我比较倾向于把【推荐】也作为【预测】的一种)
定位:这个方向主要是基于机器学习对未来变化进行预测
例子:金融股票预测、医疗健康风险预测、医疗辅助诊断、制造业机器故障预测、交通流量预测等
数据决策方向:
定义:与预测差不多,他也是利用历史数据和统计模型来对单位、企业的业务决策提供数据支撑(科学依据)
定位:这个方向主要是基于模型来对行为决策提供数据支撑
例子:农业、畜牧业的精细化管理以及经营决策、体育赛事战术决策
忘了是08年还是10年了,当时猪肉价格狂涨,一度到了牛肉的价格。紧接着有意思的事情来了,一堆人开始追涨养猪,结果是,到了明年全体扑街。倘若,他们有一点市场供需意识,或者有大数据提供数据支撑(通过在饲料供给端埋点),就能在高维【看到】有多少人养殖、又会引起怎样的市场供需变化,或许就不会亏的裤衩子都不剩了

业务创新方向:
定义:比较宽泛,大概的思路是用大数据凝练的经验去解放生产力
定位:这个方向主要是用来替代一些重复性的工作,解放人类的生产力
例子:自动驾驶汽车,各种各样的机器人等
2.2 应用场景(简述)
序号 行业 过程(包括,不限于) 行为
1 医疗行业 各种报告 =》挖掘/分析 =》疾病数据库 =》治疗方案 决策
2 金融行业 信贷记录 =》挖掘/分析 =》个人征信报告 =》风险管控 决策
3 电商/零售行业 消费数据 =》挖掘/分析 =》消费习惯 =》营销短信 预测(推荐)
4 农牧行业 农产品消费数据 =》挖掘/分析 =》供应量 =》平衡供需/种植、养殖建议 预测、决策
5 交通运输 车辆通行数据 =》挖掘/分析 =》车辆通行密度 =》规划通行路线 预测、决策
6 … … …
2.3 总结
我在学习了之后,其实整体总结下来,大数据的应用无非就围绕【挖掘/分析】、【预测】、【决策】这三个点上。而他们之间其实存在着前后关联关系,即:

【挖掘/分析】==》【预测】
【挖掘/分析】==》【决策】
无论是预测也好,决策也罢,其实都需要先经过【挖掘/分析】得到【有价值的信息】之后,才能进一步做【预测】、【决策】

三、大数据一般性过程
大数据的一般性过程我觉得还是有必要提一嘴,因为这个基本上预示了,围绕这个过程存在对应的产业布局或者技术应用,以及一些规范。大致过程有如下:

采集与处理:数据采集与处理是大数据的关键技术之一,它从互联网、传感器和信息系统等来源获取的大量带有噪声的数据进行预处理,包括数据清洗、填补和规范化等流程,使无序的数据更加有序,便于处理,以达到快速分析处理的目的
存储与管理:数据存储与管理是指将处理前或处理后的数据以特定格式记录在计算机内部或外部存储介质上,并对数据进行管理和调用的过程。此过程有助于减少数据孤岛现象,并确保数据的可靠性、安全性、可用性和可扩展性
挖掘与分析:通俗地讲,数据挖掘是将原始数据转化为实用的知识。其目标不是提取或挖掘数据本身,而是对已有的大量数据,提取有意义或有价值的知识。另外,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。百度百科认为,狭义的数据分析与数据挖掘本质是一样的,都是发现有价值的信息。然后狭义的数据分析+数据挖掘==广义的数据分析
可视化与呈现:数据可视化是使用图表、图形或地图等可视元素来表示数据的过程。该过程将难以理解和运用的数据转化为更易于处理的可视化表示。数据可视化工具可自动提高视觉交流过程的准确性并提供详细信息,以便决策者可以确定数据之间的关系并发现隐藏的模式或趋势
治理与应用:这里其实就是根据挖掘与分析后,得到的有价值信息,然后给出对应的解决方案
安全与合规:根据《中华人民共和国数据安全法》,数据是指任何以电子或者其他方式对信息的记录。数据安全是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。各地区、各部门对本地区、本部门工作中收集和产生的数据及数据安全负责
四、给自己的作业
差点忘了这个。我在前言中已经提到了,我学大数据其实是想知道,【我能用大数据技术给我公司做什么】,到这里,其实我已经有一点点构思了。
首先,我们公司主营业务是提供【智慧食堂解决方案】的,从作业标准上来说我们提供的方案已经涵盖了前厅到后厨的采购、库存、营销、收银、会员中心等全场景流程。那么, 围绕着【挖掘/分析】、【预测】、【决策】这三个点,我认为我们公司业务可以和大数据技术做如下结合:

用户画像:宏观上,可以从年龄、性别、地域给出用户饮食上的偏好;微观上,可以做针对每个用户的营养分析
餐厅画像:宏观上,可以从地区上描述智慧食堂分布情况、盈利情况、营业情况等;微观上对每个餐厅做具体分析
食谱/食谱BOM画像:宏观上,可以做地区食谱受欢迎榜单;微观上可以从BOM分析出,怎样的物料配比既能让用户满意,又能让餐厅盈利最大化
经营决策:上面提及的食谱BOM画像说到的,科学的食材配比;利用历史数据预测未来需求量、客流量,进而调整库存或者采购量;通过分析顾客点餐偏好优化每日经营菜谱;根据顾客历史消费记录精准推荐菜品
…还没想好…

标签:总结,分析,预测,决策,挖掘,数据挖掘,今日,数据
From: https://www.cnblogs.com/Lyh3012648079/p/18416596

相关文章

  • 20240916总结
    不积跬步,无以千里。这两天主要是复习了图的连通性相关的题+听了youwike哥哥讲课。先是复习了缩点,割点,割边,点双,边双,2-SAT,感觉比较需要注意的是割点的那个第一个节点的判断,写题的时候总是容易忘。然后又写了几道练习题。缩点#include<iostream>#include<cstring>usingna......
  • 今日总结1.1
    第一章:软件开发概述     1.1软件与程序1.1.1从程序到软件 计算机程序(简称程序)是为了解决某个特定问题而用程序设计语言描述的适合计算机处理的语句序列;软件是能够完成预定功能和性能的可执行的程序和使程序正常执行所需要的数据,加上描述软件开发过程及其管理、程序的操......
  • 今日总结1.2
    一、软件设计模式的产生背景“设计模式”这个术语最初并不是出现在软件设计中,而是被用于建筑领域的设计中。1977年,美国著名建筑大师、加利福尼亚大学伯克利分校环境结构中心主任克里斯托夫·亚历山大(ChristopherAlexander)在他的著作《建筑模式语言:城镇、建筑、构造(APatternLa......
  • 今日总结1.3
    ‌软件构造主要学习设计模式、软件结构、模块化软件构造、面向对象的软件构造、软件重构与交付等方面的知识。‌‌设计模式‌是软件构造中的一个重要部分,它涉及如何针对接口编程而不是针对实现编程,旨在实现对象之间的松耦合设计,以及如何使用面向对象设计原则进行程序编码。学习设......
  • 2024.9.16 下午 总结(考 DS)
    T1做法1:莫队。(考虑一个数的出现次数变化时的影响。)应该可以直接做,似乎也可以正难则反(见做法2)。做法2:[扫描线](?)。按询问右端点排序。记一下每个位置前面最近的和它权值相同的位置。一种是直接做,分讨。一种是正难则反:算前缀和;算出现次数为\(2\)的数的贡献之和,减去这部分贡献。......
  • 错误总结反思
    0.概述这篇文章旨在记录我真实经历过的一些值得反思的错误,可能是自己犯的错误,也可能是其他人犯的错误。但是都是一些值得反思的问题,文章结构可能会比较乱,以后记录的问题多了肯定会再进行梳理。1.vectorsize为0在做"求TopK"算法问题时,遇到结果错误问题。经过调试发现那个长度为......
  • 动态规划理论总结
    三个特征最优子结构问题最优解包含子问题的最优解,即可以通过子问题得到最优解。无后效性有两层含义:在后面的推到过程中,只关心前面的状态值,不关心这个状态是怎么一步步推导出来的。前面的状态如果已经确定,就不会收到后面状态影响子问题重叠不同的决策序列,到达某个......
  • mysql 常用知识点总结
    MySQL是一种广泛使用的关系型数据库管理系统(RDBMS),它基于结构化查询语言(SQL)。了解MySQL的语法对数据库管理和操作非常重要。以下是MySQL语法的详细完整解释,涵盖基本概念、创建表、查询、修改数据等内容。1.基础概念数据库(Database):数据库是存储数据的容器,里面可以包含......
  • 2024.9.16 上午 总结(考 DS)
    T1我的做法:合并->并查集。类似建Kruskal重构树。询问跑LCA。注意并查集合并要把两个根都变成一个新点的儿子,而不是把一个作为另一个的儿子。(可能类似建[边](?)Kruskal重构树)要特判询问时\(x=y\)的情况(好像是输出\(0\))。lzh的做法:连出一棵树,边的边权是......
  • 9.15 比赛总结
    突然想起来自己把比赛总结的好习惯忘掉了,所以现在重新拾起,故名曰《朝花夕拾》。T1出了个大阴间题看数据范围明显状压。很明显,\(a,b\)分成两部分处理。\(f_{s,i}\)表示状态为\(s\),\(a=i\)时的所有情况之和,还要计算\(num_{s,i}\)表示此时情况数。\(b\)直接递推模拟即可......