首页 > 其他分享 >BI简史:穿越数据迷雾的探索之旅(下)—BI智能的开端

BI简史:穿越数据迷雾的探索之旅(下)—BI智能的开端

时间:2025-01-14 14:34:15浏览次数:3  
标签:分析 探索之旅 BI 用户 技术 对话 迷雾 数据

“复杂社会的一项重要特征,就是站在一场波澜壮阔的革命的最初阶段,你基本分辨不清真正重要的力量是什么,也看不透最终赢得胜利的那股势力将从何处冒头。”

——张笑宇,《产业与文明:复杂社会的兴衰》

在21世纪的头20年,科技的浪潮如洪水般席卷而来,带来了无数丰硕的成果.上篇《BI简史是一部人类穿越数据迷雾森林发展史(上)—BI的起源与奠基》我们曾回顾BI的悠久历史,揭示了数据指标化如何成为人类理解与处理数据的根本驱动力。中篇《BI简史:穿越数据迷雾的探索之旅(中) —BI的形成与发展》我们细数了BI在数仓、ETL、存储等技术方面的突破,回溯了BI对管理、制度理论的影响,也盘点了21世纪初一些代表性BI企业、工具与最佳实践。本篇,我们将更加清晰地看到市场需求,向BI提出了哪些挑战性问题以及从这些需求和挑战中,技术和产品有哪些回应。

1.增强分析,BI 3.0 初见端倪

进入到2020年前后,传统BI呈现出向增强分析(Augmented Analytics,AA)转向的趋势。以下是几个关键驱动因素(传统BI面临的挑战):

①随着数据爆炸式增长,企业被海量数据淹没,传统的BI分析即使不断迭代,也难以跟上数据体量和速度的增长;②传统BI学习曲线陡峭、使用灵活度不足,对专业数据技术分析人员依赖度,不利于非技术用户使用高级数据分析功能,影响了数据民主化;③多变且复杂的市场要求实时洞察,要求企业具备更快的数据驱动决策支撑能力;④仪表板强调过去和现在的指标,将注意力集中在已经发生的事情上,可能会造成一种狭隘的视觉效果,限制前瞻性决策和战略规划,为创新和增长制造障碍,而激烈的市场竞争需要更快、更全面地获得洞察,降低人为偏见。

增强分析(Augmented Analytics, AA),综合使用人工智能(AI)、机器学习(ML)、自然语言处理(NLP)、大模型(LLM)技术,自动化数据准备、洞察发现和共享。它系统地增强了四个关键的分析阶段:

①自然语言问答:用户使用自然语言与系统交互,系统自动转化为查询语言执行查询

②数据考量:自动摄取、清洗、转换数据,自动化特征工程、数据集成、数据增强、数据合规性检测、元数据管理等数据处理

③洞察分析——自动发现模式和生成洞察

④解释——自动生成陈述和数据故事

AA可能代表了分析和商业智能市场的又一次颠覆[1],可以被称为BI 3.0(见下表)。增强分析通过AI、ML和NLP实现了分析生命周期的自动化,使非数据分析师岗位的员工也能参与到复杂数据分析过程中,这种分析的民主化加速了决策过程,减少了对专业数据科学团队的依赖。从BI到AA的转变,不仅意味着企业组织中数据分析岗位及技能要求的变化,也意味着积极升级BI系统的企业可以从数据驱动的被动决策转为主动决策,获得更快的洞察生成和更有效的资源利用优势。

然而,并非所有企业都能轻松、自主地完成BI到AA的转变,这要求企业必须能管理AA与现有系统的集成,解决数据质量问题,并确保正确解释和应用自动化洞察。

图片

2.对话式BI方兴未艾

增强分析从技术视角呈现了新一代BI系统,对话式BI是增强分析的具体产品形态。对话式BI(Conversational Business Intelligence),顾名思义,是指用户通过自然语言对话的方式(比如普通话)直接进行数据查询与分析的工具。在这种模式下,用户可以通过语音或文本输入来提出问题、执行查询、获取数据洞察,甚至进行复杂的分析操作,而无需具备专业的技术知识或编程能力。对话式BI旨在降低数据访问和分析的门槛,使得更多的业务用户能够轻松地从数据中获取有价值的信息,支持更快速和准确的决策制定。这种交互方式不仅提高了数据的可访问性和易用性,还增强了用户体验,促进形成数据驱动决策的文化。

一些传统的BI工具,如Ask Data Tableau、Power BI、Microstrategy 、Cognos 助手,都在不同程度上探索利用自然语言作为数据交互接口,但这些工具在提供对话交互方面,依然较依赖用户指定参数、提供表达模式。这主要源于BI应用程序创建人机对话接口时存在3个关键挑战:

①恰当建模数据。要求模型能够识别与底层数据和BI查询及操作相关的实体、它们之间的关系以及相关的语义。例如,在水电行业中,实体可能包括众多水库、河流、地名、观测数据点等,这些实体间可能存在层级关系、位置关系、传播关系等,算法层面需要结合数据和业务考虑如何建模,比如,在关系数据库管理系统(RDBMS)中建模底层数据,或者在立方体定义中建模。

②识别用户意图。

a)  需要识别查询意图,了解用户是否想要什么数据

eg. “A水库出库流量” = 默认查的是”今年截止到此时此刻前1小时A水库出库流量”

b)  需要做好对话管理,理解上下文集成关系
eg.“去年同期” = 本轮对话最近一个时间年月日的X主体的Y指标

c)  需要识别统计指标,理解要统计的业务指标是什么,比如水电行业的直接指标(如“发电量”、“出库流量”)、计算指标(如“发电计划完成率”)、自定义指标(如“距平”);

d)  需要理解统计意图,理解要取什么数据、取到数据后做什么计算
eg. “XX主体本月发电量,同比、环比分别是多少” = 假如今天是10月18号,那么这句话是要查“XX主体今年10月1号至10月18号发电量、去年10月1号至10月18号发电量、今年9月1号至9月18号发电量,然后求同比、环比”

③准确进行量纲分析。需要识别用户获取数据后、统计前,需要按什么维度分组,这些维度甚至很可能是高业务领域相关的。

例如:

a)时间维度(“每月”、“每侯”)

b)空间维度(“按流域”、“按机组”)

c)产品尺寸(“按厂家”、“按型号”)

d)用户维度(“按大区”、“按分管局”)

2022年末,以ChatGPT3.5为代表的生成式大语言模型(LLM),以其颠覆式的自然语言理解与生成能力惊艳世界。随后,陆续出现更多大语言模型,如ChatGPT4O、claude3.5、文心一言、通义千问、ChatGLM等,人们抱着极大希望和热忱,尝试将LLM引入到对话式BI建设中,取得了一些不错的进展。但是,受困于LLM自身幻觉、高生成非一致性、高建设迭代成本、数据安全与知识产权等问题,大部分基于LLM的对话式BI面临落地难问题,依然停留在DEMO阶段。

然而,尽管对话式BI面临诸多挑战,但市场中也不乏BI产品,综合利用数据处理方法、大小模型结合等技术,在某些限制了交互范围的特定应用场景任务下,如查询零售经营销售数据、查询制造业标准作业流程(SOP)、能源行业查询生产经营状态和标准,取得了不错的效果。这些产品为用户提供了一个很好的与数据对话、用数据讲故事的工具,提升了数据探索性分析和解释过程的智能化和效率。

图片

3.BI未来进行式

对于正在见证并参与这段历史中的我们,想全面、系统地回顾2020年至今这短短4年的BI发展历程,其实并非易事。技术爆发式增长,应用与场景日新月异,学术论文只涵盖了BI小部分信息,大部分离散在广阔的非权威“灰色”区域,如新闻、博客、白皮书、问答社区、订阅号等,尚未从信息(information)沉淀为具有普遍意义的知识(knowledge)。然而,正是这些非权威“灰色”区域最即时、完整地展现着BI的前景和应用方式。为此,我们也跟踪了2024年以来社媒关于BI的讨论。BI技术与应用领域的讨论目前主要聚焦在以下3个方面:

3.1 新一代BI技术趋势

① AI+BI融合,主要集中在对话式BI相关技术的探索,如“Text2SQL与对话式BI的结合应用”、“NL2SQL路径选择及应用”“RAG+SQL”。

② 数据湖仓技术,主要集中在流批一体架构、新一代存储架构的探索与实践,如“全域实时分析与流批一体架构”“云数仓关键技术”。

③ Agent技术应用,聚焦于智能代理(Agent)技术及其与对话系统(如ChatBl)结合后的各种应用场景,如“大语言模型(LLM)支持的自主代理”“ChatBl+Agent:大模型数据分析与实验验证”。

3.2 BI应用场景与实践

④ 数据分析与决策,主要集中在智能决策支持,如“AI+BI如何改变企业决策流程”“数据驱动业务增长实践”。

⑤ 行业应用实践,主要集中在互联网、金融行业的数据平台与知识库建设,如“数据指标体系建设”“企业级知识库建设”“行业数据应用实践”。

⑥ 运营分析场景,主要集中讨论用户增长分析,如“用户增长模型与算法”“引擎全埋点增长分析”。

3.3 BI系统实践经验

⑦ 架构设计,主要集中在大型企业的统一数据平台设计,如“京东统一存储实践”“腾讯天穹大数据架构”

⑧ 查询性能优化,主要集中讨论数据库和数据处理系统的性能优化,如“Spark SQL性能优化”“Doris查询性能提升”

⑨ 数据治理与标准化,主要集中讨论企业数据治理、数据指标体系标准化,如“数据治理策略”“数据治理技术点解析”“工业数据指标体系建设”。

4.小结

从2020年开始,传统商业智能(BI)逐渐向增强分析(AA)演进,标志着BI 3.0时代的到来。其中,对话式BI作为增强分析的重要产品形态,通过自然语言交互方式降低了数据分析门槛,但在数据建模、意图识别和量纲分析等方面仍面临挑战。

2022年末ChatGPT等大语言模型的出现为对话式BI带来新机遇,但由于模型幻觉、数据安全等问题,大多数基于LLM的对话式BI停留在DEMO阶段,实际应用落地效果待观察。不过,一些BI产品通过结合传统数据处理方法和大小模型混合等技术,在特定场景下,执行垂域任务取得了值得关注的成果,这可能表明,除了技术与计算能力,深刻理解数据,并且结合技术与计算能力有效组织数据(基于业务任务的数据建模),是本阶段让BI 3.0更智能的捷径。

目前,BI技术与应用领域的发展主要围绕三个方向:AI与BI的深度融合、场景化应用实践,以及系统实践经验的积累。这些趋势表明,BI正在向更智能、更易用的方向快速发展,但落地过程中仍需要解决诸多技术和实践层面的挑战。


[1]Alghamdi, Noorah A., and Heyam H. Al-Baity. "Augmented analytics driven by AI: A digital transformation beyond business intelligence." Sensors 22.20 (2022): 8071.

标签:分析,探索之旅,BI,用户,技术,对话,迷雾,数据
From: https://blog.csdn.net/weixin_36502282/article/details/145035809

相关文章

  • 双指针习题:Binary Deque
    14.BinaryDeque题面翻译BinaryDeque-洛谷|计算机科学教育新生态(luogu.com.cn)有多组数据。每组数据给出\(n\)个数,每个数为\(0\)或\(1\)。你可以选择从两边删数,求至少删几个数才可以使剩下的数总和为\(s\)。如果不能达到\(s\),则输出\(-1\)。题目描述Sla......
  • Obi Fuild流体插件碰到碰撞体后销毁
    usingUnityEngine;usingSystem.Collections;usingSystem.Collections.Generic;usingObi;[RequireComponent(typeof(ObiSolver))]publicclassCollisionEventHandler:MonoBehaviour{ObiSolversolver;publicColliderkiller;voidAwake(){......
  • HDLBits-Verilog:Counter 1000
    从1000Hz时钟中,得出一个1Hz信号,称为 OneHertz,该信号可用于驱动一组小时/分钟/秒计数器的启用信号,以创建数字挂钟。由于我们希望clock每秒计数一次,因此 OneHertz 信号必须每秒正好置位一个周期。使用modulo-10(BCD)计数器和尽可能少的其他门构建分频器。此外,还输出......
  • RabbitMQ-消息消费确认
    我们一般使用的是消费者作为被动方接收RabbitMQ推送消息,另一种是消费者作为主动方可以主动拉取消息。RabbitMq服务器推送消息分为隐式(自动)确认和显示确认。1消费者拉取消息消费者作为主动方拉取消息,每次只能获取一条。using(varchannel=connection.CreateModel()){......
  • RabbitMQ-消息入队
    1分布式异步的问题对于一个业务线的处理,如果是一个完整的处理,应该是消息正常进入队列,同时消息正常被消费掉。问题来了:生产者发送消息,在传输过程中,消息丢失了,咋办?消息发到RabbitMq队列,RabbitMq宕机了,咋办?消费者在消费消息的时候,消费异常了,咋办?方案思路1、要保证消息一定能......
  • RabbitMQ-死信队列
    死信,就是无法被消费的消息,一般来说生产者将消息投递到broker或者直接到队列里了,消费者从队列取出消息进行消费。但某些时候由于特定的原因导致队列中的某些消息无法被消费,这样的消息如果没有后续的处理,就变成了死信,有死信自然就有死信队列。死信队列还是队列---只是用来接受特......
  • RabbitMQ-集群
    RabbitMQ集群----主备关系,在运行的时候,如果非主要节点宕机,程序操作不受影响;如果主节点宕机了,程序会中断操作。而Rabbitmq集群,会马上让没有宕机的节点参选,选出新的主要节点。程序重试的时候,会进入到新的节点中执行。历史消息不受影响的。基于Docker构建RabbitMQ集群1.启动......
  • RabbitMQ-优先级队列及消息配置
    优先级队列C#数据类型queue----先进先出RabbitMQ---队列-----默认也是先进先出~~RabbitMQ设置优先级----可以配置让消费顺序,不按照先进先出的默认规则;给定的优先级---最终体现在消费者;优先级越高,消费的时候,就优先消费。就在前面消费案例:设置{"vip1","hello2","wor......
  • 可靠性(Reliability)及其子特性和提高可靠性的技术
            在当今信息技术高速发展的时代,可靠性(Reliability)已成为衡量产品与系统性能的重要标准之一。无论是硬件设备、软件系统,还是复杂的网络系统,可靠性都直接关系到用户体验、业务连续性和系统安全性。本文将详细探讨可靠性的定义、其子特性以及提高可靠性的技术,并结......
  • C#上位机通过CAN总线发送bin文件
    让gpt生成一段代码用来把bin文件通过can总线发出去c#代码还是比较强大的,各种功能基本都是一两行代码就实现了,这里记录一下对这个代码的理解和解读主要代码如下,传入bin文件的地址即可将其从指定的can通道发送出去:publicvoidSendBINFile(stringbinFilePath){if(!File.......