SuperSonic简介

时间：2024-01-25 09:14:44浏览次数：32

SuperSonic融合ChatBI和HeadlessBI打造新一代的数据分析平台。通过SuperSonic的问答对话界面，用户能够使用自然语言查询数据，系统会选择合适的可视化图表呈现结果。

SuperSonic不需要修改或复制数据，只需要在物理数据模型之上构建逻辑语义模型（指标/维度/实体的定义，以及他们的业务含义、相互间关系等），即可开启数据问答体验。与此同时，SuperSonic被设计为可插拔的框架，采用Java SPI机制来扩展定制功能。

项目动机

大型语言模型（LLMs - Large Language Models）如ChatGPT的出现正在重塑信息检索的方式。在数据分析领域，学术界和工业界主要关注利用深度学习模型将自然语言查询转换为SQL查询。虽然一些工作显示出有前景的结果，但它们的可靠性还达不到生产可用的要求。

在我们看来，为了在实际场景发挥价值，有三个关键点：

融合HeadlessBI，通过统一语义层封装底层数据细节（关联、键值、公式等），降低SQL生成的复杂度。
通过一前一后的模式映射器和语义修正器，来缓解LLM常见的幻觉现象。
设计启发式的规则，在一些特定场景提升语义解析的效率。

为了验证上述想法，我们开发了SuperSonic项目，并将其应用在实际的内部产品中。与此同时，我们将SuperSonic作为一个可扩展的框架开源，希望能够促进数据问答对话领域的进一步发展。

开箱即用的特性

内置ChatBI界面以便业务用户输入数据查询
内置HeadlessBI界面以便分析工程师构建语义模型
内置图形用户界面以便系统管理员管理第三方插件和对话助理
支持文本输入的联想和查询问题的推荐
支持多轮对话，根据语境自动切换上下文
支持四级权限控制：主题域级、模型级、列级、行级

整体架构

SuperSonic的整体架构和主流程如下图所示

其中：

模型知识库(Knowledge Base)：定期从语义模型中提取相关的模式信息，构建词典和索引，以便后续的模式映射
模式映射器(Schema Mapper)：将自然语言文本在知识库中进行匹配，为后续的语义解析提供相关信息
语义解析器(Semantic Parser)：理解用户查询并抽取语义信息，其由一组基于规则和基于模型的解析器组成，每个解析器可应对不同的特定场景
语义修正器(Semantic Corrector)：检查语义信息的合法性，对不合法的信息做修正和优化处理
语义解释器(Semantic Interpreter)：根据语义信息生成物理SQL执行查询
问答插件(Chat Plugin)：通过第三方工具扩展功能。给定所有配置的插件及其功能描述和示例问题，大语言模型将选择最合适的插件

参考资料

https://github.com/tencentmusic/supersonic

标签：SuperSonic,插件,简介,模型,语义,查询,问答
From： https://www.cnblogs.com/tgzhu/p/17911526.html

LSP(Language Server Protocol)简介
概述LanguageServerProtocol(LSP)是微软2016年提出的一项通讯协议方案。该方案定义了一套协议，用于在IDE或编辑器和提供代码补全、转到定义等功能的LanguageServer之间通信。官方释义如下：TheLanguageServerProtocol(LSP)definestheprotocolusedbetweenaneditoro......
语音合成技术（深度学习方法简介）https://www.cnblogs.com/jacen789/p/14260194.html
语音合成技术（深度学习方法简介）一、定义语音合成（Text-To-Speech，简称TTS），又称文语转换技术，是将文字信息转变为可以听得懂的、流利的语音输出的一种技术。其与我们比较熟悉的语音识别技术（AutomaticSpeechRecognition，简称ASR）目标相反。ASR是将声音转化为文字，类比于人类的耳朵；而TT......
【glibc】glib 简介
编译编译简介 glib可调试/configureCFLAGS=-g&&make&&makeinstallormakeCFLAGS=-g 简介原文地址： http://laiyuanyuan7.blog.163.com/blog/static/1527432120112104428767/glib库是Linux平台下最常用的C语言函数库，它具有很好的可移植性和实......
云计算入门——云服务器：简介
前些天发现了一个人工智能学习网站，通俗易懂，风趣幽默，最重要的屌图甚多，忍不住分享一下给大家。点击跳转到网站。云计算入门——云服务器：简介云服务器简介什么是云服务器？云服务器是远程向用户提供计算资源的互联网基础设施。我们可以将云服务器视为一台私人计算机，可以像本地计算机......
Make简介和Makefile编写规则
1.什么是make？(1)make定义make工程管理器，是Linux下自动编译管理器；为了维护C程序文件，防止不必要的重新编译；对于维护具有相互依赖关系的文件特别有用，对文件和命令的联系提供一套编码方法自动化编译。运行环境，需要一个命令程序make和一个文本文件makefile。例......
无涯教程-CodeIgniter - 简介
CodeIgniter是一个函数强大的PHP框架，无涯教程喜欢简称它叫CI，由EllisLab创建，现在是不列颠哥伦比亚技术学院的一个项目。是一套给PHP网站开发者使用的应用程序开发框架和工具包。它提供一套丰富的标准库以及简单的接口和逻辑结构，其目的是使开发人员更快速地进行项目开发。本教程是......
【Tomcat】Web服务器Tomcat简介及配置
Tomcat简介Tomcat配置及虚拟路径配置<build><plugins><plugin><groupId>org.apache.tomcat.maven</groupId><artifactId>tomcat7-maven-plugin</artifactId><version>2.1</version>......
Linux操作系统简介：为何成为全球开发者热门选择？
Linux是一种自由和开放源代码的操作系统。这意味着任何人都可以查看、修改和分发Linux的源代码，而不需要支付任何费用。这种开放性使得Linux能够快速地发展和进步，吸引了全球数以万计的开发者共同参与其中，形成了一个庞大的开源社区。那么，Linux究竟是什么？它又是如何影响我们的生活的......
无涯教程-MATLAB - 简介
MATLAB（MatrixLaboratory，矩阵实验室）是由美国TheMathWorks公司出品的商业数学软件。MATLAB是一种用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境。除矩阵运算、绘制函数/数据图像等常用功能外，MATLAB还可用来创建用户界面，以及调用其它语言（包括C、C......
CAN总线协议简介及其常见的应用领域
CAN总线协议是一种串行通讯协议，主要用于汽车和工业自动化领域，实现了实时应用的需求。首先，CAN总线协议的基本概念包括报文、信息路由和位速率。在CAN系统中，总线上传输的信息以不同格式的报文发送，但长度有限。CAN总线的位速率根据系统的不同而不同。其次，CAN总线协议具有多主控制的特......

SuperSonic简介

相关文章

赞助商

阅读排行