首页 > 其他分享 >SuperSonic简介

SuperSonic简介

时间:2024-01-25 09:14:44浏览次数:32  
标签:SuperSonic 插件 简介 模型 语义 查询 问答

SuperSonic融合ChatBI和HeadlessBI打造新一代的数据分析平台。通过SuperSonic的问答对话界面,用户能够使用自然语言查询数据,系统会选择合适的可视化图表呈现结果

SuperSonic不需要修改或复制数据,只需要在物理数据模型之上构建逻辑语义模型(指标/维度/实体的定义,以及他们的业务含义、相互间关系等),即可开启数据问答体验。与此同时,SuperSonic被设计为可插拔的框架,采用Java SPI机制来扩展定制功能。

项目动机


大型语言模型(LLMs - Large Language Models)如ChatGPT的出现正在重塑信息检索的方式。在数据分析领域,学术界和工业界主要关注利用深度学习模型自然语言查询转换为SQL查询。虽然一些工作显示出有前景的结果,但它们的可靠性还达不到生产可用的要求。

在我们看来,为了在实际场景发挥价值,有三个关键点:

  • 融合HeadlessBI,通过统一语义层封装底层数据细节(关联、键值、公式等),降低SQL生成的复杂度。
  • 通过一前一后的模式映射器和语义修正器,来缓解LLM常见的幻觉现象。
  • 设计启发式的规则,在一些特定场景提升语义解析的效率。

为了验证上述想法,我们开发了SuperSonic项目,并将其应用在实际的内部产品中。与此同时,我们将SuperSonic作为一个可扩展的框架开源,希望能够促进数据问答对话领域的进一步发展。

开箱即用的特性


  • 内置ChatBI界面以便业务用户输入数据查询
  • 内置HeadlessBI界面以便分析工程师构建语义模型
  • 内置图形用户界面以便系统管理员管理第三方插件和对话助理
  • 支持文本输入的联想和查询问题的推荐
  • 支持多轮对话,根据语境自动切换上下文
  • 支持四级权限控制:主题域级、模型级、列级、行级

整体架构


SuperSonic的整体架构和主流程如下图所示

 

其中:

  • 模型知识库(Knowledge Base): 定期从语义模型中提取相关的模式信息,构建词典和索引,以便后续的模式映射
  • 模式映射器(Schema Mapper): 将自然语言文本在知识库中进行匹配,为后续的语义解析提供相关信息
  • 语义解析器(Semantic Parser): 理解用户查询并抽取语义信息,其由一组基于规则和基于模型的解析器组成,每个解析器可应对不同的特定场景
  • 义修正器(Semantic Corrector): 检查语义信息的合法性,对不合法的信息做修正和优化处理
  • 义解释器(Semantic Interpreter): 根据语义信息生成物理SQL执行查询
  • 问答插件(Chat Plugin): 通过第三方工具扩展功能。给定所有配置的插件及其功能描述和示例问题,大语言模型将选择最合适的插件 

 

参考资料


标签:SuperSonic,插件,简介,模型,语义,查询,问答
From: https://www.cnblogs.com/tgzhu/p/17911526.html

相关文章

  • LSP(Language Server Protocol)简介
    概述LanguageServerProtocol(LSP)是微软2016年提出的一项通讯协议方案。该方案定义了一套协议,用于在IDE或编辑器和提供代码补全、转到定义等功能的LanguageServer之间通信。官方释义如下:TheLanguageServerProtocol(LSP)definestheprotocolusedbetweenaneditoro......
  • 语音合成技术(深度学习方法简介)https://www.cnblogs.com/jacen789/p/14260194.html
    语音合成技术(深度学习方法简介)一、定义语音合成(Text-To-Speech,简称TTS),又称文语转换技术,是将文字信息转变为可以听得懂的、流利的语音输出的一种技术。其与我们比较熟悉的语音识别技术(AutomaticSpeechRecognition,简称ASR)目标相反。ASR是将声音转化为文字,类比于人类的耳朵;而TT......
  • 【glibc】glib 简介
    编译  编译  简介 glib可调试/configureCFLAGS=-g&&make&&makeinstallormakeCFLAGS=-g 简介原文地址: http://laiyuanyuan7.blog.163.com/blog/static/1527432120112104428767/glib库是Linux平台下最常用的C语言函数库,它具有很好的可移植性和实......
  • 云计算入门——云服务器:简介
    前些天发现了一个人工智能学习网站,通俗易懂,风趣幽默,最重要的屌图甚多,忍不住分享一下给大家。点击跳转到网站。云计算入门——云服务器:简介云服务器简介什么是云服务器?云服务器是远程向用户提供计算资源的互联网基础设施。我们可以将云服务器视为一台私人计算机,可以像本地计算机......
  • Make简介和Makefile编写规则
    1.什么是make?(1)make定义make工程管理器,是Linux下自动编译管理器;为了维护C程序文件,防止不必要的重新编译;对于维护具有相互依赖关系的文件特别有用,对文件和命令的联系提供一套编码方法自动化编译。运行环境,需要一个命令程序make和一个文本文件makefile。例......
  • 无涯教程-CodeIgniter - 简介
    CodeIgniter是一个函数强大的PHP框架,无涯教程喜欢简称它叫CI,由EllisLab创建,现在是不列颠哥伦比亚技术学院的一个项目。是一套给PHP网站开发者使用的应用程序开发框架和工具包。它提供一套丰富的标准库以及简单的接口和逻辑结构,其目的是使开发人员更快速地进行项目开发。本教程是......
  • 【Tomcat】Web服务器Tomcat简介及配置
    Tomcat简介Tomcat配置及虚拟路径配置<build><plugins><plugin><groupId>org.apache.tomcat.maven</groupId><artifactId>tomcat7-maven-plugin</artifactId><version>2.1</version>......
  • Linux操作系统简介:为何成为全球开发者热门选择?
    Linux是一种自由和开放源代码的操作系统。这意味着任何人都可以查看、修改和分发Linux的源代码,而不需要支付任何费用。这种开放性使得Linux能够快速地发展和进步,吸引了全球数以万计的开发者共同参与其中,形成了一个庞大的开源社区。那么,Linux究竟是什么?它又是如何影响我们的生活的......
  • 无涯教程-MATLAB - 简介
    MATLAB(MatrixLaboratory,矩阵实验室)是由美国TheMathWorks公司出品的商业数学软件。MATLAB是一种用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境。除矩阵运算、绘制函数/数据图像等常用功能外,MATLAB还可用来创建用户界面,以及调用其它语言(包括C、C......
  • CAN总线协议简介及其常见的应用领域
    CAN总线协议是一种串行通讯协议,主要用于汽车和工业自动化领域,实现了实时应用的需求。首先,CAN总线协议的基本概念包括报文、信息路由和位速率。在CAN系统中,总线上传输的信息以不同格式的报文发送,但长度有限。CAN总线的位速率根据系统的不同而不同。其次,CAN总线协议具有多主控制的特......