首页 > 其他分享 >火山引擎DataLeap推出两款大模型应用: 对话式检索与开发 打破代码语言屏障

火山引擎DataLeap推出两款大模型应用: 对话式检索与开发 打破代码语言屏障

时间:2023-09-25 11:16:59浏览次数:38  
标签:检索 代码 两款 助手 开发 DataLeap 数据

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
  自上世50年代,以“计算机”作为代表性象征的信息革命开始,社会对于先进生产力的认知便开始逐步更迭——从信息化(通常认为是把企业中的信息资源与信息技术有机结合,从而提高企业的管理水平和效率)到数字化(普遍认为是以数据分析为核心,利用各种业务数据去反哺和优化业务过程)转变。   企业希望通过数字化来突破业务瓶颈,实现转型升级。而这期间,数据作为新的生产要素,其重要性毋庸置疑。   9月19日,2023火山引擎数据驱动科技峰会发布数据产品大语言模型(Large Language Models)应用:DataLeap-找数助手、DataLeap-开发助手和DataWind-分析助手,为企业提供从数据资产的检索、到数据开发,再到数据应用的全链路AI能力。   上述能力的发布,其目的就是让企业能更便捷地生产数据、应用数据,实现更普惠的数据消费,为数字化提供现实基础。   DataLeap是火山引擎数智平台(VeDI)推出的大数据研发治理套件,核心是帮助企业快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设。   DataLeap此次升级发布的两款大模型应用能力“DataLeap-找数助手”“DataLeap-开发助手”,主要聚焦在企业数据资产查询与数据开发运维两大核心场景,通过大模型能力的加持,降低企业数据资产检索和数据开发的准入门槛。   “DataLeap-找数助手”:AI+数据资产查询 提升数据资产检索效率 利用“DataLeap-找数助手”,可以实现多种数据类型及相关业务知识的问答式检索。   从企业数据消费的链路来看,数据资产的检索、管理可以看作是消费的第一环。找到正确的数据资产,继而才能实现数据的消费。   数据的查找和使用本身强依赖业务专业知识的输入。过去传统技术方案下,数据资产检索重依赖数据结构化管理,需要大量的人力保障,且不够灵活。同时,非结构化数据与数据资产的关联缺失,会导致大量业务信息缺失,而以往基于关键词在结构化及非结构化数据中的检索,由于检索链路割裂,会大大降低基于业务场景的数据查找和消费效率。此外,检索提供的是基于关键词的候选答案集合,需要人为再次筛选确认,不是直接的答案,导致用户很难有良好体验。   与大语言模型(LLM)结合后,资产查询的方式变得更“拟人化”:在与用户对话式的过程中,大语言模型(LLM)可以理解用户真实意图,让搜索过程更聚焦,节约了人为判断的成本。同时,伴随模型语义理解分析能力的逐步提升,对话式检索相比单纯地用关键词检索的方式,其全链路的检索效率也更高。   在功能上,“DataLeap-找数助手”目前主要提供三类:
  1. 找数据,表、数据集、仪表盘等
  2. 问含义,指标的口径信息、维度枚举值含义等
  3. 业务咨询,业务知识咨询,如业务常见术语含义,业务分类等信息
其核心优势在于:
  1. 问答式查询方式,查询效率更高;
  2. 轻量化接入能力,支持自助接入企业知识库;
  3. 语料充分,元数据中心能力完善可提供企业级服务
  能力发布后,“DataLeap-找数助手”将让企业的数据资产检索变得更快,使得低成本管理、真正的自助式数据消费变得可行。   “DataLeap-开发助手”:AI+数据生产 降低数据开发门槛 利用“DataLeap-开发助手”,可以实现通过自然语言描述,自动生成代码;针对已有的代码可以自动实现Bug修复,代码优化、解释与注释等;对话式方式进行文档搜索、函数使用、代码示例等问题咨询。 过去,研发人员必须充分熟悉SQL等数据开发语言,才能高效支持数据分析背后的开发需求。但在现实场景中,数据分析师、依赖数据的业务运营人员都会有大量的数据消费诉求,也就意味着需要大量的专业数据研发人员来支持一些看似基础但仍需要人为介入的开发工作。 “DataLeap-开发助手”底层采用大语言模型,经过海量的代码和语料训练,可以根据用户的自然语言输入,自动关联包括表Schema在内的元数据信息,生成高质量的数据加工代码,并具备代码的理解、改写以及领域知识的问答能力。   目前看,“DataLeap-开发助手”主要提供以下3个细分场景的服务:
  1. 生成代码:描述需要处理的问题可以自动生成代码,例如:从多张数据表中,通过关联,自动查询、统计指标数据;
  2. 智能问答:根据你描述的问题进行答疑,例如忘记 Spark 函数怎么写,唤起智能开发助手,询问函数使用方式;
  3. 修复/优化代码:用户可以直接在SQL 编辑器中通过AI修复功能,了解详细的报错原因,并基于修复建议“一键完成”选中代码的修复/优化。
  “DataLeap-开发助手”的核心优势在于:
  1. 适配多场景数据开发,简单场景自动开发,复杂场景辅助提效
  2. 内置于编辑器,灵活唤起,减少多工具切换成本,交互体验对齐桌面原生 IDE(集成开发环境)
  3. 模型来源可扩展,支持企业自有模型接入
  其核心价值是打破了语言障碍,极大程度降低了数据开发的准入门槛,同时让专业数据研发人员更聚焦复杂场景的需求,利用开发助手优化代码,提高研发生产效率与代码质量。   以DataLeap为代表的火山引擎多个数据产品拥抱AI,本质是为了降低数据消费门槛,通过数据消费来实现企业数据资产与业务应用的飞轮效应,提升企业活力。   点击跳转大数据研发治理套件 DataLeap了解更多

标签:检索,代码,两款,助手,开发,DataLeap,数据
From: https://www.cnblogs.com/bytedata/p/17727439.html

相关文章

  • COMException: 检索 COM 类工厂中 CLSID 为 {DB8CBF1C-D6D3-11D4-AA51-00A024EE30BD}
    没有注册类(异常来自HRESULT:0x80040154(REGDB_E_CLASSNOTREG)) "没有注册类(异常来自HRESULT:0x80040154(REGDB_E_CLASSNOTREG))"一般有两种情况,我最近做项目都遇到了》第一种:(生成平台的问题) 解决方法:在项目属性里设置“生成”=>“目标平台”为x86而不是默认的......
  • window和linux下有关xxx.dll和xxx.so动态库,可执行文件运行时的动态库检索路径文档
    没想到详细的内容都在库和命令的man手册中。ld.so动态库手册里有描述ELF可执行文件在运行时,都会在哪几个位置检索动态库。如果共享对象依赖项不包含斜杠,则它按以下顺序搜索:(1)使用二进制文件的DT_RPATH动态节属性中指定的目录(如果存在且DT_RUNPATH属性不存在)。不推荐......
  • 构建基于neo4j知识图谱、elasticsearch全文检索的数字知识库
    前言:在数字化时代,知识库的建设正逐渐成为企业、学术机构和个人的重要资产。本文将介绍如何使用neo4j和elasticsearch这两种强大的数据库技术来构建知识库,并对其进行比较和探讨。技术栈:springboot+vue+neo4j+elasticsearch+activiti+mysql源码获取:Q+:3588019357正文:首先,让......
  • 【引用】Oracle全文检索方面的研究(全5)
    3.5Storage属性Oracle全文检索通常会生成一系列的辅助表,生成规则是dr$+索引名+$+表用途标识,由于这些表是oracle自动生成的,通常没有办法为这些表指定存储空间。为构造text索引所生成的辅助表指定表空间、存储参数(usethestoragepreferencetospecifytablespaceandcreation......
  • 【引用】Oracle全文检索方面的研究(全3)
    3.3Lexer属性               Oracle全文检索的lexer属性用于处理各种不同的语言,最基本的英文使用basic_lexer,中文则可以使用chinese_vgram_lexer或chinese_lexer。   3.3.1Basic_lexerbasic_lexer属性支持如英语、德语、荷兰语、挪威语、瑞典语等以空格......
  • 【引用】Oracle全文检索方面的研究(全6)
    3.6Wordlist属性Oracle全文检索的wordlist属性用来设置模糊查询和同词根查询,wordlist属性还支持子查询和前缀查询,oracle的wordlist属性只有basic_wordlist一种(原文:Usethewordlistpreferencetoenablethequeryoptionssuchasstemming,fuzzymatchingforyourlang......
  • 【引用】Oracle全文检索方面的研究(全2)
    3.2Filter属性过滤器负责将各种文件格式的数据转换为纯文本格式,索引管道中的其他组件只能处理纯文本数据,不能识别microsoftword或excel等文件格式,filter有charset_filter、inso_filter、null_filter、user_filter、procedure_filter几种类型。(可将文档格式转化为数据库文......
  • 【引用】Oracle全文检索方面的研究(全9)
    3.10常用的脚本3.10.1.删除preference:beginctx_ddl.drop_preference('my_lexer');end; 3.10.2.索引重建:ALTERINDEXnewsindexREBUILDPARAMETERS('replacelexermy_lexer'); 3.10.3同步索引beginctx_ddl.sync_index('myindex','2M');end;或通过后......
  • 知识库系统推荐,强大的全文检索与文档分类管理功能
    在我们日常企业运营管理过程中,会积累大量的文档资料,对于我们全体成员来说,这些知识文档都是巨大的财富,所以整合并搭建一套知识库系统是非常有必要的。 知识库系统推荐我们日常工作中产生大量的文档,随着存储技术的进步,使得存储文件的成本越来越低。最终,几乎所有的文档,都被积累下来。......
  • 文献检索
    虽然我没选这门课,但是有些东西,还是得记录下来这门课还挺重要的,但是不值得在学校花很多时间去学重点这学期(大三下)选指导老师下学期(大四上)实习,下学期(大四上)期末,开题报告,和指导老师联系。毕业答辩在明年2024年4月1-16号准备16个文件学生手册有毕业论文环节和要求知网查重,......