首页 > 其他分享 >火山引擎DataLeap的Catalog系统搜索实践(一):背景与功能需求

火山引擎DataLeap的Catalog系统搜索实践(一):背景与功能需求

时间:2023-05-30 15:22:38浏览次数:50  
标签:数据 用户 Catalog 引擎 搜索 DataLeap Data

火山引擎DataLeap的Data Catalog系统通过汇总和组织各种元数据,解决了数据生产者梳理数据、数据消费者找数和理解数的业务场景,其中搜索是Data Catalog的主要功能之一。本文详细介绍了火山引擎DataLeap的Catalog系统搜索实践:功能的设计与实现。   Data Catalog能够帮助大公司更好地梳理和管理自己的资产,是Data-drvien公司的重要平台。一个通用的Data Catalog平台通常包含元数据管理,搜索,血缘,标签,术语等功能。其中,搜索是Data Catalog的入口功能,承担着让用户“找到数”的主要能力。在火山引擎DataLeap的Data Catalog系统中,每天有70%以上的用户会使用搜索功能。   业界主要的Augmented Data Catalog需要支持Google一样的搜索体验来搜索数据资产,以满足不同角色的用户的找数需求。火山引擎DataLeap也一样,搜索需要支持的主要功能包括:

  • 支持多种不同类型资产的搜索。目前系统中已经包含15+种数据源,可以分为几大类:数仓表比如Hive,看板,数据集,实时表,Topic,对象存储,分布式文件系统如LasFS等。带来的主要挑战是不同类型的资产,搜索的字段和权重有明显差异。
  • 支持个性化。目前系统的用户遍布整个公司,角色涵盖数据工程师,数据分析师,产品经理,项目经理,销售和数据科学家等等,需要完成的数据工作任务差异也比较大,比如数据开发,数据治理,BI,数据分析和机器学习等等,因此个性化对Data Catalog的搜索尤为重要。
  • 支持各种业务元数据的高级筛选。数据资产除了名称/别名/描述等字段,通常还会有一些业务元数据,如项目/业务域/负责人/负责人部门/标签/业务术语/生命周期状态等。通过支持指定业务元数据进行筛选,帮助用户减小搜索范围,更快搜到对应资产。
  • 支持秒级的实时性。这里的实时性是指元数据的变更需要在秒级别反映到Data Catalog的搜索里,例如新建表需要在操作完成后1~2秒内即能搜到相应的表,删除表需要不再显示在搜索结果中。原因是用户新建或更新资产后通常会到我们的系统上查看相应的变更是否生效。用户手动在浏览器操作搜索的时间通常是秒级,超过这个时间会给用户带来困惑,降低整个Data Catalog的使用体验。
  • 支持Google类似的搜索推荐(Type as you search)功能。搜索补全功能是搜索的一个导航功能,可以在用户键入内容时提示他们可以输入的相关内容,从而提高搜索精度。这个功能对响应速度有一定的要求,同时由于数据资产的特殊性,前缀相同的资产数量较多,因此也需要根据资产的热度进行一定的排序。
  • 支持多语言。数据资产的名称/描述/标签/术语等需要支持多种语言,搜索的输入也可能是不同的语言,最常用的比如英文和中文。不同语言的分词,专有名词字典,文本特征等都会带来一些挑战。
  为了满足上述需求,火山引擎DataLeap的Catalog系统采用了个性化综合搜索的方案。区别于联合搜索(federated search),用户需要指定搜索的具体资产类型或在搜索结果页对不同的资产分栏显示,综合搜索(unified search)允许用户在一个搜索框中进行搜索输入而无需指定搜索的资产类型。 同时,搜索服务会在同一个搜索结果页返回不同类型的相关资产,并根据匹配程度和用户的个性化数据进行混合排序。优势是能给不同的用户针对不同资产的搜索需求提供统一的搜索体验,同时提供了用户跨类型圈定资产的能力。另外,综合搜索使得火山引擎DataLeap的Catalog系统可以在页面上进行标准化透出,从而可以从技术上进行搜索标准化,达到新数据源接入即可搜索。

标签:数据,用户,Catalog,引擎,搜索,DataLeap,Data
From: https://www.cnblogs.com/bytedata/p/17443344.html

相关文章

  • 3D轻量化引擎工具助力Canvas GFX开发插图新产品,可视化视图更精准!
    增材制造和3D打印不乏创新技术,无论是硬件变得更加高效和准确,还是材料科学的巨大进步,都拓宽了3D打印部件的使用范围。然而,Techsoft3D作为软件组件供应商,关注点更多的是在将这两个元素结合在一起的效果,即驱动现代打印机发展并支持使用先进材料的软件平台。凭借超过26年开发工程专......
  • ByConity与主流开源OLAP引擎(Clickhouse、Doris、Presto)性能对比分析
    引言:随着数据量和数据复杂性的不断增加,越来越多的企业开始使用OLAP(联机分析处理)引擎来处理大规模数据并提供即时分析结果。在选择OLAP引擎时,性能是一个非常重要的因素。因此,本文将使用TPC-DS基准测试的99个查询语句来对比开源的ClickHouse、Doris、Presto以及ByConity这4个OLAP......
  • 莉莉丝游戏与火山引擎 ByteHouse 达成合作,为实时数仓建设提速
    中国头部游戏公司莉莉丝游戏(Lilith)和火山引擎ByteHouse达成合作,共同致力于加速莉莉丝游戏的实时数仓建设。此次合作将利用ByteHouse的创新技术和功能,为广告运营分析业务提效提供全面支持和帮助。莉莉丝游戏是中国中生代游戏公司代表,在中国游戏市场保持领先地位。为了支持其日......
  • pongo2 类似django 语法的golang 模版引擎
    pongo2类似django语法的golang模版引擎,当前兼容django1.7同时还包含了强大的三方生态支持(比如beego,gin,echo框架。。。)参考使用main.gopackagemain import("fmt""log" "github.com/flosch/pongo2/v6") funcmain(){tpl,e......
  • 绘制RUL预测中的测试引擎预测表现
    下图为C-MAPSS的4个数据子集测试集的所有发动机引擎的真实RUL与估计的RUL表现,并按照真实RUL值的大小从小到大排列。#导出预测rul和真实rul,pred为预测函数,model为训练后的NN模型pred_rul,real_rul=pred(model,test_iter)#将pred_rul和real_rul拼接,以方便进行排序rul......
  • 全景描绘云原生技术图谱,首个《云原生应用引擎技术发展白皮书》重磅发布
    5月12日,由神州数码主办、北京经开区国家信创园、中关村云计算产业联盟协办的2023通明湖论坛-云原生分论坛在京召开。论坛期间,神州数码联合北京通明湖信息技术应用创新中心、中国信通院和通明智云正式发布了《云原生应用引擎技术发展白皮书》(以下简称:白皮书),全景描绘了云原生技术图谱......
  • flink计算引擎
    第1章Flink简介1.1初识Flink1)Flink项目的理念是:“ApacheFlink是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架”。2)ApacheFlink是一个框架和分布式处理引擎,用于对无界(nclk9999)和有界数据(一个文档)流进行有状态计算。Flink被设计在所有......
  • 存储引擎
    MySQL中的数据用各种不同的技术存储在磁盘或内存中,这些技术会采用不同的存储机制、索引技巧、锁定水平,提供不同的功能和能力,提供这些技术能力的组件被称为存储引擎。通过选择不同的存储引擎,可以获得不同的速度或者功能,从而改善应用的整体功能。MySQL的存储引擎种类很多,例如Inn......
  • mysql表类型和存储引擎和视图
    1. mysql表类型和存储引擎  8031.1 基本介绍1. MySQL的表类型由存储引擎(Storage Engines)决定,主要包括MyISAM、innoDB、Memory等。2. MySQL数据表主要支持六种类型,分别是: CSV、 Memory、ARCHIVE、MRG_MYISAM、MYISAM、 InnoBDB.3.这六种又分为两类,一类是”事务安全型”......
  • 使用MASA Stack+.Net 从零开始搭建IoT平台 第四章 4.3 使用规则引擎实现告警通知
    目录前言方案实施流程安装Node-RED配置一个告警处理流程编写代码测试总结前言数据的挑战:物联网的发展带来了海量的数据。这些数据来源多样,格式不一,处理起来十分复杂。同时,物联网中的设备数量庞大,需要设备间进行高效的协同和管理,这也对数据处理提出了更高的要求。如何从这些复......