首页 > 其他分享 >火山引擎ByteHouse发布高性能全文检索引擎

火山引擎ByteHouse发布高性能全文检索引擎

时间:2024-07-17 10:40:13浏览次数:12  
标签:全文检索 引擎 ElasticSearch ByteHouse 电商 数据

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号回复【1】进入官方交流群。
 随着数字时代的发展,数据的来源和生成方式越来越广泛,数据形态也愈加丰富。   以某电商平台的数据情况举例。该电商平台每日产生大量数据,有些为电商平台的订单数据,包括订单号、商品数量、金额、购买时间等,由于这类数据具有明确的格式和固定的字段,并遵循一定的格式,属于结构化数据;有些如客服与客户的聊天记录、客户对具体商品的反馈等,这类数据没有固定格式和明确结构,包括文本、视频、图片、音频等,则属于非机构化数据。   为了能更好支撑该电商平台对数据的使用,底层数据引擎的选型要适应不同数据格式的要求,但采用多套数据引擎也会存在架构复杂、灵活性差、运维压力大等问题。那么,是否能用统一数据架构解决以上问题?   火山引擎ByteHouse全文检索引擎为这一问题提出了解决方案。   作为一款定位为OLAP的分析型数据库,ByteHouse在支持结构化数据检索方面具备先天优势,而此次发布的全文检索引擎则补齐了对非结构化、半结构化等数据的快速检索能力,让用户可以构建一体化的数据管理、查询服务,降低运维成本和资源成本。据介绍,ByteHouse全文检索引擎,能够支持商品搜索、知识库搜索、日志分析等场景下对文本数据进行关键字检索。   不仅仅能帮助用户精简数据架构,ByteHouse相比于行业常见的非结构化数据处理引擎,如ElasticSearch也具备明显优势。   在性能层面,相关测试数据显示,当单服务器日志写入量在50MB-200MB/s,每秒写入超过30w记录数的情况下,ByteHouse是ElasticSearch性能的5倍以上。在成本层面,ByteHouse具备更高数据压缩比、消耗更少的CPU资源,在保障高效查询的基础上,还能进一步压缩服务器成本。在稳定性层面,ByteHouse冷热分离机制、负载均衡策略,让数据稳定性更高。   除此之外,对于研发人员来说,ElasticSearch上手较难,不支持SQL,数据管理和维护较为麻烦,而ByteHouse采用SQL语法,极大降低学习成本。   截至目前,ByteHouse全文检索能力已经在诸多场景落地。比如,仟传网络之前通过自建ElasticSearch来提供舆情相似度检索能力,但从性能、成本角度来看,无法满足需求。从ElasticSearch迁移到ByteHouse之后,ByteHouse在几十亿数据下查询和写入都非常稳定,还让总资源成本整体节省了60%。 ByteHouse全场景分析引擎   “一元化数据、多元化引擎”是ByteHouse的产品理念,旨在通过构建统一的平台为用户提供更丰富的数据分析能力,实现数据效能最大化。除了全文检索引擎,ByteHouse还推出了GIS引擎、Vector引擎,让用户在享受OLAP极致性能的同时,无需引入其他架构,就能使用地理空间分析、向量检索能力,进一步提升使用体验。   点击跳转 火山引擎云原生数据仓库ByteHouse 了解更多

标签:全文检索,引擎,ElasticSearch,ByteHouse,电商,数据
From: https://www.cnblogs.com/bytedata/p/18305670

相关文章

  • 视创云展数字人驱动引擎,“解锁”你在虚拟世界的“数字化身”!
    数字人驱动引擎作为视创云展的核心功能之一,提供了强大的数字人创作与交互能力,以其DIY自由创作、多模态驱动、支持写实/卡通形象以及打造元宇宙身份代理等核心优势,为用户在元宇宙中创造个性化、智能化的数字人体验提供了强有力的支持。一、DIY自由创作视创云展的数字人驱动引......
  • 别小瞧它,提高效率可了解可拖拽的工作流引擎
    当前,社会发展程度越来越高,很多企业都希望寻求更优的平台产品实现提质增效的目的。低代码技术平台、可拖拽的工作流引擎具有可视化操作界面、更灵活、好操作等多个优势特点,在提升办公效率方面具有事半功倍的效果。提升效率,可以随时来了解低代码技术平台、可拖拽的工作流引擎更多特......
  • Intel Management Engine WMI Provider 2408.5.4.0 20240221 驱动程序 Intel管理引擎
    驱动程序"IntelManagementEngineWMIProvider2408.5.4.0"是指Intel管理引擎的一部分,它通过Windows管理仪表(WMI)提供对管理引擎功能的访问和管理。这些驱动程序通常用于管理和配置Intel管理引擎的功能,包括安全功能、远程访问以及系统监控等。如果您需要安装或更新这个驱......
  • sqldumper.exe 是 SQL Server 的一个重要组件,专门用于捕获和处理关键错误,帮助管理员和
     sqldumper.exe的起源可以追溯到MicrosoftSQLServer的开发和运行时管理中。它作为SQLServer的一部分,主要用于处理数据库引擎遇到的关键错误和异常情况。具体来说,sqldumper.exe主要功能包括:异常处理和故障捕获:当SQLServer数据库引擎遇到严重错误时,如内存访问错误......
  • 入门级搜索引擎实现
    实验原理:该搜索引擎的实现主要分为四个部分。第一部分:从能源学院主页https://nyxy.cumtb.edu.cn/开始爬取,使用BeautifulSoup库来解析HTML,使用双端队列存储未访问的链接,并使用集合存储已访问的链接,以避免重复访问同一链接,同时过滤掉一些不感兴趣的链接。第二部分:将网页编......
  • 邮件发送与使用thymeleaf引擎重置密码邮件
    邮件发送原生java-mail进行邮件发送;前提:先登录邮箱,开启POP3/SMTP服务,使第三方可以使用授权码登录邮箱。@TestpublicvoidsendEmail(){Stringaccount="[email protected]";Stringpwd="KXNZHOZDMLTVWHOZ";//设置SMTP请求头Pr......
  • 开源工作流引擎该如何扩展?扩展哪些功能?
    目前主流的开源流程引擎有activiti、flowable、camunda等,这几个开源流程引擎的版本很多,哪个开源流程引擎哪个版本的功能更多、性能更好,该如何选择请参考:https://lowcode.blog.csdn.net/article/details/116405594无论您选择哪一个开源流程引擎,都不可能直接拿来即用,均需要做一定的......
  • 探索GraphRAG:构建高效的知识图谱索引与查询引擎
    GraphRAG系统简介GraphRAG是一个基于图的检索增强生成系统,它通过索引文本数据,然后使用这些索引数据来回答有关文档的问题。系统的核心在于其索引管道和查询引擎,它们共同工作,以提供快速且准确的信息检索服务。环境准备在开始之前,请确保你的开发环境中已安装Python3.10至3......
  • ELK Stack - Elasticsearch · 搜索引擎 · 部署应用 · 内部结构 · 倒排索引 · 服
    系列目录ELKStack-Elasticsearch·搜索引擎·全文检索·部署应用·内部结构·倒排索引·服务接入ELKStack-Kibana(待续)ELKStack-Logstash(待续)ELKStack-Beats(待续)ELKStack-ApplicationPerformanceMonitoring(待续)本章基于:RHELinux......
  • MySQL存储引擎的选择:深入解析与策略
    MySQL数据库管理系统之所以强大,部分原因在于它提供了多种存储引擎,每种引擎都针对特定的应用场景进行了优化。尽管MySQL支持多种存储引擎,但其中最常用且值得深入探讨的无疑是MyISAM、InnoDB以及MEMORY(HEAP)这三种。每种存储引擎都有其独特的优缺点,合理选择能够显著提升数据库的性......