• 2024-09-12Doris3.0.1安装
    apache-doris-3.0.1-bin-x64.tar.gz,jdk-17_linux-x64_bin.tar.gz(jdk-17.0.12)。准备4台服务器,1台FE,3台BE。采用阿里云的ECS云服务器。RockyLinx9.4服务器系统。IP安装doris类别172.25.93.153FE172.25.93.154BE(be1)172.25.93.155BE(be2)172.25.93.156BE(be3)oris默认的端口规划因为安装的
  • 2024-09-11doris实践——Compaction 策略
    1.基本概念Doris的Compaction 策略决定什么时候将哪些小文件合并成大文件。适当的调整Compaction的策略,可以极大地提升导入效率和查询效率。Doris当前提供了2种compaction 策略,通过表属性的 compaction_policy 参数指定。①size_basedcompaction 策略:默认策略,对大
  • 2024-09-09java导入json数据至doris
    表结构字段名称与json key名称一致:packagecom.ruoyi.doris;importcn.hutool.core.io.FileUtil;importcn.hutool.http.HttpRequest;importcn.hutool.http.HttpResponse;importcom.alibaba.fastjson.JSONArray;importcom.alibaba.fastjson.JSONObject;importlomb
  • 2024-09-04ETL数据集成丨ETLCloud助力Doris至Hive的数据整合
    在现代企业数据架构中,数据整合是至关重要的一个环节,它不仅关乎数据的准确性与一致性,还直接影响到数据分析的有效性和业务决策的精确性。Doris(原名Palo)与Hive是两大在大数据处理领域内广泛应用的数据存储与分析系统,它们各有千秋,适用于不同的场景。将Doris数据整合至Hive数据库,旨
  • 2024-09-02ETL数据集成丨SQLServer到Doris的无缝数据同步策略
    在数据驱动的新时代,企业对数据的需求日益增加,尤其是数据同步的速度和准确性。随着数据源和数据目标的多样化,如何实现高效、无缝的数据同步成为了许多企业的关注焦点。ETLCloud正是这一领域的先锋,为用户提供了从SQLServer到Doris的无缝数据同步解决方案,助力企业在数据整合和分
  • 2024-08-29招联金融基于 Apache Doris 数仓升级:单集群 QPS 超 10w,存储成本降低 70%
    在竞争激烈的消费金融市场中,有效利用海量数据、提升业务运营效率是赢得市场的关键。早期招联采用典型的Lambda架构提供业务报表、数据运营、个性推荐、风险控制等数据服务,而Lambda过多的技术栈也引发了数据孤岛、查询效率不足、代码复用性差以及开发运维成本高昂等诸多问题。因
  • 2024-08-12Apache Doris设计思想介绍与应用场景
    ApacheDoris设计思想介绍与应用场景   MPP(MassivelyParallelProcessing),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同
  • 2024-08-12Doris 夺命 30 连问!(中)
    导言抱歉,作为从S2开始的骨灰级玩家看到EDG·UZI官宣首发上线,兴奋之余忘了写文档--||,还望各位看官老爷见谅,这次错了,下次还敢^_^这是继上次的30问上篇的中篇,也是10个问题,有些还是比较难回答的,欢迎大家在评论区或者私聊我来进行battle~Q&A1.时区zone,因现在国家
  • 2024-08-05ETL数据集成丨将GreenPlum数据同步至Doris数仓
    在当今数据驱动的时代,高效、可靠的数据集成成为企业数字化转型的关键一环。ETLCloud作为一款创新的数据集成平台,通过其强大的零代码配置能力,为企业提供了从数据抽取、转换到加载(ETL)的全链条解决方案,尤其在跨系统数据迁移方面展现出显著优势。本次实践通过将GreenPlum数据库的数据
  • 2024-08-01ETL数据集成丨快速将MySQL数据迁移至Doris数据库
    随着大数据技术的迅速发展,越来越多的企业开始寻求高效、灵活的数据存储与分析解决方案。ApacheDoris(原名Palo)作为一款高性能的MPP(大规模并行处理)分析型数据库,凭借其在OLAP场景下的卓越表现,逐渐成为数据仓库和商业智能领域的优选方案之一。本文旨在详细介绍如何利用ETLCloud平台,
  • 2024-07-26如何学习Doris:糙快猛的大数据之路(从入门到专家)
    引言:大数据世界的新玩家还记得我第一次听说"Doris"这个名字时的情景吗?那是在一个炎热的夏日午后,我正在办公室里为接下来的大数据项目发愁。作为一个刚刚跨行到大数据领域的新手,我感觉自己就像是被丢进了深海的小鱼—周围全是陌生的概念和技术。就在这时,我的导师拍了
  • 2024-07-25Apache Doris + Paimon 快速搭建指南|Lakehouse 使用手册(二)
    湖仓一体(DataLakehouse)融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势,帮助用户更加便捷地满足各种数据处理分析的需求。在过去多个版本中,ApacheDoris持续加深与数据湖的融合,已演进出一套成熟的湖仓一体解决方案。为便于用户快速入门,我们将通过系列文
  • 2024-07-24Doris Cluster Manager 安装部署及使用
    原文:https://juejin.cn/post/7351292334645461031DorisClusterManager安装部署及使用2024-03-29131阅读4分钟专栏:doris一、什么是DorisManager?ClusterManagerforApacheDoris(简称DorisManager)是Doris开发团队推出的管理运维ApacheDoris集群的工具,完全兼容Dori
  • 2024-07-18ETL数据集成丨通过ETLCloud工具,将Oracle数据实时同步至Doris中
    ETLCloud是一个全面的数据集成平台,专注于解决大数据量和高合规要求环境下的数据集成需求。采用先进的技术架构,如微服务和全Web可视化的集成设计,为用户提供了一站式的数据处理解决方案。主要特点和功能包括:实时数据处理:强调实时数据集成能力,这对于需要即时数据分析和决策支持的
  • 2024-07-17Doris failed to initialize storage reader. tablet=106408, res=[NOT_IMPLEMENTED_ERROR]to be implement
    ApacheDoris2.3以下的版本会存在一个bug,导致数据在合并时存在异常,在后续查询该字段数据时会提示[1105][HY000]:errCode=2,detailMessage=(192.168.15.228)[CANCELLED]failedtoinitializestoragereader.tablet=106408,res=[NOT_IMPLEMENTED_ERROR]tobeimplemen
  • 2024-07-06Apache Doris 实时数仓场景建设四大新体系 & 湖仓一体化建设四大落地解决方案
    原文:https://mp.weixin.qq.com/s/PT9efWW8IPWUZOpnPzGMJg之前我们讲了很多构建方面的经验,但是在湖仓一体化建设上没有过多的去描述具体怎样演进,怎样落地,能做哪些事,那今天这篇就来详细唠唠基于ApacheDoris的湖仓演进方案,至最后演进至AllInOneDoris的架构。ApacheDoris
  • 2024-07-04doris 数据库与mysql的不同之处
    1.doris与mysqldoris可以使用mysql驱动进行连接,也支持mysql的部分语法。2.具体分析 清空表数据在mysql中,清空表数据有两种方式:一种是deletefromtable_name,一种是truncatetabletable_name。而在doris中,清空表数据只能使用truncatetabletable_name。deletefrom
  • 2024-06-18springboot 使用 doris-streamloader 到doris 防止批量更新 事务卡主
    背景:使用mybatis批量实时和更新doris时经常出现连接不上的错误,导致kafka死信队列堆积很多滞后消费https://doris.apache.org/zh-CN/docs/2.0/ecosystem/doris-streamloader/packagecom.jiaoda.sentiment.data.etl.service.update;importcn.hutool.core.text.CharSequenc
  • 2024-06-17Doris开发手记5:一场链接引发“吊诡”的性能问题
    近期正在对Doris的性能问题展开排查,发现了一个极为“吊诡”的函数执行性能问题。经过一系列的CPU热点代码分析之后,发现“罪魁祸首”居然是libtoolchain中的静态库导致的。借用本篇手记记录下问题的发现,希望记录下一些对于C/C++程序链接问题的分析思路,也希望读者也能有所收获。
  • 2024-06-12使用spark-sql处理Doris大表关联
    背景最近项目上有一个需求,需要将两张表(A表和B表)的数据进行关联并回写入其中一张表(A表),两张表都是分区表,但是关联条件不包括分区字段。分析过程方案一最朴素的想法,直接关联执行,全表关联,一条SQL搞定全部逻辑。想法越简单,执行越困难。由于数据量大,服务器规模较小,尽管各台服务
  • 2024-06-07doris配置自动拉起服务-supervisor
    服务自动拉起本文档主要介绍如何配置Doris集群的自动拉起,保证生产环境中出现特殊情况导致服务宕机后未及时拉起服务从而影响到业务的正常运行。Doris集群必须完全搭建完成后再配置FE和BE的自动拉起服务。Supervisor配置Doris服务​Supervisor具体使用以及参数解
  • 2024-05-28datax 抽取hive表到doris
    datax读取hive表有两种方式,一种是读取hdfs文件路径HDFSReader,因为hive是存储在hdfs上。第二种是读取hive表RDBMSReader。HDFSReader{"job":{"setting":{"speed":{"channel":3},"
  • 2024-05-26使用benthos 实现stream load入库到doris
    下面给出yaml配置,只有input和output,中间可以自定义数据转换pipeline当前的数据从kafka中取出来就是json格式,所以不需要进行处理转换,输出段使用http_client组件,配置批处理提高吞吐量input:broker:copies:9inputs:-kafka:addresses:
  • 2024-05-24Apache DorisDB 线上部署
    ApacheDorisDB线上部署一、机器资源(初始)机器IPHostname内存CPU磁盘172.16.203.151dorisdb203-15116g4核500G172.16.203.152dorisdb203-15216g4核500G172.16.203.153dorisdb203-15316g4核500G二、角色分配机器IP角色172.16.203.15
  • 2024-05-24Doris:数据导入导出
    数据导入导入(Load)功能就是将用户的原始数据导入到Doris中。导入成功后,用户即可通过Mysql客户端查询数据。为适配不同的数据导入需求,Doris系统提供了6种不同的导入方式(Broker、Stream、Insert、Multi、Routine、S3)。每种导入方式支持不同的数据源,存在不同的使用方式(异步,