首页 > 数据库 >数据库信息速递 数据库基础设施已经不在青睐 ETL (译)

数据库信息速递 数据库基础设施已经不在青睐 ETL (译)

时间:2023-06-19 16:36:15浏览次数:43  
标签:分析 架构 数据库 系统 速递 数据 ETL 分布式

企业是7天24小时运营的。这包括从网站、后勤办公、供应链到其他所有方面。曾经,一切都是分批次进行的。就在几年前,操作系统会暂停,以便将数据加载到数据仓库并运行报告。现在的报告关注的是事情当前的状况。已没有时间进行ETL。

许多IT架构仍然基于中心轮辐式系统。操作系统向数据仓库提供数据,然后数据仓库再向其他系统提供数据。专用的可视化软件根据“仓库”生成报告和仪表板。然而,这种情况正在发生变化,商业上的这些变化要求数据库和系统架构进行适应。

过去十年中,大量的云迁移和可扩展性努力的一部分导致了许多专用数据库的使用。在许多公司,网站由NoSQL数据库支持,而涉及资金的关键系统则位于大型机或关系数据库上。这仅仅是问题的表面。对于许多问题,还会使用更专业化的数据库。通常情况下,这种架构需要使用传统的批处理过程来转移大量数据。操作复杂性不仅导致延迟,还可能出现故障。这种架构并非为了实现可扩展性而设计的,而是为了阻止问题的恶化而拼凑在一起的。

数据库正在发生变化。关系数据库现在能够处理非结构化、文档和JSON数据。NoSQL数据库现在至少具备一些事务支持。同时,分布式SQL数据库在保持与现有SQL数据库和工具的兼容性的同时,实现了数据完整性、关系数据和极端可扩展性。

然而,仅凭这些还不够。事务性或操作性系统与分析系统之间的界限不能成为边界。数据库需要同时处理大量用户和长时间运行的查询,至少在大部分时间里如此。为此,事务性/操作性数据库正在以列式索引或MPP(大规模并行处理)能力的形式增加分析功能。现在可以在一些分布式操作数据库上运行分析查询,例如MariaDB Xpand(分布式SQL)或Couchbase(分布式NoSQL)。

这并不是说现在的技术已经发展到不再需要专用数据库的地步。目前还没有操作数据库能够进行PB级别的分析。在某些边缘案例中,除了时间序列或其他特殊的数据库外,没有其他解决方案。保持事物简单化或实现实时分析的诀窍是避免提取。

在许多情况下,问题的答案在于首次捕获数据的方式。与其将数据发送到一个数据库然后从另一个数据库中提取数据,不如将事务同时应用于两者。像Apache Kafka或Amazon Kinesis这样的现代工具可以实现这种数据流式传输。虽然这种方法确保数据无延迟地到达两个地方,但它需要更复杂的开发来确保数据完整性。通过避免数据的推拉,事务型和分析型数据库可以同时更新,当需要专用数据库时,可以实现实时分析。

有些分析型数据库无法承受这种方式。在这种情况下,可以作为权宜之计使用更为定期的批量加载。然而,要高效地实现这一点,源操作数据库需要处理更多长时间运行的查询,可能会在高峰时段进行。这就需要内置列式索引或MPP。

在它们所处的时代,客户端-服务器数据库表现得非常出色。它们不断发展以充分利用众多CPU和控制器,为各种应用程序提供性能。然而,客户端-服务器数据库是为员工、工作组和内部系统设计的,而不是互联网。在当今网络规模系统和数据无处不在的现代时代,它们已变得完全难以维持。

许多应用程序使用许多不同的隔离数据库。优点是如果其中一个出现故障,受影响范围较小。缺点是总有一些东西始终处于损坏状态。将较少的数据库整合到一个分布式数据结构中,使IT部门能够建立一个更可靠的数据基础设施,在不同数量的数据和流量下,减少停机时间。这也意味着在分析数据时,减少了数据传输的次数。

主要依赖于通用的分布式数据库,既能处理事务,也能进行分析,并在大型分析案例中使用流式传输,您可以支持现代企业所需的实时运营分析。这些数据库和工具在云端和本地都容易获得,并已广泛应用于生产环境。

改变是困难的,需要时间。这不仅仅是一个技术问题,还涉及人员和后勤问题。许多应用程序采用了隔离式架构进行部署,并独立于其他数据基础设施的开发周期。然而,经济压力、日益激烈的竞争和新的商业模式正在推动即使是最保守、最坚定的公司进行变革。

数据库信息速递   数据库基础设施已经不在青睐 ETL (译)_etl

标签:分析,架构,数据库,系统,速递,数据,ETL,分布式
From: https://blog.51cto.com/u_14150796/6515582

相关文章

  • 数据库新闻速递 明白3中主流的数据迁移方法 (译)
    头还是介绍一下群,如果感兴趣polardb,mongodb,mysql,postgresql,redis等有问题,有需求都可以加群群内有各大数据库行业大咖,CTO,可以解决你的问题。加群请联系liuaustin3,在新加的朋友会分到2群(共830人左右1+2)基于应用程序的、基于文件的和基于块的迁移都有各自的优点和适用场......
  • POSTGRESQL SERVERLESS 是POSTGRESQL 数据库的未来 (译)
    以下为翻译内容多年来,PostgreSQL一直备受瞩目,对于企业来说,POSTGRESQL流行是面临众多竞争后的选择。随着企业试图摆脱昂贵的传统关系型数据库管理系统(RDBMS),但仍希望坚持使用RDBMS,开源PostgreSQL是一种具有吸引力的、更经济实惠的替代方案。曾经有两个托管PostgreSQL服务(Aurora和RDS)......
  • 数据库信息速递 阿里巴巴的分布式数据库OceanBase旨在进军中国以外的市场 (翻译)...
    该分布式SQL兼容数据库支持混合事务分析处理(HTAP),可以在低规格的机器上运行,例如树莓派,该公司表示。阿里巴巴及其金融服务子公司蚂蚁金服已经为中国以外的市场推出了OceanBase分布式关系数据库的新版本。该版本名为OceanBase4.0,于上周发布,可以在单个低规格机器上运行,例如树莓派,并且......
  • 数据库信息速递 甲骨文与微软合作,在Azure上推出数据库服务
    甲骨文和微软周三宣布,他们共同推出了一项新服务,名为Azure的Oracle数据库服务,该服务允许Azure客户直接访问在OracleCloudInfrastructure(OCI)上运行的Oracle数据库。这项新服务基于两家公司三年前的合作关系,允许它们的共同客户企业在MicrosoftAzure和OracleCloud上运行工作负载以......
  • POSTGRESQL NEON - Serverless 式的POSTGRESQL 数据库的独特技能 分支数据
    之前没有关注过SERVERLESS的数据库产品之前,我很少会关注SERVERLESS的东西,因为一直在实体机数据库类型打拼的我,从来不关心什么 云原生什么SERVERLESS,Idon'tcareaboutthat,it'snotmybusiness!!!!但是后来上云了,上的很深,没法了,开始关注什么是云原生,什么是POALRDB 最......
  • MySQL 数据库管理与优化技巧
    使用索引优化查询性能:索引是提高查询性能的关键因素之一。合理地创建索引可以加快查询速度。在设计数据库时,根据经常使用的查询条件和频率,选择合适的列创建索引,同时避免过多的索引,以避免索引维护的开销。优化数据库结构:通过合理的数据库设计,可以提高数据库的性能和可扩展性......
  • windows10安装Oracle数据库
    Oracle数据库安装流程配置压缩包资源:链接:https://pan.baidu.com/s/19ElajYQIosiBcM84ZRiIVg提取码:07061.首先提前再除C盘的任意一个盘符里新建一个Oracle文件夹,并将这俩个安装包压缩到其文件夹下,解压完的文件夹如下database。  2、进入database文件夹可执行安装文件......
  • 数据库管理软件-DataGrip 2023 mac/win版
    DataGrip2023是由JetBrains开发的一款全功能数据库管理工具。它旨在提供一个集成的开发环境,方便开发人员管理和操作各种类型的数据库。DataGrip2023支持多种数据库系统,包括MySQL、PostgreSQL、Oracle、SQLServer等。它具有直观的用户界面,使用户能够轻松地连接到数据库服务器,并......
  • 因信号量问题导致ORA-27154无法启动数据库
    测试库执行startup时提示(11.2.0.1):查询ORA-27154的错误:Error:ORA-27154Text:post/waitcreatefailed---------------------------------------------------------------------------Cause:internalerror,multiplepost/waitcreatesattemptedsimultaneouslyAct......
  • JSP连接数据库大全
    JSP连接数据库大全一、jsp连接Oracle8/8i/9i数据库(用thin模式)testoracle.jsp如下:<%@pagecontentType="text/html;charset=gb2312"%><%@pageimport="java.sql.*"%><html><body><%Class.forName(......