RedShift是亚马逊开发的一个站式云上数据仓库服务。网上案例与风评较少,做的一些个人总结。
1.RedShift优势及特色
1.1官方介绍
①借助 Amazon Redshift 的数据仓库架构,您可以自动处理大部分常见管理任务,这些任务涉及云数据仓库的预置、配置和监控等方面。连续、递增且自动地备份到 Amazon S3。快速恢复;您可以在几分钟内开始查询,同时数据会在后台缓冲。只需单击几下就可以跨区域启用灾难恢复。
②支持各种Sql客户端
1.2网上的总结
速度快,通过压缩,列式存储等实现。
扩展性好,很方便的更改节点数量和类型。
完全托管,从数仓的管理,监控和扩展,集群的监控等都是托管。
自动备份,自动备份amazonS3和容灾恢复。
容错和快速恢复。
兼容Sql,兼容行业标准ODBC和JDBC连接。
网络隔离。
2.RedShift缺点(网上风评)
2.1 风评1
①收费贵。规模小时还好,数仓规模大的时候,费用很高。
②定价策略。结合节点数的存储资源和计算资源用量定价,亚马逊会倾向于我们用更多的计算资源减少运算时间。引入以下问题:
③对于SQL查询的优化不够好。没有足够优化通过减少数据访问量来降低查询的时间和资源
④索引构建不到位。耗费大量资源,做大规模的并行数据读取来查询。
最后总结:Redshift基于商业模式选择的技术路线,决定了它会倾向于通过大规模并行读写挪移大量数据来处理查询。而Oracle的数据的优化器则更可能减少数据的读取量。当数据量足够大的时候,Redshift的做法更有可能要做re-partition,而数据挪动的代价某种程度上等价于数据量的平方。因此,即使Oracle数据库单节点的价格贵,而亚马逊的单节点的价格很便宜。只要过了某个临界点,数据量一上去,亚马逊累积收取的钱就会滚雪球一样变得非常的可怕。
友情链接:https://www.tinymind.net.cn/articles/c01ba918c55472
2.2 风评2
Amazon Redshift 可能有一些缺点并且可能有点过时的原因是它不像新的解决方案那样完全自我管理,也不完全基于 SaaS,如完全基于 SaaS 的解决方案Google BigQuery 或 Snowflake ,您仍然需要自己进行一些管理,例如数据库领域的管理任务。
友情链接:https://www.jdon.com/61562.html
3. 技术架构
3.1 RedShift工作原理
Amazon Redshift 使用 SQL 在数据仓库、运营数据库和数据湖间分析结构化和半结构化数据,使用 AWS 设计的硬件和机器学习在任意规模提供最佳性价比。
3.2 RedShift原生架构及组件
①Leader Node:作为Redshift的控制节点,处理客户端请求、管理集群和元数据等任务;
②Compute Node:作为Redshift的计算节点,存储和处理数据,通过数据分片和分布式计算实现高效查询和分析;
③Redshift Spectrum:是一种基于S3存储的分布式查询服务,可以在Redshift中查询S3存储的数据,加速查询速度和降低成本;
④Amazon S3:作为Redshift的外部存储,可以存储数据和元数据,支持大规模数据存储和访问。
3.3 对Flink、Hudi等其他框架的支持
亚马逊的Redshift支持与Flink、Hudi等外部组件集成,以进一步扩展其功能和应用场景。具体来说,Redshift可以通过JDBC或ODBC接口与Flink集成,实现流数据的实时处理和分析。同时,Redshift还支持使用Apache Hudi将数据以增量方式写入到S3中,以便后续离线处理和分析。
3.4 云上数据仓库的一个样例(以MySql为数据源)
借助DMS实现CDC抽取MySql的数据到MSK。
MSK和KDS其实就类似于Kafka消息队列,是亚马逊自身开发包装。
再写入到RedShift,云上数据仓库。
在RedShift构建数仓的ODS、DIM、DWD、DWS等。
标签:浅谈,Redshift,RedShift,风评,亚马逊,查询,数据 From: https://www.cnblogs.com/ohtang/p/17195724.html