ytsaurus yandex 开源的 大数据平台
支持的特性
- 对租户,包含看了mapreduce,sql 查询引擎,job 调度,面向oltp 的key value 存储
- 可靠以及稳定,无单点故障,自动复制,更新不丢失数据
- 可扩展,支持百万级别的cpu 以及千级别的GPU,支持EB 级别的HDD,SSD,NVME,RAM,10000 级别的节点,服务自动缩放
- 丰富的功能,mapreduce 模型,分布式acid 支持,sdk 以及api 支持,安全的计算存储分离,用户友好的ui
- 基于clickhouse 的CHYT,集成JDBC 以及ODBC 驱动,快速查询
- 基于apache spark 的SPYT,支持方便的ETL 处理 ,支持不同集群的隔离,可以方便的与现有解决方案集成
使用场景
- 批处理使用mapreduce 以及SPYT
- 即席查询,基于CHYT 的快速查询
- OLTP,低延迟的事物key value 存储
- 机器学习,管理GPU 集群,进行模型学习训练
- 元数据存储,元数据可靠存储,以及支持分布式协调服务
- ETL pipeline基于apache spakr sql, mapreduce 等
参考组件
组件简单说明:
cypress 分布式存储系统以及元数据存储
yql, sql 方便的查询,支持udf,窗口函数
chyt 运行clickhouse
spyt 运行 apache spark
说明
ytsaurus 目前从介绍以及官方的一些使用数据看还是比较吸引人的,值得研究学习下,同时官方文档也是比较全的
参考资料
https://github.com/ytsaurus/ytsaurus
https://ytsaurus.tech/
https://medium.com/yandex/ytsaurus-exabyte-scale-storage-and-processing-system-is-now-open-source-42e7f5fa5fc6