AllData 一站式大数据平台
1、BitSail (数据集成) : BitSail是字节跳动旗下引擎的数据集成引擎,于2022年10月26日正式开源,采用 Apache 2.0 开源许可。
- BitSail 支持多种异构数据源间的数据同步,并提供离线、实时、全量、增量场景下的全域数据集成解决方案,目前服务于字节内部几乎所有业务线,包括抖音、今日头条等大家耳熟能详的应用,同时也支撑了火山引擎多个客户的数据集成需求。
- github:https://github.com/bytedance/bitsail
2、InLong (数据集成):Apache InLong(应龙)最初于 2019 年 11 月由腾讯大数据团队捐献到 Apache 孵化器,2022 年 6 月正式毕业成为 Apache 顶级项目
- 一站式的海量数据集成框架,提供自动、安全、可靠和高性能的数据传输能力,方便业务构建基于流式的数据分析、建模和应用。
- Apache InLong 以腾讯大数据的 TDBank 系统为基础,依托近百万亿级别的数据接入和处理能力,整合了数据采集、汇聚、存储、分拣数据处理全流程,拥有简单易用、灵活扩展、稳定可靠等特性。
- github:https://github.com/apache/inlong
3、Debezium (CDC):最早是 Red Hat 的开源项目,是基于 Kafka Connect 框架的 CDC(Change Data Capture) 工具
- 它可以对接 MySQL、PostgreSQL、SQL Server、Oracle、MongoDB 等多种SQL及NoSQL数据库,把这些数据库的数据持续以统一的格式发送到 Kafka 的主题,供下游进行实时消费。
- github:https://github.com/debezium/debezium
4、Griffin (数据质量):依托Apache Griffin平台,为您提供全链路的数据质量方案,包括数据探查、对比、质量监控、SQL扫描和智能报警等功能
- Apache Griffin 是一个建立在 Apache Hadoop 和 Apache Spark 之上的数据质量服务平台 (DQSP)。
- 它提供了一个全面的框架来处理不同的任务,例如定义数据质量模型、执行数据质量测量、自动化数据分析和验证,以及跨多个数据系统的统一数据质量可视化。 它旨在解决大数据应用中数据质量领域的挑战
- github:https://github.com/apache/griffin
5、Ranger (数据安全):数据全生命周期的安全管控、安全预警机制,让数据使用安全、合规;
- Apache Ranger 提供了一个集中式的安全管理框架,用户可以通过操作Ranger控制台来配置各种策略,从而实现对Hadoop生态组件如HDFS、Hive、HBase、Yarn等进行细粒度的数据访问控制。
- github:https://github.com/apache/ranger
6、TIS (数据抽取):基于Alibaba DataX,并且在原生DataX之上添加了功能特性大大提高了DataX的可用性、实时数据同步框架Flink-CDC和Chunjun
- 有UI界面覆盖DataX 任务定义、执行、更新等生命周期的流程实现
- github: https://github.com/qlangtech/tis
7、Chunjun(数据抽取):原名FlinkX,是一款基于Flink的数据同步工具
- 可以收集静态数据,如MySQL,HDFS等,以及实时变化的数据,如MySQL binlog,Kafka等。
- 同时,春军也是一个计算框架,支持原生FlinkSql的所有语法和功能,并提供了大量的案例。
- github:https://github.com/DTStack/chunjun/
8、ByConity(数仓引擎):基于ClickHouse构建的一个为现代云架构变化设计的数据仓库。它采用云原生架构设计,满足数据仓库用户对灵活扩展、读写分离、资源隔离和强数据一致性的需求。同时,它提供了卓越的查询和写入性能。
- 对于字节跳动开源的数仓引擎ByConity的评价,应该考虑其在性能、稳定性、可扩展性、易用性、支持和社区等方面的表现。
- github:https://github.com/ByConity/ByConity
9、ELAdmin(框架):一款基于 Spring Boot 2.1.0 、 Jpa、 Spring Security、redis、Vue 的前后端分离的后台管理系统,项目采用分模块开发方式, 权限控制采用 RBAC,支持数据字典与数据权限管理,支持一键生成前后端代码,支持动态路由
10、datart(可视化):新一代数据可视化开放平台,支持报表、仪表板、大屏、分析和可视化数据应用的敏捷构建
- 由原 davinci 主创团队出品,datart 更加开放、可塑和智能,并在数据与艺术之间寻求最佳平衡
- datart 是新一代数据可视化开放平台,支持各类企业数据可视化场景需求,如创建和使用报表、仪表板和大屏,进行可视化数据分析,构建可视化数据应用等
- github:https://github.com/running-elephant/datart
11、Erda(平台):Erda 是新一代数字化云原生 PaaS 平台,其核心包含三大模块:应用(微服务)研发治理平台、快数据治理平台和混合云管理平台
- 应用(微服务)研发治理平台具备项目管理、API 管理、CI/CD、自动化测试、应用管理、监控、日志分析、APM 和微服务观测等核心功能,从需求分析到上线交付,实现真正的一站式全流程管理
- 快数据治理平台采用流批一体的架构设计,基于实时的数据计算,提供数据源管理、数据地图、数据模型开发、数据资产、数据血缘等一体化的数据治理能力,可应用于数据中台建设、实时数据仓库建设等场景
- 混合云管理平台基于 Kubernetes(K8s)架构的容器云服务,提供 K8s 的可视化管理、常见公有云的资源管理和编排,以及立体式的智能监控告警,能够将应用部署到不同的云平台,实现混合云架构
- github:https://github.com/erda-project/erda
12、SreWorks(运维管理):数智化”运维SaaS管理套件。提供企业的应用&资源管理及运维开发两大核心能力,帮助企业实现云原生应用&资源的交付运维。
- 阿里巴巴大数据SRE团队云原生运维平台 SREWorks,沉淀了团队近10年经过内部业务锤炼的 SRE 工程实践,秉承“数据化、智能化”运维思想,帮助运维行业更多的从业者采用“数智”思想做好高效运维
- github:https://github.com/alibaba/SREWorks
13、Cube Studio(AI平台):cube是 腾讯音乐 开源的一站式云原生机器学习平台
14、DataEase(可视化):2021年6月开始开源,DataEase 支持丰富的数据源连接,能够通过拖拉拽方式快速制作图表,并可以方便的与他人分享,仅首页仪表盘专业、模板多,适用于大屏
Flag:
- datart VS superSet:快速可视化平台升级迭代(面向最终用户的自助)?
- Erda:快速数据治理平台(标签、数据治理)?
- Griffin:质量管理(AllData)?
- Debezium:Flink CDC?
- SreWorks:社区版功能研究?
- Cube Studio 平台预研?
参考资料:
标签:github,com,开源,可视化,跟踪,https,2023,Apache,数据 From: https://www.cnblogs.com/tgzhu/p/17130515.html