首页 > 其他分享 >【大数据】数据集合集!

【大数据】数据集合集!

时间:2024-12-20 13:56:12浏览次数:9  
标签:GitHub 数据 2024 github https 集合 com

本文将为您介绍经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。

1

bigdata-growth

  • 更新时间:2024-11-14

  • 访问地址: GitHub

  • 描述:

    大数据知识仓库涉及到数据仓库建模、实时计算、大数据、数据中台、系统设计、Java、算法等。

  • 数据集网址:

    https://github.com/collabH/bigdata-growth

2

Database-Notes

  • 更新时间:2024-11-21

  • 访问地址: GitHub

  • 描述:

    深入浅出数据库存储:数据库理论、关系型数据库、文档型数据库、键值型数据库、New SQL、搜索引擎、数据仓库与 OLAP、大数据与数据中台。

  • 数据集网址:

    https://github.com/wx-chevalier/Database-Notes

3

bigdata-hub

  • 更新时间:2024-03-02

  • 访问地址: GitHub

  • 描述:

    数据建设与大数据技术知识体系,包含hadoop、hive、spark、flink主流框架和系列框架,数据中台、数据湖、数据治理、数仓建设、数据化转型等

  • 数据集网址:

    https://github.com/fancyChuan/bigdata-hub

4

lacus

  • 更新时间:2024-12-17

  • 访问地址: GitHub

  • 描述:

    Lacus是一个开源大数据平台项目,主要解决大数据采集、存储、分析与计算问题,主要包括元数据、数据采集、数据服务、数据开发。

  • 数据集网址:

    https://github.com/eyesmoons/lacus

5

IofTV-Screen-Vue3

  • 更新时间:2024-08-30

  • 访问地址: GitHub

  • 描述:

    一个基于 vue3、vite、Echart 框架的大数据可视化(大屏展示)模板

  • 数据集网址:

    https://github.com/daidaibg/IofTV-Screen-Vue3

6

spark-yun

  • 更新时间:2024-12-17

  • 访问地址: GitHub

  • 描述:

     至轻云是一款超轻量级的企业级大数据计算平台,基于Spark生态精心打造。一键部署,开箱即用,轻松满足大数据处理需求。支持快速实现离线ETL、Spark计算、实时计算、可视化调度、自定义接口、数据大屏展示以及分享表单等多种功能,为企业提供高效便捷的大数据解决方案。

  • 数据集网址:

    https://github.com/isxcode/spark-yun

7

AntJob

  • 更新时间:2024-12-17

  • 访问地址: GitHub

  • 描述:

    分布式任务调度系统,纯NET打造的重量级大数据实时计算平台,万亿级调度经验积累!面向中小企业大数据分析场景。

  • 数据集网址:

    https://github.com/NewLifeX/AntJob

8

ezdata

  • 更新时间:2024-12-02

  • 访问地址: GitHub

  • 描述:

    基于python和llm大模型开发的数据处理和任务调度系统。 支持数据源管理,数据模型管理,数据集成,数据查询API接口,低代码自定义数据处理任务模版,单任务及dag任务工作流调度等功能。集成了llm模块实现rag知识库问答,链接各数据源数据进行数据对话问答,交互式数据分析功能。

  • 数据集网址:

    https://github.com/xuwei95/ezdata

9

cube-studio

  • 更新时间:2024-12-17

  • 访问地址: GitHub

  • 描述:

    cube studio开源云原生一站式机器学习/深度学习/大模型AI平台,支持sso登录,多租户,大数据平台对接,notebook在线开发,拖拉拽任务流pipeline编排,多机多卡分布式训练,超参搜索,推理服务VGPU,边缘计算,serverless,标注平台,自动化标注,数据集管理,大模型微调,vllm大模型推理,llmops,私有知识库,AI模型应用商店,支持模型一键开发/推理/微调,支持国产cpu/gpu/npu芯片,支持RDMA,支持pytorch/tf/mxnet/deepspeed/paddle/colossalai/horovod/spark/ray/volcano分布式

  • 数据集网址:

    https://github.com/data-infra/cube-studio

10

xl-lighthouse

  • 更新时间:2024-12-17

  • 访问地址: GitHub

  • 描述:

    XL-LightHouse是一套支持超大数据量、支持超高并发的通用型流式大数据统计系统【同时支持单机版】。常见的应用场景包括:PV、UV统计;电商销售额、下单用户数统计;日志量统计;接口调用量、异常量、耗时情况统计;服务器运维指标监控等功能。系统支持多维度统计,支持各种复杂的条件筛选和逻辑判断,一键部署,一行代码接入,轻松实现各种海量数据实时统计,帮助企业以更低的成本快速搭建起数据指标体系。

  • 数据集网址:

    https://github.com/xl-xueling/xl-lighthouse

标签:GitHub,数据,2024,github,https,集合,com
From: https://blog.csdn.net/Kyzy_1919/article/details/144559192

相关文章

  • 【物联网】数据集合集!
    本文将为您介绍经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。1FastBee更新时间:2024-12-13访问地址: GitHub描述:FastBee开源物联网平台,简单易用,可用于搭建物联网平台以及二次开发和学习。适用于智能家居、智慧办公、智慧社区、农业监测、水利监测、工业......
  • scrapy中pipelines文件封装用sqlalchemy写入mysql数据库
    #前提必须安装 pymysql  sqlalchemy  scrapy#scrapy的piplines文件中fromsqlalchemyimportcreate_engine,text,insertimportpymysqlfromscrapy.utils.projectimportget_project_settingsclassMySQLPipeline:defopen_spider(self,spider):settings=......
  • ssm基于Kinect和可穿戴的健康管理系统29d6u--(程序+源码+数据库+调试部署+开发环境)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容项目名称:基于Kinect和可穿戴的健康管理系统一、项目背景随着人口老龄化加剧及生活节奏加快,健康管理成为社会关注的焦点。微软Kinect作为体感交互......
  • ssm基于bs架构的高校在线考试系统0brge程序+源码+数据库+调试部署+开发环境
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容一、研究背景与意义随着信息技术的不断进步,高校教育正逐步向数字化、网络化转型。传统的纸质考试方式已难以满足现代教育的需求,尤其是在当前疫情背......
  • 基因组之单倍型基因组数据处理(二)
    基因组之单倍型基因组数据处理(二)那么,今天让我们来看第二期,关于对于下机后的数据的处理,使其能够符合我们的分析要求,让我们的分析能够进入下一步的组装。1.Smrtlink12简介:PacBio开发的处理HiFi测序数据的open-source工具;基于网页的端对端工作流程管理,也可以用linuxco......
  • vector容器/构造函数/赋值操作/容量和大小/插入和删除/数据存储/互换容器/预留空间
    vector基本概念功能:vector数据结构和数组非常相似,也称为单端数组vector与普通数组区别:不同之处在于数组是静态空间,而vector可以动态扩展动态扩展:并不是在原空间之后续接新空间,而是找更大的内存空间,然后将元数据拷贝新空间,释放原空间vector容器的迭代器是支持随机访问的......
  • 【零基础学Mysql】创建表以及数据库crud语句详细讲解
    前面文章我们学习了对数据库的操作,本章内容学习一下对表的操作,包括如何创建表,修改表的结构,以及对表中数据的操作。希望对你有所帮助。文章目录一.创建数据表二.修改表结构三.数据库CRUD语句3.1Insert语句(添加数据)3.2Update语句(更新数据)3.3Delect语句(删除数据)3.4Sel......
  • 基于YOLO11的多模态(可见光+红外光)实现 | LLVIP 和 KAIST数据集可行性验证
      ......
  • MapperScannerConfigurer 配置出错造成没有读取 db.properties 文件中的数据库连接参
    MyBatis-Spring实现MyBatis和Spring框架集成。问题现象在配置中碰到不能加载MySQLJDBC驱动的问题,报错如下(部分截取):09:59:06.595[C3P0PooledConnectionPoolManager[identityToken->z8kfltb71qnbl7e1cco0kz|23833818]-HelperThread-#2]WARNc.m.v2.c3p0.DriverManager......
  • 《向量数据库指南》揭秘:向量检索技术如何重塑AI应用格局?
    向量检索:AI时代的核心技术及其优化策略在AI技术日新月异的今天,向量检索(向量相似性搜索)无疑成为了推动技术进步和应用创新的重要引擎。作为大禹智库的向量数据库高级研究员,以及《向量数据库指南》的作者,我深知向量检索在AI时代所扮演的关键角色。它不仅在推荐系统、检索增强生......