首页 > 数据库 >阳振坤:AI 大模型的基础是数据,AI越发达,数据库价值越大

阳振坤:AI 大模型的基础是数据,AI越发达,数据库价值越大

时间:2025-01-20 18:01:30浏览次数:3  
标签:伸缩 阳振坤 AI 数据库 复用 能力 OceanBase

2024年1月12日,第四届OceanBase数据库大赛决赛在北京圆满落幕。在大赛的颁奖典礼上,OceanBase 首席科学家阳振坤老师为同学们献上了一场主题为“爱上数据库”的公开课,他不仅分享了个人的成长历程,还阐述了对数据库行业现状与未来的见解和思考。

图片

阳老师回忆了自己年轻时,与如今的同学们相仿的年纪,追随导师王选院士投身激光照排机研发的岁月。他感慨道:“那时,我们的信息系统与发达国家相比,存在着巨大的差距。虽然时至今日,这样的差距仍然存在,但已经大幅缩小,甚至在不少领域,我们已经实现了超越。”

近年来,人工智能技术迅猛发展,谈及 AI 大模型与数据库的关系,他表示,AI 大模型本身的基础其实还是数据,AI 模型越发达,数据库的价值会越大,数据库的空间也会越大

未来数据库会如何发展?他认为,数据库的形式和功能将发生显著变化。现代数据库应具备两大核心特征:一是强大的海量数据处理能力,二是云数据库服务模式。因此,数据库的发展方向必然是多模一体化,以及具备敏捷伸缩和水平扩展的能力。

精彩节选

1、未来数据库不会消失,但形式和功能会发生显著变化

AI 大模型主要依靠训练的数据、训练的结果,以及和用户的交互,这背后海量数据的处理离不开各种各样的数据库。所以 AI 的模型越发达,我觉得数据库的价值会越大,数据库的空间也会越大。

在可预见的未来里,数据库作为存储、管理和检索数据的核心工具,作用只会更加重要,传统关系型数据库也不再是唯一选择。

NoSQL、NewSQL、分布式数据库等新型数据库将广泛应用,云数据库和 Serverless 架构让用户更多依赖云服务商提供的解决方案,AI 和机器学习的引入将使数据库管理更加自动化。

2、数据库激增、类型多样与实时处理是数据库的三大挑战

今天在数据库领域,关系数据库仍然占很大比例,差不多是 70%。有很多人预测,关系数据库的比例会缩小,我是相反的看法,我觉得关系数据库的比例会变大。

这些年,为满足多样化数据类型和复杂查询需求,NoSQL、NewSQL、KV 等部分替代了传统关系型数据库。一个重要原因是传统的关系型数据库多为单机数据库,扩展能力受限,所以人们才会用 KV、NoSQL 等作为解决方案。但这些系统缺少数据库最根本的东西:ACID,导致它本身带有局限性。

数据库这些年发展还出现了一个现象,就是交易和分析割裂。当数据量不大的时候,可以按照交易的方式进行分析,只是效率低一点。但当数据量大了之后,第一是存储,原来的交易数据库面临存储挑战,更谈不上分析;第二是效率,当数据量增长了 1000 倍,分析的时间不可能随之增加到 1000 倍,这时的分析也就失去了意义。

正是因为如此,现在的业务生产系统中,交易和分析是割裂的,形成两个系统。一旦交易系统的数据发生变化,分析系统也要同步改变。这不仅带来成本增加,复杂性也随之上升。

3、云是未来数据库发展的主要趋势

今天,云在数据库市场里占据主流。左边的图里,蓝色部分云数据库市场份额,黄色部分是线下部署的市场份额。现在,云已经占了超过 60%。从右边的图可以看出,数据库每年的市场增量有 90% 在云上,这意味着随着时间的推移,云数据库的占比会越来越大。

图片

(数据来源:Market Share Analysis:DataBase Management Systems,Worldwide,2023)

为什么云服务发展很快?我觉得有两点:效率和成本。

云上的资源可以很快申请,马上就能得到,时间是以秒计算,而线下部署一台机器再快都是以天计算的。在成本方面,中等规模以下的企业,购买云服务很便宜;对大型、特大型的企业由于规模效应,也能带来成本的节省。这其中最重要的原因就是资源的池化与复用。

以 CPU 为例,绝大部分企业的计算机 CPU 利用率是个位数,不到 10%,造成算力浪费。而云上可以做到 20%,因为各家企业的业务有时高有时低,大家互补起来,提高资源的利用率。同时,云上的存储和人力,也可以通过复用提高利用率。

但是数据库不完全是这样,数据库是个有状态的东西。大家知道一个事务建立连接,它的很多状态你是要保持住的。数据库有敏捷的伸缩能力是一个挑战,但如果你没有伸缩能力,你就做不到资源的复用。

4、OceanBase在走一条传统数据库走不了的路

传统集中式数据库第一没有容量,第二很难能解决行存列存冲突的问题。因为行存便于数据修改,而列存的修改代价非常大。如果一个表有 100 个列,插入或删除一条记录,意味着要在硬盘上做 100 次的读、100 次的写,操作代价非常大,效率也就会非常差。

这个里面涉及到两个问题,一个是分布式一个是敏捷伸缩。如果数据库没有敏捷伸缩的能力,就无法像云那样做到资源复用,例如高德地图的导航,除了早晚高峰,凌晨用的人很少,如果没有弹性能力,就会造成资源浪费。

过去的数据库其实是不具备扩展能力的,新的数据库在朝这个方向努力,OceanBase 现在在很多地方还不如 Oracle,但是我们今天走的是一条传统数据库走不了的路。

传统集中式数据库它没有一个很好的扩展能力,而 OceanBase 这种分布式数据库成长起来,它将成为新一代的数据平台。过去需要搭一个交易数据库和一个大数据系统,而现在可以在一个数据库里实现这些功能,去掉两个系统带来的交互和成本。

标签:伸缩,阳振坤,AI,数据库,复用,能力,OceanBase
From: https://blog.csdn.net/OceanBaseGFBK/article/details/145192033

相关文章

  • AI技术的动漫角色转真人视频制作及其传播效果研究
    基于AI技术的动漫角色转真人视频制作及其传播效果研究一、引言随着互联网技术的快速发展,短视频内容已成为社交媒体平台上用户互动和分享的重要组成部分。其中,动漫角色cosplay视频因其独特的创意和视觉效果而备受青睐。然而,传统cosplay视频制作需要真人参与扮演,对参与者的外......
  • AI编程工具使用技巧——Cursor (思维导图-java架构)
    Cursor是一个AI辅助编程工具,它能够帮助开发者更快地编写代码、理解现有代码库以及解决编程中遇到的问题。当涉及到Java架构时,利用Cursor可以极大地提高开发效率和代码质量。以下是围绕着如何使用Cursor进行Java项目开发的思维导图建议框架:AI编程工具使用技巧-Cursor(Java......
  • Stable Diffusion整合包(sd安装包)免费下载,解压即用,三分钟入门AI绘画!
    StableDiffusion(简称SD)是一款地表最强AI绘图工具(AIGC)之一,StableDiffusion下载后就像PS一样在本地电脑安装后即可使用!SD只需输入提示词,就能通过AI算法迅速生成你想要的图片****。有需要stablediffusion整合包以及提示词插件,可以扫描下方,免费获取安装步骤**步骤一:**......
  • AI大模型-提示工程学习笔记9-生成知识提示
    卷首语:我所知的是我自己非常无知,所以我要不断学习。写给AI入行比较晚的小白们(比如我自己)看的,大神可以直接路过无视了。有一种改进大语言模型(LLM)推理能力的技术:生成知识作为提示的一部分。这种方法由Liu等人(2022)提出,旨在通过让模型先生成相关知识,再将这些知识整合到推理过......
  • oracle设置数据库表空间自动扩展时注意事项
    在设置数据库表空间自动扩展时,需要注意以下几个关键事项,以确保数据库的稳定性和性能:确保足够的可用空间在启用表空间自动扩展之前,必须确保磁盘上有足够的可用空间来容纳扩展后的数据文件。--磁盘组空间占用百分比查询SELECTGROUP_NUMBER,NAME,TYPE,STATE,TOTAL_MB/1......
  • 为AI聊天工具添加一个知识系统 之57前端工具:知识图谱、语义网络和认知地图 之2
    本文要点两种推理:演绎deduction和推论inference这两种推理方式(正推-实践常识和反证-常识批判)分别适用于在语义网络、认知地图工具分别用于肯定-求同(演绎推理-”有限解“必然的推理两种:推论corollaries (可能的)和定论theorems(必然的))和否定-求异(推论推理--”无限解“的可......
  • 几乎是跪着看完AI教母李飞飞的开年巨作!-《AI Agent:多模态交互前沿调查》
    多模态AI系统很可能会在我们的日常生活中无处不在。将这些系统具身化为物理和虚拟环境中的代理是一种有前途的方式,以使其更加互动化。目前,这些系统利用现有的基础模型作为构建具身代理的基本构件。将代理嵌入这样的环境中,有助于模型处理和解释视觉和上下文数据的能力,这是创......
  • 【迁移学习】原型引导领域感知渐进表示学习(prototype-guided domain-aware progressiv
    【迁移学习】原型引导领域感知渐进表示学习(prototype-guideddomain-awareprogressiverepresentationlearningPG-DPRL)(二)【迁移学习】原型引导领域感知渐进表示学习(prototype-guideddomain-awareprogressiverepresentationlearningPG-DPRL)(二)文章目录【迁移学......
  • 【SQL Server】Service Broker——在单个数据库建完成对话
    一般来说,在SQLServer中调用存储过程,是同步的。如果一个操作比较长,那么我们我们希望执行异步操作。消息队列概念。消息队列在SQLServer李,是一种存储消息的结构。消息生产者将消息发送到队列中,而消息消费者则从队列中读取并处理消息。这种机制实现了应用程序组件之间的异步通信,......
  • AI - 大模型的类别对比:LLM,Text Embedding,Rerank,Speech to text,TTS
    以下是大模型的几种类别对比:LLM、TextEmbedding、Rerank、SpeechtoText、TTS。LLM(大语言模型)定义:通过在大规模文本数据上进行预训练,学习语言的规律和模式,获得通用语言理解能力和生成能力的模型。特点:参数量大,计算资源需求高。具有强大的语言理解能力和生成能力......