首页 > 其他分享 >鹅厂存储往事

鹅厂存储往事

时间:2023-04-02 13:01:15浏览次数:53  
标签:QQ 存储 往事 存储技术 鹅厂 腾讯 团队 数据


▉ QZone告急,临危受命

2005年,是中国第二次互联网浪潮的发始之年。刚刚从破碎泡沫中走出的互联网产业,逐渐迎来了“web 2.0”时代。

这个时代的特征,就是去中心化、开放和共享。

越来越多的互联网用户,开始以兴趣为聚合点,组成社群,分享生活,发表观点。他们积极参与话题讨论,渴望获得关注和认同。

在这样的背景下,社交网络应用开始迅速崛起。最具代表性的,就是腾讯推出的QQ空间(QZone)。

鹅厂存储往事_java

QQ空间,作为“展示自我和与他人互动的平台”,推出之后获得了极好的反馈,用户数量快速增长,平台活跃度不断攀升。

根据当时的数据统计,QQ空间上线的3个季度,注册用户数就突破了5000万,月活跃用户数约2300万,日访问人数超过1300万。

用户数量的增长,意味着内容的增长。当时,用户在QQ空间上传的海量图片、文件、头像等UGC数据,对腾讯的存储能力提出了巨大的考验。

当时的腾讯,并没有统一的存储产品和技术平台,各个业务部门都是自建存储系统,自给自足。

这种方式,对于QQ空间这种爆款产品来说,显然是无法满足要求。它带来的直接后果就是,空间开启速度越来越慢,用户体验越来越差,投诉也越来越多。

当时,业务团队购买存储服务器的速度,根本赶不上用户增长的速度。

最典型的例子,就是那时候QQ空间只允许所有用户每天上传800万张图片,只有黄钻用户才可以无限上传。

与此同时,竞争对手窥觑QQ空间的业务增长,很快推出了相应的竞品,意图趁机抢夺用户。

内忧外患之下,一支新成立的年轻团队站了出来,勇挑重担。

这个团队,就是后来被誉为腾讯公司内部“黄埔军校”的存储技术团队。团队的首任组长,就是现在的集团副总裁姚星。

团队成立之后的首要任务,就是解决QQ空间发展所带来的存储瓶颈问题。

当时,面对海量数据存储的难题,不仅是国内,就连海外也没有什么可供参考的成熟经验。唯一可供存储技术团队借鉴的,就是此前谷歌公司发表的那几篇关于BigTable、GFS和MapReduce的论文。

如果稍微了解一点大数据知识,就会知道,这几篇论文是海量数据存储技术的经典之作。谷歌作为一家搜索引擎公司,当时的主要目的,是从昂贵的企业级存储转向大规模廉价分布式存储,以更低的成本,满足搜索引擎业务的需求。

这个目的,显然和腾讯存储技术团队是一致的。

借鉴经验之后,也是团队成立的第二年,他们就上线了自主研发的TFS存储系统,全面接管了QQ空间的相册业务。

TFS系统上线之后,虽然缓解了业务部门的存储压力,但并没有彻底解决问题。当时,系统仍然会出现比较高的延迟,影响用户的体验。

高延时的原因,主要是因为相册业务和搜索引擎业务之间存在区别。相册业务中,图片的数据体量更小,索引密集度更高,所以难度更大,完全照搬搜索引擎模式并不可行。

于是,存储技术团队在TFS系统基础上进行持续改进,推出了适合不同图片存储场景的系统。其中包括支持实时回收的CTFS系统、基于HDD的键值对TDB存储平台等。

终于,在持续的改进下,存储技术团队彻底解决了QQ空间的存储瓶颈问题。

2009年,QQ空间成为排在网络游戏之后的腾讯第二大收入贡献部门,并且获得了该年度的腾讯合作文化奖。

这个成绩的背后,存储技术团队功不可没。

鹅厂存储往事_人工智能_02

2009年腾讯存储技术团队合影

2009年,SNS游戏QQ农场正式推出,掀起了全民偷菜的热潮。当时,农场的访问量巨大,在每秒数万的并发访问下,腾讯的底层存储系统的延时和请求吞吐压力非常大,服务器数度崩溃。

当时的腾讯,基本上把公司所有闲置服务器都用在QQ农场上,但仍远远不够,需要大量采购服务器。

存储技术团队一方面疯狂扩容设备,另一方面基于数据规模不太大但是访问量极高的业务特点,快速研发了全内存的分布式存储系统。在保障数据安全可靠的前提下,系统的并发访问性能得到极大提升。

快速上线、快速验证、完全自研,存储技术团队“hold”住了局面,再立大功。

▉ 一波渐平,一波又起

第一阶段使命的完成,使得存储技术团队积累了丰富的经验。团队成员的架构设计能力和开发能力也得到了充分的锻炼。

很快,他们又迎来了一项新的挑战。这次遇到的,是带宽问题

2011年,在QQ相册等大体量业务快速增长的刺激下,腾讯的数据存储量达到了50PB。

这是一个标志性的事件。

当时,腾讯所有的数据中心都在深圳。那时候骨干网络的带宽很小,QQ相册高峰时占用40-50Gbps,而1G的流量对公司的网络就已经是很大的负担了。

于是,腾讯必须将海量的业务数据分散到全国各地,缓解访问带宽的压力,同时降低成本。

存储平台当时启动了相册一通点等项目,海量业务数据开始从深圳向西安、杭州、广州、上海等地数据迁移,访问带宽也同时调度到天津、南京、东莞等成本更低的一通机房。

当时存储技术团队搬迁的第一台设备,数据量是100TB。在现在看来,100TB并不是很大,但是当时已经是腾讯有史以来最大的一次数据搬迁了。

更让人意料之外的是,存储团队搬迁这些数据的方法,并不是通过专线(因为怕影响公司正常业务),而是通过后半夜闲时的公网出口。他们采用蚂蚁搬家式的数据迁移方法,一点一点把数据拷贝到异地数据中心。

后来,随着数据迁移工作的逐步完成,腾讯存储网络的带宽压力明显缓解,成本也得到了有效控制。

到了2015年左右,腾讯存储技术团队又迎来了一个新的问题——数据太多了。

那时候,腾讯的数据总量逐渐到了500PB的量级。随着时间的推移,此前用户上传的大量数据,都成了冷数据。所谓冷数据,就是很少去读取的数据。

这些冷数据占用了大量的存储空间,为了容灾,还进行多重备份,更加消耗资源。

于是,存储技术团队就开始做分级存储。他们优化了系统的分布式存储架构,研发BTFS平台,把数据从三副本降到1.33份的纠删存储。他们将QQ相册、微云,邮件附件等产品中的历史数据放到BTFS里面去,以此来降低存储成本。

除此之外,他们还在数据访问量不大的存储服务器上做虚拟化,利用空闲的CPU资源跑计算负载,例如图片的编解码等,充分提升资源的利用率。

▉ 微信崛起,存储助力

在QQ空间之后,腾讯TFS系统逐渐开始为QQ、邮箱、微云等提供存储服务,成为整个腾讯的基础数据存储平台。

2013年,腾讯正式发布了微信,开启了新一轮的移动社交网络大战。微信的数据存储需求,同样依赖于TFS系统。

鹅厂存储往事_java_03

用户使用微信,除了文字之外,还会发送海量的图片、音频、视频,甚至红包。这些操作全部离不开对存储系统的读写。发朋友圈也是一样,背后离不开存储系统的支持。

2014年的春节,用户数快速增长的微信,以及它背后的TFS,迎来了一场载入中国互联网发展史册的大考——有史以来第一次的红包大战。这场大战当时有800万用户参与,业务团队和存储技术团队感受到了前所未有的压力。

压力最大的时刻,就是大年三十晚上12点那个时间段,数以亿计的用户会发送祝福,造成井喷级的高并发数据读写需求。如果系统能力不足以应对,就会全面崩溃,影响用户体验,损害腾讯和微信在用户心中的形象,失去用户的信赖。

为了应对这种情况,存储技术团队对系统进行了能力深度挖潜,竭尽全力将磁盘的读写能力开发到极致。与此同时,他们联合微信团队制定了各种柔性策略,开发了很多定制化的服务,也专门开发了服务于微信业务的系统。最终,他们承受住了考验,涉险过关。

后来,到了2015年春节,微信月活跃用户达到5亿,激烈的红包大战再次打响。这次,积累了丰富经验的存储技术团队胸有成竹,交上了更完美的答卷。

▉ 业务开放,发力B端

随着腾讯存储系统的不断成熟,加之2012年之后逐渐开始的云计算趋势,腾讯开始考虑将TFS存储业务面向外部开放,服务第三方业务,争夺B端企业用户市场。

初期腾讯云基于已有的存储访问接口和平台架构对外提供服务。经过一段时间的运营,腾讯云发现外部第三方业务在体验、可用性、成本等诸多运营方面有极高的要求。

因此,为支撑云的需求场景,腾讯云对存储的接入层和索引层架构进行重构,架构扁平,模块精简。同时,腾讯云存储开始舍弃私有接口,转为兼容AWS S3接口与功能。

重构后,存储架构的开放能力得到了进一步提升,支撑了腾讯云COS(Cloud Object Storage)业务近几年的发展。

在腾讯看来,对云的理解是不断加深的过程。他们认识到,仅有不错的存储平台并不够,必须深入研究各个行业的需求场景,提供功能、性能、质量和价格要求不同的服务,才能够获得用户的认可。

▉ Yotta问世,无限赋能

2017年,腾讯云的数据量突破一个EB,成为腾讯存储历史上的一个标志性节点。

为了应对未来云计算业务的挑战,腾讯存储团队开始了一个宏大的计划——启动全新的存储架构平台YottaStore的开发。

最开始的时候,存储团队内部打算给新平台取名为BlobStorage。Blob的意思是一大块连续的二进制数据,像一个视频文件就是一个Blob数据。

显然,这是大家印象中程序员的”正常操作”,但最终这个名字被确定为YottaStore。

对于做存储的同学来说,经常会跟GB、TB、PB、EB这些概念打交道。现在全球互联网巨头公司的数据量基本都是在EB这个量级。EB上面是ZB,全球互联网巨头数据加起来也就几个ZB。ZB再往上,就是YB,也就是YottaByte。目前全世界所有的数据加起来,也不超过一个YottaByte。

毫无疑问,这个名字体现了腾讯对这个系统的期待,寄予了厚望。

除了足够大之外,Yotta的中文译名是“有他”,可以给人安全可靠放心的感觉。在腾讯内部,就有“存储有他,能力无限”的说法。

YottaStore从2018年开始启动研发,2019年正式上线,完全由腾讯自主研发完成。上线同年,就获得了公司级的业务突破奖。

作为一个云存储系统,YottaStore的能力可以说是非常强悍:

  • 集群规模

YottaStore是一个云原生的数据存储系统,这个系统的理论极限是一个集群可以管理超上千万台服务器。而要管理这上千万台的机器,元数据管理只需要用600G左右的空间,仅用一台机器就能存下索引结构,这在业界绝无仅有。

  • 资源利用率

当集群规模非常大的时候,1%的剩余空间量都非常大。所以,YottaStore将硬盘利用率提升到很高的水平,配合实时回收机制,有效数据占比达90%以上。这在业界非常少见。

另外,由于大集群的全集群均衡能力,服务器资源使用均衡,所以资源使用率也可以做得很高。服务器硬件可以最低位配置,所有尖峰流量在这个超大的池子里,波澜不惊。

所以,无论是成本,还是服务能力,都很大程度受益于超大规模集群带来的红利。

  • 灵活性

YottaStore单集群可以零研发成本同时支持各种不同的冗余模式,像两副本、三副本、四副本、五副本,任意的EC编码,任意的M、加任意的N、任意的算法;单AZ、双AZ、多AZ,也都可以灵活支持。

另外,整个集群可以自适应各种各样不同的机型,包括JBOD;各种硬盘介质,如磁带、HDD、SSD等,存储的拓扑结构、混合部署也都可以任意指定。

这样的灵活性在业界首屈一指。

  • 运营能力

以存储节点迭代升级为例,十万百万规模的一个集群,上线升级速度都是一样的。如果是同构的数据格式,分钟级就可以完成整个升级过程。如果是异构的数据格式,集群可以在短时间内自动将数据格式透明收敛到最新版。

  • 可用性

可用性达到“数个9”很容易,但是达到100%非常难。例如机房网络抖动,如果容错做的不够好,就很容易出现失败。

YottaStore开始上线大规模支撑业务的前三个月,一直维持100%的可用性。到现在一年半了,系统一直单人值周零故障运行,在业界是极少见的。

  • 成本控制

基于前文所述的在超大规模集群和超高资源利用率上的技术突破,随着资源利用率的增高,YottaStore的单位存储成本不断降低。

磁盘容量扩大,单机磁盘数变多,密度增高,成本也随之降低。此外,CPU、网卡等新硬件的变化都会导致成本降低。

针对海量小文件的用户场景,YottaStore采用多种冗余和数据组织策略持续优化成本。

综上所述,YottaStore是一个拥有强大能力的超级存储架构平台。目前,YottaStore已经全面上线并支撑腾讯内外部的存储业务,运行质量远超SLA。

基于YottaStore存储系统的腾讯云对象存储COS平台,正在为快手、OPPO、小红书、海康、猎豹、58同城等几十多万个企业客户提供可靠的存储服务,整体数据量高达EB级别。

▉ 结语

回顾腾讯存储技术的整个发展历程,不由令人心生感慨。

15年前,腾讯存储团队成立的时候,一定不曾想到,自己会走过这么蜿蜒曲折的发展之路。

他们不会想到,自己所在的公司会推出比QQ空间更爆款的产品,自己会面对更严峻的考验。

他们不会想到,自己的使命,从服务内部,到服务外部,从服务C端,到服务B端,不断转变。

他们不会想到,自己开发的存储系统,数据体量规模竟然会从PB到EB,覆盖全球范围内30多个region,拥有上万台服务器。

他们不会想到,自己所在的团队,会成为整个公司的“黄埔”军校,走出了无数的技术专家和管理干部。

时代就是这样,前进的步伐太快,永远超出常人的想象。

能够拥有这样的成绩并非偶然。成绩的背后,既离不开他们对用户需求的精准把握,也离不开对产品性能的极致挖潜,更离不开对技术梦想的执着追求。

存储的战争还没有结束,只是进入了一个新的阶段。

未来,有新的挑战在等待着他们。也有新的机遇,在召唤着他们。再过15年,又会发生什么样的故事?不如让时间来告诉我们答案吧。

—— 全文完 ——

鹅厂存储往事_腾讯_04

标签:QQ,存储,往事,存储技术,鹅厂,腾讯,团队,数据
From: https://blog.51cto.com/u_15997080/6164675

相关文章

  • Springboot 系列 (26) - Springboot+HBase 大数据存储(四)| Springboot 项目通过 HBase
    ApacheHBase是Java语言编写的一款Apache开源的NoSQL型数据库,不支持SQL,不支持事务,不支持Join操作,没有表关系。ApacheHBase构建在ApacheHadoop和ApacheZookeeper之上。ApacheHBase:https://hbase.apache.org/HBase的安装配置,请参考“Springboot系列(24)-......
  • mysql - 存储过程
    定义存储过程(storedprocedure)是一组为了完成特定功能的SQL语句集合,经编译后存储在服务器端的数据库中,利用存储过程可以加速SQL语句的执行。分类存储过程分为系统存储过程和自定义存储过程。1)系统存储过程在master数据库中,但是在其他的数据库中可以直接调用,并且在调用时不必在存......
  • 总结的面试题、数组下标为什么从0开始、数组名中存储的是什么、数组的元素如何存储
    系列文章目录文章目录系列文章目录第一题第二题第一题详细解答链接:https://mp.weixin.qq.com/s/N1Mj3DLbFkZeT5hVR05eNA第二题数组的存储:1、数组下标为什么从0开始?下标表示的是这个元素的位置距离首地址的偏移量2、数组名中存储的是什么数组名中存储的是数组在堆中一整块区域......
  • 什么是列式`存储,一文秒懂
    什么是列式`存储,一文秒懂,为什么MaxCompute采用列式存储?列式存储和行式存储的主要区别在哪从数据存储讲起我们最先接触的数据库系统,大部分都是行存储系统。大学的时候学数据库,老师让我们将数据库想象成一张表格,每条数据记录就是一行数据,每行数据包含若干列。所以我们对大部分数......
  • 华为08机往事
    08机,是华为90年代初自主研发的一款产品,全名叫做C&C08。现在搞通信的年轻人,应该没怎么听说过这款产品。但是,在很多年前,这款产品遍布中国的大江南北,在通信圈内几乎是无人不知无人不晓。直到今天,在极少数的运营商机房和学校实验室,仍然能够看到它的身影。华为C&C08机柜对于华为来说,这款......
  • 数据的存储
    1、内置类型:char、int、short、long、float、double   决定了开辟内存空间的大小   决定了内存空间的视角2、整形家族   ①char:127至-128(123...126127-128-127-126...-2-101)    unsignedchar:0至255    signedchar:127至-128  ②i......
  • 《做一个不背锅运维:理论篇:让我们一起鲁克鲁克——rook(开源存储编排)》
    写在开篇本文结合了官方文档对rook的知识点做了一个梳理,帮助有需要的朋友快速入门,本篇不讲实战操作,下篇再讲。官方文档:https://rook.io/docs/rook/v1.11/Getting-Started/intro/什么叫面向K8S的开源云原生存储面向Kubernetes的开源云原生存储通常是指支持Kubernetes本地对......
  • nginx文件存储
    yuminstall-yhttpd-tools htpasswd-cb/etc/nginx/htpasswdmynginx123456 auth_basic"Pleaseentertheusernameandpassword";#这里是验证时的提示信息auth_basic_user_file/etc/nginx/htpasswd; location/{  if($request_filename~*^.*?\.(txt|pd......
  • 云存储继续火 Symform获1100万美元融资
    今年云储存火了,雷锋网昨天刚介绍一家云储存公司Terascala获1400万美元融资,今天一家云存储公司Symform也宣布融资1100万美元,由WestRiverCapital领头,已有投资人OVP及Longwo......
  • SpringBoot中集成Redis实现对redis中数据的解析和存储
    场景SpringBoot中操作springredis的工具类:https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/108335645上面讲的操作redis的工具类,但是对于redis的集成并没......