证明算法比服务器值钱,京东云用了19天

如果说珠峰是每一个攀登者毕生最想征服的山峰,唯有登顶珠峰才够资格放出一览众山小的豪言,那么春晚就是每一个科技公司的终极挑战 。
但作为 ” 云计算的珠峰 “,央视春晚数百亿次的互动量对谁都是前所未有的技术挑战 。在春晚流量洪峰的特大暴雨面前,连 618、双 11 顶多只能算大雨 。
所以,没有金钢钻,别揽瓷器活 。
2019 年春晚,208 亿次红包互动,百度将整体系统拆解成四大业务系统,以及大量基础设施与服务,再通过一系列方案保障体验无卡顿 。
2020 年春晚,639 亿次红包互动,快手依靠大面积优化业务逻辑,通过 5 道 ” 闸门 ” 层层控制洪流加以应对 。
2021 年春晚,字节跳动依靠火山引擎和飞书的双剑合璧确保不宕机 。
到了虎年春晚,摆在京东面前的却是史无前例的挑战:备战期历史最短、互动期历史最长、并发流量全球最高、场景全球最复杂 。雪上加霜的是,行业过去每年惯用的策略——增加服务器资源,这一次京东也无法实施 。
但即使面对重重困难,京东还是确保 691 亿次红包互动无卡顿宕机 。这背后有什么故事?京东云又是凭什么保障春晚红包互动的丝滑体验,征服 ” 云计算珠峰 “?经历了春晚重峦叠嶂的 ” 九九八十一难 “,今后还怕什么?
不得不面对的现实
1 月 5 日,京东被确定为虎年央视春晚红包互动伙伴,但面临的却是历史上最难发的一届红包 。最令人头疼的是,互动 1 月 24 日就开始了,他们必须在创下历史最短纪录的 19 天备战期内,与时间展开一场 ” 生死竞速 “ 。
此前,同行们之所以能扛住流量洪峰,一个关键前提在于储备了足够多的服务器——有的采购三倍于电商双十一的资源,有的除自己准备 12 万台服务器外,还与各大云厂商联手,集各家资源才最终共同保障春晚 。
【证明算法比服务器值钱,京东云用了19天】但通常,服务器的备货周期是 8-12 周,再加上物流和上架部署,整个周期一般耗时 3 个月左右 。更要命的是,受疫情影响,全球服务器出货量多次出现增长疲软甚至下降,新的服务器储备极度紧缺,就算买家有钱,也制定了完美的调度和运输方案,但依旧难以在短时间内新增服务器 。
显然,虎年春晚,京东云没有这个时间,必须面对无法新增服务器的现实 。
京东云数据中心负责人就透露,他们为 2021 年 11 。11 购置的服务器,直到 2022 年春节时仍未到货 。无法购置新 ” 武器 “,没法加 “Buff”,还要在全球最大规模流量洪峰和最复杂的交易场景间游刃有余,确保用户互动购物体验顺爽丝滑,这是春晚红包互动史上前无古人的终极 ” 大考 “,京东云真的能扛住吗?
再现三元桥 ” 换桥奇迹 “
事实上,摆在京东云面前的困难,还远不只是没资源这么简单 。
在不加资源的前提下,一方面要扛住高并发,一方面还要确保购物配送等供应链场景的正常履约,在短时间内要为春晚项目搭建一个全新的数字底座,还不能影响日常业务 。
时间短,任务重 。这个场景让笔者联想到一个典型案例,即堪称传统基建奇迹的 ” 三元桥 43 小时换新桥 “ 。
三元桥日均车流量 20 。6 万辆,高峰时每小时 1 。3 万辆车从桥上驶过,但由于长期的超负荷荷载和自然老化,桥梁下挠,主梁刚度下降 27% 。
为避免交通中断、影响出行,专家反复论证后,决定采用整体置换技术——将工厂预制好的钢梁运抵现场,再拼装为整体,实施整体置换 。但要将长宽数十米的钢梁整体 ” 挪移 ” 到原桥墩台上,且落下瞬间的精度误差控制在 20 毫米之内,精确测控上的挑战可想而知 。
虎年春晚对京东云来说,同样是一道数字新基建领域的 ” 世界难题 “ 。
数百亿次互动,数十秒的集中点击,数十亿人次的同时参与,形成数亿级别的 QPS 流量洪峰,服务器的压力瞬间呈现指数级增长,直接雪崩的也不在少数,京东云面临的难题与三元桥如出一辙 。
在三元桥换桥中的关键是吊装设施,驮梁车像一把巨型手术刀,精准操控旧梁吊离、新梁到位等动作 。再加上北斗卫星、光电导航纠偏,三元桥 43 小时完成换桥,博得满堂彩 。
而在虎年春晚,帮助京东云成功应对全球最大规模流量洪峰和最复杂交易场景的 ” 秘密武器 “,正是京东云原生基础设施和混合云操作系统云舰(JDOS) 。
云舰的独特优势在于,能最大化地屏蔽底层基础设施差异,将所有资源 ” 辗转腾挪 “,集中到一个超大 ” 蓄水池 ” 中,变身整装待发的军团 。
云原生架构虽能让资源得以快速集中,但难点也在于精确预测——必须在 4 小时内将资源快速敏捷地腾挪到需要的地方,切换所用时间还必须控制在 1 秒钟,否则应用就会有感知 。
在云舰上,扮演着精准起重、部署千万核资源的超级 ” 驮梁车 ” 角色的,则是阿基米德智能调度系统 。阿基米德系统也像一把高科技手术刀,在秒级时间内,敏捷调度超千万核资源,迅速集中流量洪峰,极速交还流量回落 。值得一提的是,和三元桥换桥中所用驮梁车为国产研发一样,阿基米德智能调度系统是京东自主研发 。
除夕当晚,依托阿基米德系统,京东云分别在晚会开始前、结束后完成 ” 日常模式 – 春晚模式 – 日常模式 “2 次大规模资源腾挪,并在春晚模式中,伴随主持人的 7 次抢红包指令,实现京东交易场景与春晚红包互动场景大小 16 次精准资源腾挪 。
虽然只备战 19 天,又没有新增服务器,京东云却成功扛住全球最大规模流量洪峰和最复杂场景——总共 691 亿次红包互动 。整个过程,用户体验顺爽丝滑,没有丝毫的卡顿,这是云计算历史上的首次,也刷新了云原生超大规模实践的纪录,创造了数字新基建的中国速度 。
京东云内部人士透露,这得益于云舰系统灵活地将客户暂时闲置资源等算力充分利用起来,最终腾挪出 300 万容器,从容应对近 700 亿次的互动量 。
这意味着京东云不仅 0 新增服务器,还以领先的云原生架构将资源利用率提升至其他厂商的 4 倍,成功抗住春晚脉冲式流量洪峰,从而将春晚的作战理念从 ” 拼资源 ” 迭代为 ” 拼架构 “ 。若干年后再来回看,2022 虎年春晚,无疑将成为云计算历史的一道分水岭 。
” 蚂蚁雄兵 ” 与 ” 走钢丝 “
对于传统基建能力来说,三元桥 43 小时换桥,离不开驮梁车等硬件能力的巨大进步 。而对于京东云 19 天极限技术备战春晚,则更多的体现了中国数字新基建的软实力 – 高效协同 。
由于年货节、冬奥会等重点项目并行,春节期间,近万名京东研发工程师在岗 。不只人多,需求也复杂—— 100 多个敏捷团队的需求要拆解和协同,600 多个上下游系统得快速交付,300 万核机器需快速扩容,所有这些都是对京东软实力的巨大考验 。
如果说服务器资源考验的是硬件能力,那么复杂系统协同考验的就是软性能力 。万人协同、快速联动,对任何一家科技公司的软件系统都是巨大的挑战 。
但仅用 1 天,近万名京东技术人员就像蚂蚁雄兵一样,快速拉齐目标、规划、关键节点和交付物 。
如何做到的?
这就不得不提京东云自研的研发协同平台——行云 。在行云的支持下,横跨多地、多部门的万名技术人员,均可做到需求日结日清,扩缩容以小时为单位跟进,最终在 2 天时间内,将 600 多个需求迅速被拆解并解决 。
如此复杂的系统协作,留给资源反应的时间仅仅是 1 秒,之所以能做到 ” 万无一失 “,源于京东云团队在春晚之前进行了 7 轮高保真全链路压力测试,以及名为 ” 捣乱计划 ” 的故障注入行动,总之模拟各种故障场景,不断给系统施压,校验系统的抗压能力 。
用京东云基础设施研发部高级总监、春晚项目 IDC 基础保障负责人常亮的话说,仅应急剧本就有 61 页,超 2 万字,如此高强度的压测,就像把自己逼着走钢丝一样 。
与动辄几个月、大量人员参与的传统压测不同,京东云在云泰全自动压测系统支持下,能自动编排场景,按需、实时扩容,支持数百万级并发测试 。这就为测试争取了宝贵的时间 。如果系统出现问题,全链路监控平台会在第一时间发出报警 。平台可精确分析每一次系统调用的消耗情况,极致优化挤压计算资源,检测每一个硬件及系统、代码可能存在的隐患,将 Bug 控制到最少 。
除了多年大促所积累的实战经验的帮助外,京东万名工程师能够如此严丝合缝地协作,更离不开在大促备战过程中沉淀的标准化、自动化平台的助力——有了后者,京东能将春晚备战从传统的人肉作战、资源推砌变为敏捷协同、精准解决 。
此外,得益于京东多年沉淀的积木化 IT 和全面容器化经验,京东的数字底座可以像乐高积木一样快速拆解,完成活动的楼层搭建和场景添加,从而极大提升项目的开发效率 。
正如京东集团副总裁、京东云基础设施研发负责人符庆明所说:
” 春晚像是一场‘大阅兵’,检阅了我们的技术产品、服务保障以及组织动员能力 。这是行业首次依靠资源切换实现超大规模的计算资源变阵的实践 。19 天筹备、秒级超大规模资源切换、上万研发工程师高效协同,展现了新基建的中国速度 。研发团队选择了一条以技术能力深挖算力潜能的低碳高效之路,实现了服务器能效利用的最大化 。”
春晚 ” 珠峰 ” 只是起点
很多人有疑问,为什么科技公司都争先恐后地与春晚合作发红包,春晚一战到底为这些公司留下了什么?
其实当前在疫情冲击、人口红利减少、传统基建边际效益变弱、全球气候变化等诸多背景之下,中国进入高质量发展轨道,新旧动能加速转换,经济数字化快马加鞭,绿色低碳模式成为大势所趋,各行各业数智化转型已经迫在眉睫 。
作为一家新型实体企业,京东成长于实体经济,发展于实体经济,服务于实体经济 。而从京东过去二十多年数智化转型复杂场景实践中锤炼成长起来的京东云,也与京东一同走进 ” 千行百业 “,为数以百万计的大中小微企业提供数智化解决方案,帮助他们实现数智化转型,并最终成长为 ” 最懂产业的云 “ 。
作为全球历史上最复杂的场景,虎年央视春晚红包互动不仅是对厂商云计算弹性资源管理、资源极致利用等能力的检阅,也对各行各业在未来如何面对高峰流量未知、时间紧张、资源有限、场景复杂等环境,最大化发挥数字化能力与价值的练兵 。
京东云用云原生基础设施和混合云操作系统,以及自身强大的资源利用率,向整个云计算行业证明——不加服务器、不拼资源,仅仅依靠云原生架构,依旧可以成功登顶 ” 云计算的珠峰 “,创造新基建的中国速度 。
2020 年中国数字经济规模已经达到 39 。2 万亿元,占 GDP 比重达 38 。6%,实现 9 。7% 的高位增长速度,已经成为稳定经济增长的关键动力 。
未来,随着高质量发展的深化、ESG 理念的落地,各行各业产业降本增效需求更彻底地释放,中国数字经济规模将进一步扩大,数实融合将愈演愈烈,将有越来越多复杂的产业数字化场景等待攻克 。
经此一战,京东云不仅引领云计算行业进入 2 。0 时代,将每一个行业、每一家企业的数字化从单纯的 IT 基础设施替换带入通过数字原生更敏捷地支持场景应用的新阶段 。
” 跨越珠峰 ” 之后,中国云计算行业将作为全新的数字底座,进一步深入到千行百业当中,服务各个企业、各个行业的数字化转型,助力中国经济新旧动能转换、数实融合和高质量发展 。

    推荐阅读