上海“随申码”研发幕后:一艘没有故事的光速飞船

本期采访嘉宾:星环科技研发总监
TGO 鲲鹏会会员 刘汪根

作者 | 王一鹏

2020 年 2 月 7 日,农历正月十四的深夜,中国大部分人正在睡梦中迎来元宵节,度过这“加长版春节”的最后几天。

这一天是个周五,新冠肺炎在全国感染了 9692 人,并有疑似病例 15238 人,但上海的复工潮却即将开始。

与其他人不同,刘汪根在入睡前接到了一通电话。电话里,他得知上海市已准备上线一种可以标注用户感染风险的健康码:随申码 —— 绿色放行,黄色观察,红色隔离,简单有效。

星环科技是上海市相关数据管理单位的基础设施最主要的承办方之一,而作为星环科技大数据云平台的研发总监,他责无旁贷。

周一,随申码就将灰度上线,所以,留给刘汪根团队的时间只有 3 天,工作内容包括研发、测试、多方联调;要求是,实时计算健康码状态,支撑每秒至少 10 万 + 的并发查询。

在刘汪根看来,这就是一个“战争任务”。

右二为刘汪根,他戴着一顶帽子,始终在现场“督战”

3 日战疫

刘汪根以最快的速度爬起床,一边联系团队内的主力工程师们,一边与相关管理部门完成了需求的沟通,同时也很快和管理单位讲解随申码的架构设计和开发过程,与相关合作单位进行细粒度的需求规划。

在随申码项目里,星环科技负责的是底层数据库系统及高并发数据服务的构建,上层移动应用架构则交给并肩作战的其他团队共同完成。随申码的底层数据库服务能力,来自于 TDC(Transwarp Data Cloud,由星环科技研发的智能大数据云平台),这是刘汪根的心血结晶。

刘汪根曾对 TDC 如何实现服务化、应用化做出过长达数年的探索,而随申码项目,就像一场针对平台服务化的综合考试。

随申码的研发现场

差不多在 2 月 8 日的凌晨 1 点,星环科技资深工程师李光跃的电话响了:“我接到老刘(刘汪根)的电话,问我能不能帮忙写一个服务。我当时还在想,怎么这么着急?”

当晚,CEO 孙元浩、研发总监刘汪根等管理层都聚集在现场——那是一个临时开辟出来的办公区,一排排分布着几十个工位,聚集着各层领导和各业务方代表。

如李光跃一般收到通知的工程师,则在深沉的夜里开始远程办公,黎明时分再前往这个小小的“战时阵地”。

久居江南的人,颇了解南方冬天的厉害:“室外冷,室内更冷”——又湿又凉。此时正值疫情发展的高峰期,空调被迫关闭,断绝了采暖,使这场“战争”显得尤为折磨。最开始现场无法睡觉,大家就在椅子上休息,用大衣蒙着头,刘汪根说:“后面才赶紧买的行军床,让大家凑合凑合。”

短暂休息的研发人员

另一大难处在于吃饭,外卖餐饮几乎销声匿迹。刘丽君在星环科技的市场部工作,她曾经赶到现场慰问技术团队,后来回忆道:“桌子上有个写着‘大润发(一家量贩超市)’的袋子,外面散落着咖啡和一些麦当劳汉堡。但大家几乎没有时间吃,每个人都拿着电脑走来走去。”

星环科技的技术团队每 24 小时换一班,有近 30 人实时跟进,刘汪根说:“没听到抱怨的,一般是实在挺不住了,才问:‘能不能换个人……’”

周日凌晨,上层应用已经开始了对底层 TDC 服务的压测。无论中间出现怎样的 BUG 或性能问题,数据库一直都非常稳定。

到了周一,各方压测、联调已经基本结束,随申码开始灰度上线,刘丽君说:“孙总(孙元浩)和汪根(刘汪根)的眼神都有点涣散,他们都熬了两个通宵。”

右一为星环科技 CEO 孙元浩

对于刘汪根来说,随申码项目的压力很大,但并非无法承受。一个很重要的原因是, TDC 产品性能和研发效率已经相当优越,在整个测试过程中表现都非常稳定,一次上线,后面都没有发生变更。

作为 TDC 的主要负责人,刘汪根对其倾注了相当多的心血,以至于从 2018 年开始的一段时间,他经常失眠:“有一段时间我经常睡不着觉,所以我两鬓白头发特别多,做数据 PaaS 平台有太多需要思考的内容,技术方向、目标场景、产品质量,都要去想。”

“老刘”的失眠,TDC 的生长

那段失眠的时间,他思考最多的是 TDC 的发展方向问题,有时候想的兴奋了,就睡不着了;想到苦恼的问题,就更睡不着了。

“最早在大数据领域,只需要解决几个核心场景的数据问题,比如建设数据仓库、数据湖,做好数据的存储、管理、调用,事情差不多就解决了。”刘汪根补充道,“但接下来,我们发现的问题是数据要深入服务场景,让所有人都能使用,这就是服务化。而大数据要做到服务化,最好的方式就是云化。”

在 2014 年前后,大数据平台服务化,在整个行业都没有较好的落地形式——虚拟机的支撑效果很差,实体服务器的价格又比较昂贵。

在容器技术尚没有进入业界主流视野的时刻,包括刘汪根在内的星环科技技术管理者,已经觉察到这可能是一个非常好的大数据系统云化的主体。

他们在 2015 年开始技术预研,并在几个月内完成了系统原型的构建。与物理机相比,基于容器技术构建的数据库性能没有明显损失,而相对于容器化架构,采用虚拟化方式则有超过 30% 的性能下降,于是再没有犹豫,大家坚定的选择将大数据的云服务构建在容器化 + Kubernetes 之上,并深度研发了底层的数据中心操作系统(Transwarp Cloud Operating System)。

但与技术结论相反的是,早期部分客户出于谨慎考虑,并不都是看好容器技术的实践。

“最开始也有客户说:‘容器技术才出来啊,不够好,不够稳定,你就给我维护个不用容器的老版本好了’”,刘汪根苦笑道,“但时间证明了我们的选择,到了 2018 年末,这种声音基本消失了。对于星环来说,尤其对于我来说,有一件事情是坚守的:始终要把底层数据平台这件事情做好,把底层核心的东西做好,这可能是一种坚守吧。”

这种坚守使得星环科技已经成为业界第一个使用容器编排技术实现大数据和 AI 服务弹性化的公司,可以借助容器技术无缝链接私有云、混合云和和边缘计算,为三者提供统一的计算平台。

在国内,To B 行业还处在早期发展状态,像刘汪根一样的技术 Leader 往往需要不知疲倦地赶路,翻过一座山,却发现面前还有一座山。

构造一个大数据云平台是技术问题,实现一个真正意义上的云服务则是理念问题。

现在,TDC 已经开始探索第三个阶段:使用数据云技术打通各地数据中心,实现大型基础设施的互联互通。

听起来,刘汪根又要失眠了,但 TDC 也不停的成长。

没有故事的光速飞船

坚守底层核心技术的企业往往矗立互联网花边舆论之外,它没有漂亮的 PPT,没有“语不惊人死不休”般的媒体言论,也从不卷入大佬的朋友圈互撕。它缺乏故事,沉默、硬核,对技术突破习以为常。

2018 年,星环科技成为全球第一家通过 TPC-DS 测试的大数据企业。对此,刘汪根却认为此事是“理所当然”:“对于公司很重要,对我们研发内部倒是没什么感觉,说实话,因为那个基准测试天天在我们研发集群里面跑,然后某天发布了一个报告,说我们测试通过了。”

实际上,在星环科技刚成立的年头, TPC-DS 只是一把测量性能的“尺子”,被这群硬核工程师于不知不觉间跑通了。后来公司参加 Strata + Hadoop World(现更名为 Strata Data Conference)大会时,正巧 Cisco 的展位就在旁边,于是双方一拍即合,Cisco 提供 UCS 服务器,星环科技提供数据库软件,就这么“随随便便”地通过了 TPC-DS 官方测试。

“只不过测试周期比较长。“刘汪根总结道。

TPC 官网展示的测试通过记录

作为市场人,刘丽君“吐槽”道:“他们(技术团队)真的有点像一群专注于技术的直男,所以这些成绩在他们看来都是理所当然的事情。经常有许多领导或客户到星环科技参观,一般公司的员工会注意避开参观区域,但我们公司的技术人就像完全不知道一样。”

李光跃也开心地验证了刘丽君的吐槽:“对我们没有太大影响,一般公司群里会通知下,但也就象征性地看看。”

右一为李光跃,正在同团队一起办公

有一次,刘丽君以技术认证为主题,写了一篇关于 TDC (Transwarp Data Cloud,刘汪根主导研发的大数据云平台)的 PR 稿件,发送给刘汪根确认。因为某处描述存在微小的不严谨问题,刘汪根 diss 了刘丽君一顿,并建议她改进工作方法。

在其他公司内,事情本该到此为止。但随后,刘汪根居然认真讲起工作方法的重要性,并将一份关于“工作方法”的 PDF 发给了刘丽君,让其哭笑不得。

这一切仿佛展示了一个有关于技术人的乌托邦 ,其质感如同这家公司及其众多产品的名字:

公司名:星环科技 ——《三体》里第一艘人造光速飞船;
产品 TDC、TDH:Transwarp —— 超曲速,曲速引擎的高阶形式;
AI 平台:Sophon —— 《三体》里三体世界派到地球的智能粒子;
流计算平台:Slipstream —— 《三体》和《星战》中里超快的曲速引擎;
数据库开发 IDE :水滴 —— 《三体》里外星人的探测器;
……

在这艘光速飞船里,很少出现惊心动魄的故事,有的只是无数个“理所当然”。

假象的《三体》水滴 作者:zaoeyo@站酷

(0)

相关推荐