云计算基础设施软硬一体化,腾讯云如何“旧路新走”?

云计算正迎来属于它的黄金十年。
中国信通院数据显示,2019年,全球云计算市场规模达到1883亿美元,增速20.86%。预计2023年市场规模将超过3500亿美元。在国内市场,2019年云计算市场规模达1334亿元,增速38.61%。其中,公有云市场规模达到689亿元,较2018年增长57.6%,规模首次超过私有云。
云计算历史性发展的背后,是一部产业变迁史。IT基础设施从主机时代的集中,到PC时代的离散,云计算的兴起,再一次将IT基础设施集中化,IT产业似乎也在遵循着“否定之否定”的钟摆定理。
随着算力趋于集中,云计算基础设施也在经历新一轮的变化。软硬一体,一个不甚新鲜的词汇,在不同时代却有不同的内涵,云计算时代的软硬一体如何演进?
腾讯云自研服务器上新
坚定战略布局
在腾讯2020 Techo Park开发者大会,腾讯云重磅发布星星海首款自研GPU服务器和星星海新一代自研双路服务器,后者也是国内首款搭载第三代英特尔至强可扩展处理器(Ice Lake)的双路服务器。
早在2019年10月份,腾讯云就发布了首款基于AMD平台的星星海服务器,持续不断地发布自研硬件新品,说明腾讯云绝对不是“玩票”性质。
星星海首款自研GPU服务器在设计上实现了全球首创,机框最短,适配主流机架,在同一框架内可以灵活更换主板,并且支持多平台兼容。同时结合业务对PCIe带宽要求低的特点,支持16卡GPU+4路intel服务器,达到业界最高密度,可大幅降低单卡TCO。
星星海新一代自研双路服务器率先采用第三代英特尔至强可扩展处理器,经测试,星星海新一代自研双路服务器通过深度优化定制,计算密度提升50%;通过高性能散热器和研发创新独立风道设计,散热方案支持CPU功效提升45%;基于增强的可靠性、可用性和可服务性(RAS)技术,可多维度全覆盖故障诊断、精细化定位等问题明确故障,使宕机率减少50%。
那么,腾讯为什么要做自研服务器?
腾讯云服务器与供应链管理部总经理刘裕勋强调,腾讯做硬件从来不会单纯的跟风,而是结合自己的实际情况做演进。腾讯服务器从零到超百万台,二十年时间可分为三个时期,2000年到2010年阶段的PC互联网阶段,2010年到2016年的移动互联网阶段,以及2016到现在的云时代。
不同时期的业务矛盾特点不一样,早期以QQ业务为核心,业务类型比较单一,依靠服务器的增加就能解决;到了移动互联网时代,腾讯开始爆发式增长,社交、游戏、视频、微信等内容产品快速崛起,不同业务架构复杂,催生了硬件定制化需求,如存储服务器等。
“现在腾讯走上了自研服务器的道路,内部架构会逐步趋同,趋同的情况下我们有更好的办法做更通用的硬件定制,我们要考虑更好的性价比和更稳定的质量。这是腾讯做服务器的初衷。”刘裕勋说道。

腾讯运营管理部总经理陈铁钢也表示,过去服务器的研发周期长达一年左右,腾讯将所有业务架构的团队和服务器团队集中在一起进行评测,软件团队和硬件团队协同,找到最佳适配的平衡点,从而大大缩短了服务器的研发时间。

“单纯依靠硬件不能满足业务所有负载,比如高密度服务器的存储I/O能力会成为业务瓶颈,腾讯通过提供PaaS平台解决了这个问题,用户虽然感知不到,但是已经在享受软硬一体带来的好处。”陈铁钢说。

软硬一体,腾讯补充全局版图
“2018年‘930’变革之后,开源协同和自研上云就成为了腾讯未来在技术演进上面大的战略调整。通过自有业务,比如微信、QQ、广告、大数据等等海量规模业务上云,不断打磨腾讯云的PaaS和IaaS层面能力,来真正的做到软硬一体化协同。”刘裕勋介绍。
真正的软硬一体协同,当然不是只有服务器。腾讯式软硬一体,是以全新自研服务器产品为核心,围绕网络、存储和运维等细分领域提供多样解决方案,打造面向下一代的云计算基础设施。
“云计算客户都希望采用低成本、高质量的产品,客户的需求推动我们去做更多的变革和演进。基础设施领域不仅是服务器,还包括数据中心和网络等,腾讯正在系统性推进整体布局,得益于腾讯的技术变革,在这样的战略转变下大家能够更好的合作,这也是腾讯能够把基础设施做得很好的一种方式。”陈铁钢表示。
比如云网络面临着性能压力、运维压力和可运维性方面的挑战,对此,腾讯云通过可编程芯片硬件的解决方案使得网络带宽提升的同时,成本缩减约为原来的三十分之一。
传统网关升级通过冷升级的方式,依赖上联交换机的hash能力和underlay网络路由收敛时间,而腾讯云可编程芯片硬件解决方案通过单节点热升级的方式,onl控制面把配置按照数据面格式固化在内存存,利用tonfino dma控制器,升级后reload配置,整个热升级过程可以控制在20ms之内。
而在网络存储虚拟化软硬协同方面,腾讯云推出了下一代容器网络方案。该方案可无缝的支持和存量的云主机进行相互热迁移,能快速进行云主机和容器服务部署,并且依托软硬件协同实现的高密度弹性网卡,支持一个 Pod 独占一张弹性网卡,不再经过节点网络协议栈(default namespace),极大缩短了容器访问链路,缩短了访问时延,并使 PPS 可以达到整机上限。
在存储方面,硬盘容量越来越大,故障率和故障恢复时长也随之变长,这会对云上开发带来很大的稳定性挑战。为了给开发者提供更为稳健的云服务,腾讯云通过对硬盘来料质量,运营监控和技术创新等手段进行智能化运营。
腾讯云服务器运营中心专家工程师牛犇介绍,在来料质量方面,腾讯云采取基于业务模型的来料筛选机制,通过云业务模型与硬盘底层参数建模,分析参数统计分布,定制化筛选标准,使得硬盘年化故障率显著降低至1/5。在运营监控方面,腾讯云的硬盘智能监控系统通过多维度硬盘健康评分和AI故障预测,可使硬盘故障提前识别率提升至80%。
据腾讯统计,硬件故障导致的系统宕机中,内存故障占比排第一。腾讯云通过优化算法进行内存筛选、优选X4颗粒内存条、使能多种内存RAS特性等方式大大提升了服务器的可靠性。此外,腾讯云也是业内首家在云计算领域大规模研发部署MCA Recovery技术的云服务商,该技术能够减少40%以上内存故障导致的宕机。
星星海,腾讯ToB必由之路
云计算行业新的黄金十年,也是普惠发展的十年。新基建、数字经济、新冠疫情等一系列因素推动云计算行业竞争愈发激烈,尤其超大规模数据中心的崛起,业务需求倒逼服务器等产品升级,依靠上一形态的产业链分工,已经无法全部满足当下的客户需求。
星星海硬件实验室是腾讯首个硬件工程实验室,该实验室专注于硬件系统架构设计和前瞻性基础技术研究,目前腾讯云星星海已经发布了多款自研硬件产品,包括四款自研服务器和一款智能网卡,并且在计算、存储、网络等全线硬件产品领域申请超过20多项专利。
星星海,取名自青海省果洛藏族自治州玛多星星海,以水为名,取灵动与智慧之意,颇有互联网快速创新的意味。
腾讯是全球最大的几家CSP(内容服务提供商)之一,服务器保有量规模过百万,天然有着业务场景的沃土,可以持续不断的迭代其底层基础设施,随着腾讯从CSP转型云服务商,这些自研能力自然而然对外输出。
据了解,腾讯目前在新增服务器中自研比例达到10-15%,未来腾讯云和腾讯业务对自研服务器的需求将加快提升。
云计算承载的业务规模呈现指数级增长,哪怕万分之一的成本降低或者效率提高,放到腾讯业务上都是肉眼可见的收益,腾讯云给千行百业带来的收益更是无法测算。
可以确定的是,未来云计算的软硬件一体化技术会进一步发展,企业用户呼唤更健壮的云基础设施平台,软硬一体在性能、资源利用率等方面仍有上升潜力。
“云基础架构的复杂度对服务器的质量要求会越来越高,通用服务器的质量管控无法很好满足。不论是部件和整机系统的匹配,还有上层软件的适配,势必需要腾讯和腾讯云的团队,在更加理解底层整机系统包和新兴技术协同的基础上做文章,腾讯不是为做硬件而做硬件,而是腾讯演进过程中必须要走的那一步。”刘裕勋肯定地表示。
海量云时代,谁能为客户提供更加稳定、更具性价比的服务,也就意味着获得了云计算马拉松的身位优势,腾讯云已行至中途。
(0)

相关推荐

  • 【有奖征文】梦想是什么?

    梦想是什么?希望成为怎样的人?这是从记事起,.每个人都在编便在思考的难题,编织着属于自己色彩的绘画天地,或大或小,或多或少,或五彩斑斓或清新自然,各式各样,风格迥异. 随着时间的沉淀,我的这份答卷也由 ...

  • 余承东掌管云业务,华为在打什么算盘?

    余承东已经集华为手机,汽车.云业务于一身. 文 | 于惠如 封面来源 | IC photo 来源 | 全天候科技(ID:iawtmt) "在人工智能和云的建设上,华为公司落后于时代,但是我们 ...

  • 响铃:联想、腾讯巨头携手,“极速计划”建立SIoT又一个堡垒?

    巨头联合.资源互补已成为互联网科技领域下半程重要玩法,一些大佬已经开始行动. 12月24日,联想与腾讯在北京联想总部召开主题为"极速计划"的战略合作签约仪式,双方将围绕内容.产品. ...

  • 酷开15年,创维没想到

    边走边看的酷开,却成了估值百亿的独角兽. " 作者 | 王金旺 出品 | 雷锋网产业组 2014年10月的一天,做电视的创维(酷开)和做手机的华为(荣耀)进行了一次高调合作,这次合作的产物是 ...

  • BAT齐聚数据中心,风口已成,无“脑”不成活

    怎样的风口能让百度.阿里.腾讯齐聚. 在2020年,这个答案或许是--数据中心. 12月15日晚,科华恒盛公告显示拟更名"科华数据",公司认为,目前公司聚焦数据中心发展战略清晰,此 ...

  • 腾讯这个最“能花钱”的公司到底干了什么?

    自今年2月以来,以腾讯为代表的港股核心资产自创新高之后,跟随诸多资产一路回撤,从775的高点已经跌去近20%.上周发布的优秀的年报也没有扭转股价的颓势.那么,从最新财报中能挖掘到什么有价值的信息?腾讯 ...

  • 左手AMD,右手英特尔,腾讯云如何给算力做加法?

    (中国计算机世界出版服务公司出品) 2020腾讯全球数字生态大会期间,腾讯云计算力产品能力矩阵首次集中亮相. 云计算行业的竞争以算力为先,无论上层应用如何演化,算力的基础底座属性不变,头部云厂商往往更 ...

  • 好消息;腾讯云宣布四大国际云计算中心同步开服

    好消息;腾讯云宣布四大国际云计算中心同步开服 腾讯云正式宣布位于泰国曼谷.日本东京.德国法兰克福以及中国香港的四个国际数据中心同步开服,对外提供云计算技术和数字化解决方案.腾讯云在亚洲和欧洲地区构建了 ...

  • 腾讯云Severless:打破云计算的“边际递减”效应

    著名学者霍曼斯提出过一个"边际效应"的理论,是指连续地增加某一种投入,所新增的产出或收益反而会逐渐减少.意思是说,某个行业的发展超出到一定的水平后,追加的投入所带来的产出会&quo ...

  • 腾讯云与中国银联共建银联云:云基础设施迁移如何提升金融公司

    "商业大数据是后续开展各场景服务的基础和前提." 作者:罗宾 编辑:tuya 出品:财经涂鸦(ID:caijingtuya) 据公司情报专家<财经涂鸦>消息,腾讯云与中 ...

  • 从阿里云、腾讯云的同日演说,看云计算的市场未来

    本文来源:物联传媒 本文作者:飞鸟黄 昨日,国内主流平台厂商之阿里云与腾讯云,默契的选择了同一天,各自开了场云平台的专场会. 在云栖大会 武汉峰会,阿里云总裁胡晓明系统地阐述了阿里云的三条生命线,即坚 ...

  • (40条消息) 基于腾讯云的 Rust 和 WebAssembly 函数即服务

    腾讯云云函数 (SCF) 已经支持十多种编程语言和运行时框架.腾讯云最近发布的 SCF custom runtime(自定义运行时)更进一步 -- SCF 现在可以支持用任何编程语言编写的函数. 本文 ...

  • 腾讯云技术支持爱丁堡大学研究教学

    深圳讯    腾讯公司旗下云业务品牌腾讯云5月5日公布,与苏格兰爱丁堡大学签署合作备忘录,将透过云产品及云技术支持爱丁堡大学的研究及教学,以巩固该校于研究的技术发展及人才培训. 腾讯云将为爱丁堡大学的 ...

  • 从一场公益创新挑战赛,透视腾讯云 AI

    腾讯云是腾讯 AI 能力的出口,也是腾讯「科技向善」使命的一面镜子.‍‍‍‍‍‍‍ " 作者 | 肖漫 出品 | 雷锋网产业组 一个不懂编程的人,如何快速开发出一款具有 AI 能力的小程序? ...

  • 20年磨一剑,今天揭秘腾讯云的一个“秘密武器”

    文/科工力量专栏作者 陈辰 过去一年,全球约14亿学生逐渐适应在线学习:上班族几乎没有感到不适就接受了更多的工作通过线上完成. 国内疫情得到充分控制,但是大部分行业尝到了数字化的甜头.在房地产行业,人 ...

  • 云计算两大疑团:阿里云能否登顶?留给others的时间还剩多少?

    2021年4月21日,Gartner发布了2020年全球公有云IaaS市场数据:公有云IaaS市场规模达642.86亿美元(约4178亿人民币),同比增长40.7%. 而在市场高速增长的情况下,另一个 ...