数据猿专访 | Kyligence联合创始人兼CEO韩卿:解密中国大数据界的“神兽”

<数据猿导读>

Apache软件基金会支持孵化的项目300多个,顶级项目162个。而Apache Kylin是其中唯一一个由中国团队贡献的顶级项目。数据猿记者有幸采访到Kyligence公司联合创始人兼CEO韩卿,了解到Kylin是如何从社区做到顶级项目的许多幕后故事

来源:数据猿  记者:张叶

麒麟,不践踏生长的草,也不吃其它生物,是中国古神话“四灵”之首。古人认为麒麟现世寓意着太平盛世的到来,那么作为新兴之业的大数据,如果业内出现这样一头“神兽”,是否也预示着即将出现祥瑞之态呢?

随着以Hadoop为代表的大数据技术普及,越来越多数据被收集、存储起来。而传统商业智能(BI)分析工具及数据仓库技术往往存在很大局限性,且利用Hadoop做交互式数据分析也有诸多障碍,在Hadoop生态中缺乏很好的数据仓库与BI解决方案使得分析师能够在新的技术栈上继续使用他们喜欢的工具和分析技术。如此背景下,Apache Kylin(麒麟)分布式分析引擎技术应运而生。

Apache Kylin能提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力,支持超大规模数据在亚秒的交互式分析查询。在《魔方大数据(10):大数据预测技术的应用与发展》活动上,数据猿记者有幸采访到Kyligence公司联合创始人兼CEO韩卿,了解到唯一来自中国团队的Apache顶级开源项目Kylin的许多幕后故事。

韩卿,Kyligence 联合创始人兼CEO,Apache Kylin联合创始人及项目委员会主席,也是Apache软件基金会首位来自中国的顶级项目副总裁;曾任eBay全球分析基础架构部大数据产品负责人、Actuate中国首席顾问、卓越动力华东区技术总监,在大数据、数据仓库、商业智能、可视化情报分析等领域拥有丰富经验。

唯一来自中国的Apache软件基金会顶级开源项目

记者在前期背景调查时发现,Apache软件基金会支持孵化的项目300多个,顶级项目162个(所有顶级项目都需要经过孵化才能毕业称为顶级项目)。而Apache Kylin是其中唯一一个由中国团队贡献的顶级项目。

韩卿告诉记者,2013年他在eBay工作时发现,很多企业利用Hadoop进行数据处理之后还需要将数据复制回数据仓库,而传统数据仓库无法储存体量庞大的数据量,即使可以存储,成本也非常高。在调研和测试了非常多开源的、商业的解决方案和技术后,没有一种可以解决这个问题。换言之,行业内缺乏针对超大规模数据集上快速交互分析的解决方案。

于是,韩卿团队决定自己研发,从无到有地打造大数据平台上的超大规模数据分析技术。而且从一开始,整个团队的成员全部是中国人,整个项目的设计、规划、架构及研发都在中国完成。经过一年多时间的艰苦研发和案例验证,2014年10月,在eBay内部生产系统正式上线后,Kylin技术在Github平台开源。

Kylin开源后业界反响热烈,许多大公司陆续开始使用这项技术。与此同时,很多业内专家也邀请他们加入Apache孵化器以获得更好发展。2014年11月,Kylin加入Apache社区称为孵化器项目,项目名字也正式改为Apache Kylin。

“由于东西方文化差异,刚进入社区的时候我们很多东西不明白,特别是西方的文化、流程等,但慢慢地我们适应并学会了西方开源社区的规则并融会贯通,最终获得了整个Apache社区和基金会的认可。在这个过程中,我们克服了许多难题,也获得了宝贵的经验。2015年11月,ApacheKylin正式毕业成为Apache顶级项目,成为首个,也是目前唯一一个来自中国的Apache 顶级项目,和Hadoop,Spark等处于一个级别。”

韩卿告诉记者,当社区发展到一定阶段以后,越来越多的外部需求在社区涌现,也证明了有非常大商业机会。为了更健康地发展社区,更好地促进行业生态建设,服务更多用户,成立公司成了自然而然的事情。“在国外,一个成功的开源项目背后都有一家好的创业公司,比如Hadoop背后是Cloudera和Hortonworks等,Spark背后是Databricks,Kafka背后是Confluent,那么Kylin背后就是Kyligence!”

2016年3月,韩卿带领Kylin核心团队成员在上海成立了Kyligence公司,名字取自Kylin和Intelligence两个单词,也是为了让这只大数据的“神兽”更加智能。

2016年8月,Kyligence基于Apache Kylin技术发布了第一款商业产品及解决方案KAP(Kyligence Analytics Platform),它能够为企业可伸缩数据集提供分析能力、为百亿级以上超大规模数据集提供亚秒级标准SQL查询能力。

据韩卿介绍,借助KAP,传统企业和互联网企业的分析师在面对超过百亿甚至千亿、万亿规模的数据时,能够在极短时间内用其熟悉的数据分析工具在海量数据中获取分析结果。此外,KAP与开源Apache Kylin技术100%兼容,原有Apache Kylin用户可以无缝迁移到KAP中,以获得更多企业级特性,如用户管理、安全加密、可视化分析前端、管理与服务自动化等。

“破茧成蝶”的痛楚与快乐

“刚加入Apache社区时,很多西方人并不看好我们,对我们的语言,交流以及文化等持怀疑态度,也不看好我们最后的顺利毕业,因为之前也有几个来自中国的项目,最终都失败了。但11个月之后,我们顺利毕业成为了Apache顶级项目,获得了社区高度认可。

Apache孵化器副总裁Ted Dunning,也是MapR首席应用架构师和Kylin项目导师之一,这样评价我们说:‘Kylin在技术方面当然是振奋人心的,但同样令人兴奋的是Kylin代表了亚洲国家,特别是中国,在开源社区中越来越高的参与度’,这是对我们的贡献开源的极大认可和鼓舞。”

韩卿告诉记者,做开源项目虽然既有乐趣又有意义,却着实不易,因为时常要面临巨大的挑战和心理压力。

“记得有一次,某个用户需要支持某个功能,但当时还不具备,可如果没有这个功能,这个用户就不会采用。当需求反馈回团队时,大家却怎么都找不到好的解决方案。连续几天,我们的架构师、技术人员通宵达旦的寻找解决办法。那时候不仅别人怀疑我们的能力,就连自己都快失去了信心,脑子里总会有声音在问自己‘我们是不是真的做不到’。突然某天大半夜,我们的架构师兴奋地给我打电话说找到解决方案了,第二天一大早就难掩激动地跑来告诉我说问题搞定了。

事实上,这种事情在我们研发Apache Kylin的过程中发生过很多次。为了解决技术问题和业务需求,团队再辛苦,再烧脑,也会一个一个的找到合适的方式方法,最终满足用户需求。如今回忆起那段经历时,更多的是骄傲和对团队的信心。”

韩卿接受采访时说到,他们的团队就像是“论文加工机”,当遇到挑战时,就从浩瀚如海的文献中找到合适的论文,再把内容翻译成代码和算法,进而找到解决方案。在基础技术领域,核心竞争力就是人才。由于他们对技术的高要求,韩卿对拥有顶级创新力和才能的大数据人才求贤若渴,来者不拒。

目前,Kyligence团队大概30人,绝大部分都是大数据技术研发人员,几乎全部是来自eBay、微软、IBM、思科、Morgan Stanley、Teradata等著名互联网及数据公司的高技术人员。

低调的行业“深耕者”

成立伊始,Kyligence就拿到了红点创投几百万美元的天使投资。据韩卿透露,红点创投在刚接触他们的时候邀请了很多国外技术公司对Kyligence及Kylin项目进行评估,得到了对Kylin技术、团队的极高评价和未来商业化市场的高度认可,这也是为什么红点迅速做出了投资决定的原因之一。据了解,红点创投虽然在国外投资过许多大数据基础领域类创业公司,包括MapR、Snowflake,但Kyligence是其在中国投资的第一家。

Kyligence成立后,韩卿和他的团队成员仍旧坚守初心,将核心精力专注在Apache Kylin的迭代和产品开发上,绝大部分的研发力量都在开源Kylin上,基于既有路线图和来自社区的需求进一步演进,以提供更好的大数据分析架构和性能;同时,Kyligence公司也为有需求的客户提供企业级产品及相关专业服务等,以进一步解决大数据分析的挑战。

目前,Apache Kylin已经被国内外多家公司采用作为大数据分析平台的关键组成部分,包括eBay,微软,百度,网易,京东,唯品会,中国移动,中国电信,银联,国泰君安,陆金所,联想,国美,OPPO,MachineZone等100多家公司和组织,其中绝大部分公司都成了付费客户,开源-商业模式,这个在国外流行的新的商业模式,被证明在中国也极具潜力。今天,在Kyligence,一群怀抱理想的开源先行者,正在中国大地上实践和探索着。

本文记者张叶(微信:11104644189)

来源:数据猿

活动预告

- 线上培训 -

(0)

相关推荐