放弃去FBI的机会,在美做了2年数据研究工作,如今回国创业,他把全球最顶级的智能预测算法带到了国内
图丨所问数据创始人兼CEO 颜鹏
所问数据到底是一家什么样的公司?颜鹏身上发生过哪些故事?带着这些疑问,记者约访了颜鹏。
记者 | 郭敏
官网 | www.datayuan.cn
微信公众号ID | datayuancn
5年前,颜鹏还在美国北达科他州立大学的实验室里与导师讨论项目。那时的他正在攻读计算机博士学位,经常因为一个反恐项目在实验室一呆就是一整天。
博士毕业之后,颜鹏面临两个选择:一是去FBI从事数据挖掘工作;二是去世界著名的产品多元化跨国企业3M担任高级研究科学家,负责海量数据的建模与分布式计算。难以想象如此天差地别的两种职业选择竟会出现在同一个人身上,而这就是当时颜鹏的真实经历。
颜鹏,山东人,美国North Dakota State University计算机博士,现在的他是国内企业级服务数据平台所问数据创始人兼CEO。
所问数据成立于2015年12月,是国内第一家利用机器学习技术进行预测性数据分析与深度数据分析的平台。放眼国内,做大数据分析的企业有很多,但利用机器学习算法实现智能预测的企业并不多见。
日前,所问数据完成了3500万元A轮融资,领投方为百度风投,跟投方为南天盈富泰克、首建投。本轮融资后,所问将通过百度风投的增值服务,在AI技术上与百度建立合作。
所问数据到底是一家什么样的公司?颜鹏身上发生过哪些故事?带着这些疑问,记者约访了颜鹏。
放弃FBI 加入3M
《国家威胁:中情局谍战亲历》一书中写到,CIA、FBI对个人能力要求极高,首先得具备一技之长,其次要有丰富的海外经历,最后还要掌握尽可能多的外语。在通过面试后,候选人要经过测谎、调查人际关系等多重环节,和其他新学员一起进行专业训练,只有通过考核以后才有机会成为正式成员。
在外人看来,这可是千载难逢的机会,但他拒绝了FBI的邀请,“规则太多,我不喜欢。”这样的想法或多或少跟颜鹏的性格有关——文艺范。颜鹏这样一个技术男竟然喜欢读诗,而且还写诗。“写诗的过程中可以随意想象,天马行空,思想不受束缚。就工作而言,既然都与数据相关,不如选择一个我喜欢的氛围。”颜鹏笑着告诉记者。
从拒绝FBI到决定进入3M,颜鹏只用了1天时间。
每年3M都会对2万3千多种产品进行销售预测,为上下游供应链环节的企业提供决策依据。颜鹏所在的团队主要负责零售行业的预测现金流分析,众所周知,供应链效率是零售行业的核心竞争力,颜鹏说:“供应链效率就是库存周转率,库存周转率控制需要前期进行预测,预测准确率每提高1%,产品就能节省五倍以上的库存成本。”颜鹏告诉记者,在零售行业里,预测性分析有很大的应用前景,而这也正是颜鹏萌生创业念头的缘由。
按颜鹏回忆,他当时把这个想法告诉了同在3M共事的丁圣超,也正是现在所问数据CTO。丁圣超那时担任3M高级研究科学家,在预测型数据分析和深度学习算法方面具有极其丰富的经验。之后,二人便在工作之余研究精准预测的模型和算法。
深入中国市场进行调研后,坚定了颜鹏要在国内创业的决心
当然,闭门造车不可取。2014年,颜鹏对美国和中国的市场进行了充分的考察。
颜鹏了解到,2014年是整个行业的分水岭。
在美国,上半年,一些大数据公司的底层架构开始从Hadoop转移到Spark,“大家都在讲,用Spark处理数据多么高效,但是并没有具体的应用案例。”下半年,处理数据的效率、底层计算框架已经不再是业内人士关注的重点,颜鹏说:“很多大数据公司开始做了关于时间序列的模型,把它们用于产品预测,并逐渐在金融、零售等行业蔓延。”
而在国内,大数据还停留在概念阶段,“一些大数据公司把BI的、可视化的、统计的东西搬到云上面,其实这都不是真正的大数据。”颜鹏说。
除此之外,颜鹏还对国内零售行业的供应链发展情况进行了系统的考察,他发现,供应链上下游企业之间的业务活动难以协调甚至脱节,供应商不考虑市场需求,一味的凭借往常经验来生产,生产商品过多,积货压货情况严重,企业成本居高不下。哪种商品在未来会成为爆款,要多生产?需要利用数据进行精准预测,把企业的投入风险降到最低,而国内还没有哪个大数据公司能够实现精准预测。
一番考察之后,颜鹏决定要把创业“根据地”设在国内。不过,当时,颜鹏和丁圣超构想的精准预测模型和算法还在开发阶段,成型还需一段时间。
然而正在他们坚定自己的决心时,行业内一则消息让他们冷静了下来。2014年12月,加州著名网络安全公司ThreatStream完成了2200 万美元 B 轮融资,该公司以智能角度对抗网络安全威胁著称,背后的技术是机器学习算法。“听到这个消息,我心里还是有点着急了,自己掌握了可商业化的机器学习核心技术,但产品还没成型,我们必须加快研发速度。”颜鹏告诉记者。
于是在2015年年初,颜鹏他们就带着未成形的模型和算法回国了,“打算一切从零开始!”
万事开头难,相信对于每个创业者来说都一样,不过幸运的是所问数据成立没多久就拿到了九合创投的天使轮投资。
“之前,我有个朋友在IBM工作,后来他出走创业就是九合创投投资的,也是他帮我们与九合‘结缘’。”颜鹏表示,跟九合创投的负责人见过两次面,第一次颜鹏聊的都是技术,“没办法,我本来就是一个技术人。”第二次稍微有所改变,颜鹏坦露了创业的初心和未来的具体规划,“第二次面谈后没多久,我们就签了合约。”颜鹏说。
资本来的容易,但要对零售行业进行“攻破”并不容易。
2015年,AI预测性分析在医疗、工业、金融等行业已经得到了应用,但在零售行业却少之又少。
颜鹏说:“在零售行业,唯独京东在做这个事情,京东内部的预测团队一直在用AI做供应链预测,但是不对外开放。为了让更多的人看到零售行业预测性分析的价值,我们一定要把全球最顶级的智能预测算法带到国内。”
所问数据的预测算法具有以下两大特点:
1、 自适应,指的是可以自动选择最优算法进行预测,无需任何人工干预;
2、 自学习,指的是算法会基于上一次的预测不断的自我学习和自我优化,用户使用产品的时间越久,获得的准确率就越高。
此外,所问团队还开发出了全球首创的深度推荐(Deep Recommendation)算法,进行产品的深度推荐和销量影响因子的深度挖掘,能够帮助传统零售商、制造商、电子商务网站企业揭示数据背后隐藏的规律,提前预判市场变化进行相应资源规划,进而极大程度地降低运营成本。
瞄准预测类产品的蓝海市场
在成立初期,所问数据率先从跨境电商选品切入,推出的易选品平台对跨境电商Wish的商品进行数据分析从而预测出爆款。该平台上有1亿5千万件商品,每天新增商品和下架商品更迭频率特别高,“在未来可能成为爆款的商品是每个卖家寻找的目标,假如通过人工的方式寻找爆品效率低下,一来二去就会失去市场机会。”颜鹏说。
所问数据的实现途径是,先搜集电商网站上的公开数据,包括商品名称、图片、价格、用户评论等,然后进行噪音去除、识别有效数据,之后对过往时间的销售情况进行机器学习,从而得出各纬度的相关权重,再之后根据用户喜好模型预测某商品成为爆品的可能性。
之所以选择从跨境电商切入,颜鹏表示,国内电商的辅助工具有很多,商家对消费者的喜好把握比较精准,相比之下,跨境电商却面临严重的信息不透明,是预测类产品的蓝海市场。
经验证,商家在使用易选品前后的店铺动销率提升从2.9倍到19倍不等。颜鹏也在跨境电商领域获得了大量的客户。
基于这样的技术特色,所问数据在不到两年的时间里就得到了公牛、福瑞达、茵蔓等用户的青睐。公牛是颜鹏签下的第一笔订单。整个竞标过程持续了一个月,颜鹏先是去公牛慈溪总部做第一轮演示,之后又去了公牛上海电商事业部做第二轮汇报,“当时,还有两家公司也在参与竞标,最终我们拿下了公牛,我们是唯一一家敢在合同里面承诺预测准确率的,另外两家公司都不敢承诺,最终我们交付的预测结果也超出了客户预期。”颜鹏说。
如今,所问数据的业务已经从零售行业的产品预测延伸到了金融行业。“像金融行业信用卡逾期还款和借贷风险等都有着相似的应用逻辑,可以通过数据来预测。”颜鹏表示。
为了顺利进入金融市场,团队也加入了一位金融背景的合伙人,此外,所问也聘请了谷歌AI方面的专家来做模型算法团队的顾问,未来的产品研发需要更多的资金和人才,此番融资的顺利完成也给这位84年的海龟创业者吃了一颗“定心丸”。
2017年10月,在微软加速器第十期的招募活动中,所问数据凭借自身超强的技术实力突出重围,成功入选微软加速器第十期校友企业。作为目前最大规模的创业孵化器,微软加速器自2012年7月在中国启动以来,已连续五年荣获“中国最佳孵化器”、“中国最佳众创空间”称号。且截至2017年8月,已累计为170家创业企业成功加速。校友企业总估值超过566亿元人民币,估值增长比率平均每家超过400%,有93%的企业在加速期间获得了下一轮融资,其产品和服务在中国覆盖逾200万家企业客户和5亿个人用户。
颜鹏向数据猿透露,在未来4-6个月时间里,所问数据将入驻位于微软亚太研发集团总部内部的国际化办公空间,得到思想领袖、行业专家及技术专家组成的导师团的扶植与指导,并与微软Azure展开更深层次的合作。相信在入选微软加速器后,这家拥有强大技术实力的初创企业能够在未来发展的道路上走得更远。(文/郭敏)