“我始终认为:虽然我们是以公司的形式存在,但是叫机构更合适些。”从2020年1月VMware完成对Pivotal的收购算起,两年多不见的冯雷再次回归到大众视野,身份已经不再是Pivotal中国公司常务董事、研发中心总经理,而是一家中国本土科创公司——拓数派「又称“OpenPie”」——的创始人和首席执行官。
2022年6月,拓数派对外宣布完成新一轮数亿元战略融资,而在此之前,2021年7月正式成立之初,拓数派就已经获得了头部产业基金超过两千万美元的天使投资。“现在拓数派储备了足够多的现金,足够我们可以真正安安静静坐下来,把产品做好,做一个可以对标美国同时代产品的产品。”对于一家初创公司而言,冯雷的话多少有些“凡尔赛”,但拓数派刚刚成立即可实现人均年研发费用15万美元的融资规模,在很大程度上,与冯雷选定的技术赛道、拓数派自身技术团队的实力,以及当前中国科创领域的空前活跃,都有非常大的关系。
选择赛道:对于数学应用发展的一种传承
之所以冯雷认为应该把拓数派称为机构而非公司,很大的一个原因,是其创立拓数派,并选择“云原生、分析型分布式数据库”赛道,并非完全处于单纯的商业考量,更像是一次基于数学科学的学术验证和应用实践。
拓数派创始人兼首席执行官冯雷
冯雷最广为业界所知的,是其曾经提出的“数字化三部曲”——他甚至因此出版了三本图书。在他看来,今天所有企业的数字化转型过程,都将沿着从软件公司到数据公司,再到数学公司的过程演进,其中,当然会涉及到包括云计算、大数据和AI在内的新兴IT技术的加入,但是真正影响数字化进程、决定数字化方向和结果的,永远都是数学原理。
“我大学本科是北大物理系的,所以我考虑问题常常是往起源的方向看,就是说我一直关心:人类智能的起源,我们智慧是怎么来的?”冯雷当年是以浙江省队物理奥赛银牌进入北京大学并获得了物理学和经济学的双学士学位。而那段经历对于他来说,更重要的影响,是让他认识到数学的美妙,也让他已经开始考虑如何让数学这样一个基础学科能够真正影响和改变人类社会。“你知道,到今天为止,我们在IT领域的所有进展,都还是基于历史上一些伟大的数学发现和理论。”几年前,还在担任Pivotal中国常务董事兼总经理的冯雷就曾经这样对笔者说。
在冯雷看来,结合数学发展史和IT进阶史,有几个历史事件至关重要。
首先是公元前600年到公元前500年,由古希腊哲学家毕达哥拉斯及其信徒组成的毕达哥拉斯学派,他们提出万物本源是“数”,认为“万物皆数”,而研究数学的目的并不在于使用,而是为了探索自然的奥秘——这与今天我们全人类社会正在进行的“数字化”转型似乎有些内在的关联。
其次,人类真正用数学方法研究世界从牛顿年代开始。“牛顿力学的伟大之处,不仅仅因为三定律和万有引力定律,更在于牛顿用数学的方法来定义自然哲学,并写了一篇论文《自然哲学的数学原理》来告诉我们:自然科学是可以数学化的。”冯雷说:“进而,又有人用数学的方法来研究经济学,并取得了不小的进展。那么社会科会呢?”
将数学方法引入到社会科学——即让数学方法和数字化工程成为人类改变自身的工具,进而全面实践数字化时代,冯雷认为有两件具有划时代意义的事件。
第一件,是20世纪上半叶,德国哥廷根大学在希尔伯特(David Hilbert)的倡导下提出了形式化数学,从而启发了图灵构造计算机的概念模型和冯诺依曼构造存储计算机。“这实际上是奠定了我们今天数字化基础:如果说古典物理时代的模型方法,主要建立自然科学规律的数学定理;那么,近代我们数学化人类社会和智能,则主要采用计算模型的方法,来仿真人类社会和个体智能——这个时代的数学化也同时引入了数字化。”冯雷曾经在自己的文章中如是说。
另外一件事,则是发生在冯雷的母校:20世纪下半叶,卡内基梅隆大学的司马贺(Herbert Simon)利用符号计算来模拟人类智能,创建了世界闻名的CMU计算机学院并将之建设成为人工智能的先驱。“CMU作为人工智能两大诞生地之一,把数字输入看作符号,用计算模型作为智能仿真大脑操作符号的过程,奠基了符号学派人工智能的第一个AI程序逻辑学家。”冯雷说。
“用少量符号和计算模型来建模人类社会和个体智能,奠定了早期的AI,取得了巨大的成绩。但是更多的红利却依赖于更多的数据量和更高计算能力。一般说来,任何一个模型,只要处理得当,使用更多的数据和计算,就能产生更好的预测准确率。这样一个简单却有效的洞察把人类社会带入了大数据时代……当我们不能构造类似神经网络等开天辟地的新模型的时候,我们可以寻找更多的数据集、运用更强大算力来提高模型的准确率,以数据计算能力来换模型能力——既然数据计算,能够让我们找到新发现,那么我们就应该不遗余力地去驱动数据计算平台的创新。”冯雷在自己后来发表的文章中写到,他和拓数派要做的事情,就是在所有前人的基础上,将人类用数学定义和研究人类社会的能力,向更深入的地方推进。
“云计算的出现,实际上让我们应用数学的空间得到了极大的延展:并不是前人不够聪明,而是因为他们当时没有那么多算力,他们基于PC机构的计算机已经找到了最好的数学逻辑和方法,接下来,就是我们需要基于云计算提供的有无限增长的计算和无限增长的存储,不再基于简单的符号,而是采用大量的数据——把符号系统升级到数据系统,用数据来训练程序,让程序自己给自己编程。”
讨论至此,冯雷非常兴奋,他反复强调,“数据计算、只为新发现(Data Computing for New Discoveries)”就是他和拓数派团队要做的事:“人类这么多年来,智商并没有太多变化。但是我觉得因为云计算提供的机会,可能让我们可以把符号学派的人工智能,推广到数据计算学派,这是我们成立拓数派的原因。”
实践:云原生、分析型分布式数据库
选择将人工智能从符号学派深入到数据计算学派,并不是冯雷突如其来的一个“神来之笔”。事实上,从10年前,冯雷结束在甲骨文从事云计算产品研发的工作,接受Pivotal邀请,从硅谷回到上海,作为是Pivotal中国公司常务董事(Managing Director)和研发体系总经理(GM)),就已经开始。
“接受Greenplum中国和后续Pivotal中国的使命,除了因为Greenplum创始人和Pivotal董事长在业内的影响力之外,很大一部分原因,是Greenplum的大数据使命和Pivotal的云原生使命,都处于一个令人兴奋的数字未来的十字路口。此刻在我眼里,数字化的核心也是数学化。”冯雷在后来自己撰写的文章中这样写道。
彼时,在建立中国北京和上海两个研发团队的过程中,在Pivotal公司的两个产品体系中,冯雷选择了Greenplum作为中国研发中心的关注重点。“在PC机时代,因为摩尔定律,计算资源开始丰富,PC机通过组群可以取代大型机,而极大地降低了计算的门槛。Oracle,TeraData和Greenplum等产品就诞生在这一时期。Greenplum作为一个分析型数据库,整理和存储了大量结构化数据,帮助数据计算在各行各业产生智能:银行通过风控计算降低贷款坏账率,零售行业通过计算提高用户的复购率,医药公司通过计算可以提升新药的有效性。”在冯雷看来,Greenplum作为一款分析型数据库,实际上就是在将“数据计算”——这样一个后来拓数派所坚持的技术应用理念,进行初步实践的起点,并且在在2015年,经过冯雷的坚持,Greenplum最终以开源的方式,从一个数据仓库软件变成了一个云时代的大数据和机器学习平台。
应该说,2020年初Pivotal整体出售给VMware,是拓数派成立的一个客观理由。
“经过多年对Greenplum的技术研发和用户服务,实际上我们已经看到了分析型数据库对于用户的价值,并且在中国建立了一个非常专业的研发团队。当时我们都感觉:这的确是一个未来数据应用的趋势,只是我们还没有来得及把它真的部署到云端。于是,我们最终决定要把这个技术继续往前走下去。”在冯雷的认识中,计算技术目前经历的三代平台分别是大型机、PC机和云计算平台,而其与其研发团队最大的遗憾,是没有将部署在PC机的Greenplum迁移到云计算平台,因此他们决定基于云计算平台的云原生、分析型分布式数据库。
冯雷认为:数据计算以PC机为单位的切割方法,是数字未来的最大掣肘。“如果说云上有无限伸展的计算资源和存储资源,并且这两个资源的伸展,意味着数据计算能产生更好的结果,那么我们应该突破PC时代计算平台的限制,大胆地想象在云上计算平台的新可能。”冯雷撰文强调:拓数派的第一款产品πCloudDB,就是建立在数据计算这样的一个底层基础计算技术上,利用云计算的计算技术的变革,重新打造的一个云原生的、以分析型分布式数据库为内核的全新数据计算平台,从而实践自己“真正交付在PC机时代未能交付的大数据承诺”。
“原理可能比代码更重要,所以这次我们继承以往的产品技术逻辑,但是因为部署的环境完全是基于云计算环境,所以我们重新了软件代码——这就好像您写了一个文章的word文档,但是突然断电了,没保存。不过如果重写一次,你就会发现,其实可以写得更快,遣词造句会更精准,逻辑也会更清晰。”冯雷介绍说。
在拓数派发布的相关产品介绍不难发现,πCloudDB在以往PC版分析型数据库所采用的MPP(Massive Parellel Processing,大规模并行计算)基础上,提出了eMPP(elasticMassive Parallel Processing,弹性大规模并行计算)的概念。“基于云计算架构的πCloudDB的弹性并行计算,完美地解决基于PC传统MPP的缺陷:在πCloudDB,存储和计算各自作为两个独立变量,各自在云端弹性伸缩,用户可以在云端传输海量数据量,云中的存储也会随之自动增加,这个伸展过程对于用户来说是完全透明不可见的;如果用户需要更大的算力,只需开启更多的虚拟机或者容器,πCloudDB会瞬间扩容。在用户完成脉冲计算以后,可以关闭和缩小计算的集群,从而节约在云中的计算费用。 ”冯雷撰文称。
而在冯雷看来,πCloudDB这样一款云原生、分析型分布式数据库,在很大程度上,将成为更多行业用户的商业场景数据分析引擎:“企业未来势必会从软件公司到数字公司,最终到数学公司,那是因为企业会越来越以来数据的智能分析和驱动,实现业务的持续增长,在此过程中,数据库产品需要能够帮助用户针对不同场景,做更有效的数据分析,例如金融行业的征信反欺诈、互联网行业持续的流量获取、零售行业的用户推荐、制造业的事故回溯……”冯雷强调,作为一个分析型数据,πCloudDB的目标,是通过数据计算,帮助企业用户将业务场景分析做到极致。
科创:中国需要一个大国标志
“在整个现代科技发展史上,一些海外的机构、大学、科学家甚至投资人都发挥着很大的作用。我常常想:作为一个强调科创的大国,现在中国也需要一个具有标志性的、彰显中国大国标志性意义的科研机构。这在以前可能挺难,但是现在中国的经济地位,以及科创发展到现阶段,建立这样一个机构是大势所趋——这已经得到了一批有识之士和投资机构非常大的认同感。”冯雷说。
这一点,实际上从拓数派的合伙人平台取名就可以充分体会:拓数派的合伙人平台叫“毕达哥拉斯派”和“哥廷根”(取哥廷根大学之意),“我们希望能在中国创立一个立足于中国,但又在世界范围内领先的一个机构,从而在研发产品的同时,平行升级自己的组织,使其成为立身中国并跻身世界前沿的数据计算机构。”
这也是冯雷更愿意将拓数派称为机构,而非单纯公司的另外一个重要原因。
相对于在技术和学术上堪称虔诚得近乎浪漫主义的做法,冯雷和拓数派在商业上的考虑,可以用佛系来形容。这一点,Pivotal公司创始人Paul Maritz给冯雷极大的影响。
“To give more than what you take,奉献大于索取,这是Paul Maritz当时说的一句话,也是我们的一个行为准则。”冯雷提到当时Pivotal在开拓中国市场时,采取的方式是将Cloud Foundry云操作系统和Greenplum进行开源处理。这一方面当然是为了更快速地建立起自己的用户群,让更多的用户认识Pivotal的产品;但是另一方面,冯雷认为,技术最终一定要以某种方式反馈给社会,商业只是其中的一种。
冯雷强调,成立拓数派并不是“要把市场上所有的钱全部拿回来”。“从成立的第一天起,这就不是我和拓数派的目标。”冯雷说:“当然,我们一定会给投资人一个合理的回报。但是就像当时Pivotal一样,我们开源了那么多年,有些客户用了但是并没给钱,我也ok:因为我们考虑到小企业没多少预算在这上面。所以我说:人家有钱,自然会付;预算不够了,就算了。”
为了让拓数派用技术回馈社会的宗旨得到确认,在2021年2月成立杭州拓数派科技发展有限公司一年前,冯雷成立了一个“1024数字产业基金会”——1024是2的十次方,是二进制计数的基本计量单位之一,也是一个所有程序员都能心照不宣、会心一笑的梗。“我们成立1024数字产业基金会的目的,是使其与拓数派并行运行,目标是以一种非盈利的方式,让技术能够惠及更多的用户。”
“成立基金会有两个目的:首先是构造一个生态,我们的技术推广出来以后会托管给基金会,这样的话,就可以用更公正的方式允许更多的人参与进来;第二个目的,是通过基金会的方式,承担更多ESG(环境、社会和质量)责任,例如人才培训、与学校合作等。”冯雷看待这个问题的视角非常独到:他认为企业在用数字化技术颠覆传统行业的过程中,也要担当释放出来的劳动力在数字行业的再就业和高质量就业的社会公益责任,而基金会在这方面将有更多的工作空间。
写在最后
你可以说冯雷是一个“万物皆数”理论的狂热拥趸,也可以说冯雷是一个对技术应用具有判断能力的IT工程师,甚至可以说是对技术商业化实践的理想主义者,但是不能否认的是:虽然冯雷和他的拓数派看起来没有那么具有侵略性,但是这种隐藏在浪漫主义和理想主义背后的,是基于科学发展规律对事物发展趋势的一种判断,以及基于这种判断所表现出来的自信。
在曾经经历了“快鱼吃慢鱼”、996高频迭代的科创领域,这种自信和淡定,以及带有某种理想主义的信念,让人看到了中国科创领域能够真正持续前进的可能性。
也许,一个属于中国本土科创企业的时代真的就要来了,一个属于中国本土的标志性企业,就要出现了。
“我们为什么叫拓数派,OpenPie?是因为我们更希望自己是科创领域里一支特殊的、具有数学属性的开放的流派,还因为作为一个神奇的数学符号,π是一个可以一直算下去的,而且中国人曾经精确计算了小数点后面的最多位数。“冯雷说。