人工智能的“开源之战”愈演愈烈,早已上升为争夺人工智能话语权的较量。中国需要的不仅是越来越多的参与者,还需要在世界舞台上拼刀法的撒手锏。
天元、MindSpore、计图、OneFlow……一连串国产开源深度学习框架的相继问世,让中国的开源AI迎来了迟到的“暖春”。
8月15日的“2019中国电子学会科学技术奖”颁奖仪式上,百度自主研发的“飞桨产业级深度学习技术与平台”,更是荣获2019年度中国电子学会科学技术奖科技进步一等奖。
国产开源深度学习框架开始得到行业的认可。
早在2016年的时候,国内的开源AI还只有百度飞桨一股力量,不少开发者被迫在Google的TensorFlow和Facebook的PyTorch之间做选择。特别是在“断供华为”的阴影下,深度学习框架是否会被“断奶”,一度成为外界热议的焦点。在过度依赖国外开源框架造成的不确定中,“框架自由”成了国内不少开发者的夙愿。
2020年国产的深度学习框架逐渐填补了空白,可人工智能的“开源之战”也愈演愈烈,早已上升为争夺人工智能话语权的较量。中国需要的不仅是越来越多的参与者,还需要在世界舞台上拼刀法的撒手锏。
开源的自由与国界
关于深度学习框架的价值,还要从算法开始说起。
在人工智能的三要素中,如果说数据是燃料、算力是发动机,算法就是催化剂,直接决定着发动机对燃料的利用率,也是深度学习研究中的基本功。在深度学习的初级阶段,每位研究者都要花大量的时间写算法。
深度学习框架的出现,大大降低了开发者入门的门槛,不再需要从零开始写一套机器学习的算法,可以直接使用框架中已有的模型进行组装,或者在已有模型的基础上训练自己的模型,让算法的规模化生产成为可能。
打一个比方的话:优秀的深度学习框架给开发者的价值,可以让开发者在项目训练中告别手工时代,就像拖拉机之于农民,原先需要一锄头接着一锄头平整土地,自动化的拖拉机可以让一个人完成原来数十人的工作。
其实业界对深度学习框架的价值早已形成了共识,争议在于“开源”二字。无论是Google的TensorFlow,还是Facebook的PyTorch,无不披着开源的外衣,在“开源自由”的互联网世界里,中国是否有必要推崇所谓的“国产”?
长江商学院经济学教授、人工智能与制度研究中心主任许成钢,曾经分享过这样一组数据:中国关注人工智能开源软件包的人数在2017年秋就超过了美国,但93%的中国研究者使用的是TensorFlow等美国企业提供的开源框架。
某种程度上说,这是一组相当恐怖的数据,芯片和开源框架分别代表了算力和算法,在芯片已经被国外卡脖子的局面下,倘若继续高度依赖国外的开源框架,算力和算法两大基石都受制于人,等同于彻底把游戏规则的制定权交到了美国手中。一旦游戏规则掌握在别人手里,中国永远都是缺少话语权的弱者。
当然,国内仍然有不少理想主义者为开源唱赞歌,一群工程师、科学家、法学家为了开源自由对抗执法部门的故事,时常出现在国内的舆论场中。但现实终究拗不过强权,一向以开源社区自居的GitHub,屡屡传出封禁伊朗、俄罗斯等国籍开发者的消息,开源背后的国界意识也是不争的事实。
况且中国并不缺少过度信奉开源的教训,典型的例子就是华为。在美国政府的封杀下,谷歌虽然照旧向华为开源了AOSP项目,可配套的GMS服务却把华为拒之门外,直接影响了华为手机在海外市场的销量。
开源深度学习框架是否存在同样的隐忧?可能在枪响之前,我们永远都不知道下一个陷阱在哪里。
中国开源的冰与火
回到开源深度学习框架的话题上,在各种不确定风险的作用下,势必要燃起属于中国的星星之火。
从浅的层面来说,深度学习框架的自立是避险的需要,连亚马逊、苹果、微软等都在自主研发深度学习框架,避免被谷歌牵制的时候,中国的人工智能企业应该有最基本的风险意识,尽可能避免芯片产业的覆舟之戒。
进一步思考的话,创新通常不是靠砸钱、堆人就能发生的,最大的魅力还是创新的偶然性,可能发生在少数人身上。如果中国有越来越多的开发者、越开越多的企业参与到深度学习框架中来,创新的概率也将被提高。
但同时需要理性认识的是,虽然深度学习框架关乎人工智能赛道的制高点,可本质上还是一款“软件”,它的难度并不在开发层面——伯克利、清华等一些顶级高校的博士生,往往也能开发出不错的深度学习框架。
开源深度学习框架的重心在于产业化和长期维护,能否建立起一套完整的开源体系,进入门槛远没有想象中低。
一个典型的例子,美国大大小小的开源深度学习框架有几十个,最终脱颖而出的却是谷歌、亚马逊、Facebook等巨头,除了自身过硬的实力外,还在于巨头们有充足资金进行技术、团队、社区等方面的建设。一些刚刚起步的创业型公司,常常因为资金、技术、人才等方面的压力而自缚手脚。
另一个层面来看,开源深度学习框架的用户是开发者,所追求的是框架的易用性。在人们的固有认知中,习惯倾向于信赖被大众认可的事物,在情感上更偏向于有巨头背景的开源深度学习框架。即使一些初创企业可以提供有亮点的产品和服务,开发者也会出于安全、稳定等考量选择抢先培养了用户习惯的产品。
中国开源深度学习框架的行业现状,也是如此。
一面是行业越来越热闹,来自清华大学计算机系图形实验室的计图、国内计算机视觉领域的独角兽旷视推出的天元,再到创业公司一流科技打造的OneFlow,已然呈现出一副百花齐放的景象。与2015年前后的美国市场如出一辙,短时间中涌现出了大大小小、各种各样的开源深度学习框架。
一面是开源生态的贫瘠,开源深度学习框架的核心价值在于生态,需要向下对接芯片,向上支撑各种应用,进而打造深度学习的标准,也就需要持续的资源投入。华为的MindSpore还处于婴儿状态,阿里、腾讯等互联网巨头没有太大的声音,深度介入上下游生态的还只有百度飞桨一家而已。
抓住产业的窗口期
然而在新基建的浪潮下,留给中国开源深度学习框架试错的时间已经不多。
诸如智慧医疗、智慧社区、智慧金融、智慧交通等市场需求的爆发,正倒逼中国的开源AI形成一个完整的闭环,加速人工智能的产业化。确切地说,深度学习框架已经不仅仅是个开源的问题,还是一个商业化问题。
毕竟开源的目的就是在商业化的过程中,以一个结构化的、开放的底层系统,同时兼容存量市场和新增需求,降低客户和合作伙伴的使用门槛,继而为开发者提供快速实现商业化落地的路径。
不少人尝试对飞桨、天元、计图等开源深度学习框架进行横向对比,试图找到最有吸引力的产品。或许并不需要复杂的对比,仅仅是这些开源框架在GitHub上的星级就能一较高下,百度飞桨的星数为12.5K,计图、OneFlow和天元分别为1.6K、1.7K和2.5K,浏览量和服务端的代码仓库克隆数上,飞桨也远远领先其他国内开源架构。
除了在GitHub上的绝对优势,百度飞桨还是近乎唯一有着大规模应用案例的一家。
百度飞桨的大规模分布式训练,被OPPO应用于应用商店、内容推荐、负一屏、广告等推荐场景,推荐场景效果提升了4%—5%;
普宙飞行器科技基于百度飞桨打造的一款无人机自主飞行平台,实现了大范围森林的自主巡逻、火情监测、非法入侵、森林树木砍伐监测等功能;
山东信通引入飞桨的模型压缩库PaddleSlim和端侧推理引擎Paddle Lite,打造出了一整套输电智能巡检方案……
之所以将不同的开源深度学习框架进行对比,并非是为了渲染“春秋战国”的对抗气氛,而是当深度学习走向与产业结合的深水区,深度学习框架逐渐在产业智能化进程中扮演核心角色的时候,应该多探讨一下生态该怎么建设。
中国的开源深度学习框架需要的不仅是百花齐放,在加速应用落地、摆脱外部依赖的大背景下,还应该鼓励一枝争春。
比如重点扶持一两家开源深度学习框架,推动上下游产业的联动,就像百度飞桨与华为麒麟芯片的深度合作,尝试打造深度学习的中国标准;
再比如推动不同开源框架的兼容,一些创业公司和大学实验室不缺少天才程序员,也适合一些创新性的探索,而百度、华为等科技巨头则擅长开源生态的建设。至少从PyTorch引入TensorFlow的可视化来看,谷歌和Facebook已经开始了合作。
何况留待中国开源AI的核心挑战在于能否抓住产业化的窗口期,不同平台间合作的契机远大于商业上的冲突。
写在最后
百度CTO王海峰曾经这样形容深度学习框架的价值:在智能时代,深度学习框架起到承上启下的作用,下接芯片和大型计算机系统,上承各种业务模型与行业应用,是“智能时代的操作系统”。
假如中国无法在智能时代打造出属于自己的“操作系统”,被Windows、安卓卡脖子的故事将再次上演。想要在这场全球性的AI争夺战中胜出,中国企业势必要在基础和关键技术上下苦功,避免在沙滩上起高楼。
幸运的是,在无数有识之士的呼声奔走下,国内也有了自己的开源深度学习框架“天团”,既有百度飞桨这样在技术和应用上全面领先的C位担当,也有计图、天元、MindSpore、OneFlow等新兴势力。
只是就目前来看,从开源深度学习框架的遍地开花,到整个开源AI生态的持续繁荣,再到中国人工智能应用的行稳致远,还需要不同领域开发者的协同努力,以及在政策层面进行适当的引导。