数字商业时代:非结构化数据存储在企业的数字化转型中,扮演了怎样的角色、发挥了怎样的作用?
戴尔科技集团大中华区非结构化数据存储事业部总经理刘志洪:我认为没有非结构化数据,企业根本就谈不上数字化转型。
为什么这么讲?因为企业里的数据分为两大类:一大类是结构化数据,主要以数据库为代表。比如企业的信息系统管理ERP、财务系统,或者像银行的交易系统。它都是基于数据库,是对结构化数据的处理。比如说我有一个账号,我账号里有多少存款?我在里面取一笔钱,发生一笔交易,它对这个账号的相关信息进行处理。这个当然非常重要,因为相当于一个企业的命脉。这是信息化阶段的一个标志,可以用计算机把整个企业的管理和企业之间的交易用计算机来实现。这个阶段应该称之为信息化阶段,但它还不是一个数字化阶段。
什么叫数字化阶段? Isilon的出现是为了解决有些行业实际的生产问题,这个生产问题用信息系统的管理或者ERP的管理是没法实现的。比如要制作一个电影,要做特效设计,没有计算机技术肯定是不可以的。但要用计算机实现,里面就有大量的非结构化数据需要进行处理。这些数据需要存储、管理,以及配合高性能计算集群进行渲染处理。没有计算机是无法实现的。比如石油勘探、地震勘探,收集了很多大量数据,必须要进行高性能计算。没有非结构化数据和超性能计算的结合,就不可能实现,企业的生产都不可能完成。
所以,原来的大型机、小型机,或者高端的存储,一般都说自己是承担mission critical关键业务的。那么像我们PowerScale这种非结构化数据解决方案,是承担mission impossible不可能完成任务。什么叫不可能完成任务?在计算机发展的早期,可能看起来这些任务根本就不可能实现,比如完全依照数字化制作一部电影,还不仅仅做特效,有没有可能实现?坦率讲,在模拟化时代是不可能的。而在数字化时代,当算力不够,当数据管理能力和处理能力不够的时候,依然不可实现。
但今天我们已经有很多电影是用完全的数字化技术实现的,比如《哪吒》、《阿凡达》,我们的解决方案在里面也扮演了很重要的角色。那不仅仅是电影制作,媒体娱乐这个领域。刚刚提到的医学领域,基因测序、医疗影像系统等。比如今天的医疗体系,要诊断一个疾病不可能是简单的中医的望闻问切或者西医的化验一下血,拿个化验报告出来看,哪个指标有几个加号。它需要有医学影像系统来进行断层扫描,断层扫描本身就是计算机断层扫描技术,现在的精度越来越高了。现在光是断层扫描都不够了,有时候要结合基因或者单细胞蛋白质分析来综合精确地定位疾病。延续的药物研发也同样要看,药物整个研发的过程实际上是一个数学模型,不是一个简单的化学实验。它是数学模型在计算机里来模拟化学实验,什么样的物质组合体作用到另一个结构上是一个什么样的反应。而且在这个实验过程中,它收集的数据也一样要通过计算机的模拟仿真来看做的效果怎么样?比如小白鼠实验,这个药对癌细胞有效没有,要做切片病理分析。其中一个技术叫冷冻电镜技术,实际上就是要把这个数据进行大数据分析和处理。
比如生产制造企业,现在最典型的是芯片制造业,从芯片的设计就离不开计算机集群和非结构化数据。比如在设计里面,之前说几百纳米的芯片,可能数据量是100到几百个TB,但是今天是三纳米、两纳米,那数据量可能就是PB级了,就是1000个TB以上的数据了,且都是非结构化数据。那怎么能来从容地应对这样的设计数据量?更不要提还要在里面做进行大数据分析。
比如芯片制造的良品率,完全是依照从高清摄像头看到的生产加工现场现象,到传感器传来的数据,包括温度、湿度,对整个过程中的各种数据来看,为什么这一批次它的质量良品率比较高?而另一批次的良品率下降?到底是温度影响的还是湿度造成的。还是中间的粉尘?还是说加工中的一个工序的不稳定电源导致的不稳定?要通过这样的分析来提高良品率。而良品率在芯片制造业里面相当于是一个生命线,盈利是靠提升良品率来实现的。
我们今天在谈的元宇宙,其实Dell EMC早在二零零几年就跟IDC合作做数字宇宙的分析,当时的结论就是数据大爆炸,有一个数字宇宙的概念,和今天元宇宙的概念很像。也就是说现实物理世界的任何物理现实都可以映射到数字世界里。而且现实世界里很多行为其实都是可以通过数学建模,由计算机来进行模拟仿真加工测试的。就像今天比较热门的自动驾驶汽车,就是利用数字技术来进行训练,使机器有人工智能,能够自动驾驶汽车,把整个汽车行业带到一个新的领域。
所以,非结构化数据是承担mission impossible,一些看似不可能完成的任务。在大数据的助力下,在人工智能、深度学习、机器学习、大数据分析、超性能计算的加持下,把这种不可能的事情来变成现实。