专注于数字技术的商业观察者
登录×
视频
2022-10-10

与戴尔共论非结构化数据存储系列访谈(1)

时间: 2022-10-10 编辑:

数字商业时代:您认为非结构化数据在真正成为数字化“主流”之前经历了哪些重要发展阶段,这期间戴尔做...

数字商业时代:您认为非结构化数据在真正成为数字化“主流”之前经历了哪些重要发展阶段,这期间戴尔做了哪些工作?

戴尔科技集团大中华区非结构化数据存储事业部总经理刘志洪:非结构化数据已成为整个IT和数据管理领域的一个主流。其实从计算机发展之初就有非结构化数据,只是那个时候,没有像今天这样对非结构化数据给出一个比较突出的认识和说法。计算机最开始出现的时候主要是解决两大类的问题:

一类是科学计算(科学数值计算)。针对的是非结构化数据进行计算,得到一个科学的结果。

另一大类就是商业计算。商业计算就是我们今天最常见的,比如说联机事务处理,企业信息化系统的管理。主要针对的是结构化数据,特别是以关系数据型数据库为代表的结构化数据。非结构化数据是最近这十年变得越来越热门的,这也是因为随着技术的发展和应用越来越深入的结果。

非结构化数据的主要发展阶段有:第一个是本地文件系统阶段。从计算机诞生之初,在操作系统比如说Unix系统里面,就有专门的文件系统,就是以文件的形式来处理非结构化数据。

第二个是传统共享NAS(网络连接存储)阶段阶段。一个标志事件是在90年代出了一款存储产品,是专门用来管理文件,叫  NAS(网络连接存储)。也有人称之为文件服务器,就是把非结构化数据以文件的形式放在NAS里面,整个网络上的用户都可以共享使用这些文件。

这个阶段还只是非结构化数据发展的起步阶段,后面有一个比较标志性的事件,这就与戴尔科技的PowerScale非结构化数据解决方案有直接联系的。PowerScale的前身叫Isilon,在2000年的时候成立了一家公司叫Isilon,它推出了一款产品就叫Scale-out NAS,就是横向扩展NAS。为什么叫横向扩展NAS?因为传统的NAS是一个Scale-up纵向结构,比如说两个控制器带128块硬盘来管理文件数据。一个系统里面,比如说只有128块硬盘,那么在容量和性能上都会有一个瓶颈。但在进行很多数据处理,特别是一些典型的行业应用时,无论是数据的容量还是对性能的要求,都远远超过两个控制器或128块硬盘容量的范围。

比如基因测序。人类的基因组数据是一个很大的数据量,每个人大概能到几百个GB。如果要测几百万人的数据,那这个数据量是一个海量级的。为了测出整个基因组里的序列比对,各方面分析等,都需要高性能计算来帮助实现。针对这种海量数据的并发计算,就需要一种新的存储形式。我们就推出了Scale-out NAS(横向扩展NAS),容量与性能都会随着节点的增加而增加,容量会增加,性能也会成线性增长。

当然不仅仅是在基因测序领域,在石油地质勘探领域,在媒体领域,比如说电影后期制作、动漫特色渲染,以及新闻内容的制作、播出、媒资管理等方面。包括遥感数据、地理信息系统等方面,都有大量的非结构化数据,需要横向扩展NAS来解决数据量增长和计算力要求越来越高的需求。

所以,Scale-out NAS的出现是利用非结构化数据和算力提高来解决现实生活中的很多问题。数字化问题发展到了一个新的高度,把以前一些很多不可能的事情变成了可能。随后就有很多突飞猛进的一个发展。这里面标志性的就是互联网的发展,特别是移动互联网和云计算、大数据的出现。

数据开始变成一个海量的爆炸式的增长,源于更多的移动的、数字化的、智能化的设备出现,比如笔记本电脑和智能手机。一个智能手机不仅仅是联网的一个利器,还可以进行拍照,一张照片动辄是几个MB,放到90年代就已经是一个很大的容量了(90年代一个软盘大概也只能存一个MB),现在连一个照片都存不下。所以,移动互联网和数字化智能设备的出现,驱动了数据海量的爆炸式增长。

为解决在整个互联网上海量数据,云计算大数据的问题,出现了很多有代表性的产品。比如谷歌的文件系统,比亚马逊的S3,亚马逊的S3是一个对象存储的标准。基于一些开源的,比如Hadoop。做大数据分析的,比如CEPH,今天很多存储设备厂家都是跟着CEPH来学习怎么样做非结构化数据的处理。

所以,我认为从传统的操作系统里带的文件系统到单独NAS存储的出现,再到Isilon、PowerScale横向扩展NAS的出现,把整个非结构数据的处理带到了实际的生产端,能够转化伟生产力。最后到互联网时代,特别是移动互联网时代,数据无处不在,而且海量数据的处理和利用已成为一个更紧迫的课题,推动了整个数据存储和数据处理市场的发展。

版权声明:本文版权归数字商业时代所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。