数据存储：与数据治理和AI有关

近期，IDC的一项报告显示：2021年全球大数据市场的IT总投资规模为2176.1亿美元，到2026年，这项数据将增至4491.1亿美元，五年预测期内（2021-2026）实现约15.6%的复合增长率。在中国市场，2026年中国大数据IT支出规模预计会达到359.5亿美元，市场规模位列单体国家第二。

大数据市场的高速成长，客观地反映出企业用户对于数据关注点的进步：他们正在从以往的数据收集、存储与管理，转向对于数据的分析和价值的发掘，从而实现让数据真正发挥价值，用虚拟的数字来优化真实现实的目的，最终完成其“数字”应用的完整流程。

然而对于现阶段的企业用户而言，有两个具体的问题是需要面对的：第一，从数据中心到混合云应用，企业在IT基础架构高速演进的过程当中，根据自身不同的业务场景，已经部署应用了与之对应的各种不同的数据收集、存储和管理的方式，该如何整合这些以往的工作成果？第二，与数据应用和分析相对应的，是更加复杂、更灵活和更具特色的应用场景，企业该如何根据自身业务的需求，找到适合的数据应用的方式？前者是对以往工作成果的梳理，后者则是对未来应用模式的规划。

“面对变局，企业存储策略和存储系统也当应时而变，不仅需具备安全性、可靠性、大容量和高性能等长期要求的能力，还必须持续提升弹性和灵活性，满足数据在敏态、稳态不同的IT环境中的可靠流动和互联互通。”今年6月，Hitachi Vantara中国区技术销售总监谢勇在一篇署名文章中谈到相关问题时强调，对于企业而言，从数据中心到混合云，企业需要建立一套能够“通观全局的数据存储策略”，才是解决问题的根本和基础。

Hitachi Vantara中国区技术销售总监谢勇

事实上，作为能够为用户提供包括数字基础架构、数据管理与分析等在内完整数字治理解决方案的Hitachi Vantara，对解决以上两个问题，有一个相对清晰的产品和技术逻辑：首先，为统筹各种不同模式的存储方式，Hitachi Vantara提供了一套通用的存储虚拟化操作系统（Hitachi Storage Virtualization Operating System, SVOS），用以调度和控制计算、网络、存储资源，实现传统存储和软件定义存储（SDS）的融合，从而在应用企业当中形成一个通观全局的数据存储底座；与此同时，在SVOS的基础上，提供一体机模式和软件定义模式的数据存储方式。其中，一体机模式即全新虚拟存储平台（Virtual Storage Platform）VSP家族，面向不同规模和不同行业的企业，提供从入门级到旗舰级的全闪和混闪阵列；软件定义模式则包括日立软件定义块存储 (Hitachi Virtual Storage Software Block, VSSB)、文件内容软件Hitachi Content Software for File （HCSF）、软件定义的对象存储HCP（Hitachi Content Platform和HCP Cloud Scale），以及UCP系列融合和超融合解决方案，帮助企业构建灵活且可靠的混合云方案。

谢勇在文章中强调：“企业本地数据中心包括传统架构和私有云两部分：对于传统架构，VSP系列和Hitachi NAS Platform (HNAS) 能够提供强力支持；对于私有云，VSP系列和VSSB、HCSF可以全局管理；对于公有云，企业则可以将两种模式共同运行于AWS等主流云平台上。从而，借助Hitachi Vantara统一的存储管理平台SVOS，企业便能实现数据在传统架构、私有云和公有云之间的流动和一致管理，实现从私有云到公有云的统一运行、管理和数据复制，满足同一数据中心、不同架构和不同应用的业务需求。”

解决了数据整合管理的问题，针对数据分析和应用的方式，Hitachi Vantara也有自己的想法和明确的产品指向。

“Hitachi Vantara的HCSF高性能分布式文件存储是为人工智能而生的数据平台。”蔡慧阳，Hitachi Vantara中国区资深解决方案顾问在日前接受采访时，谈到了Hitachi Vantara软件定义存储解决方案群中的HCSF（Hitachi Content Software for File）分布式文件存储解决方案，强调HCSF作为针对AI、ML、分析和其他GPU加速工作负载的高性能存储解决方案，有别于传统的存储方式，能够同时满足高性能工作负载对后端存储提出的三大要求：高性能、高扩展性和易用性。

Hitachi Vantara中国区资深解决方案顾问 蔡慧阳

众所周知，大数据、AI、ML等概念都不是最近出现的，只是当时在PC时代，算力的局限不仅限制了数据的产生，也限制了AI和ML真正价值的发挥。直到云计算让算力不再具有任何上限，用户对于数据的获取也开始变得更加广泛，AI和ML才真正成为了最有效的数据分析工具。

“并不是说银行之前不做贷款风险的数据分析，只是以前各个金融机构只能分析自己企业内部的数据，比如存贷款的消费记录、信用卡记录等，数据量和类型都比较单一。但是到现在，银行做数据分析就可以结合包括用户淘宝消费数据等更多的征信数据，数据量、数据的维度、和对分析时间的要求都更高，对用户的画像也更全面、更丰富。”谢勇认为，利用AI和ML做数据分析，可能才是真正发掘数据价值的正确手段。而作为“为AI而生的”HCSF，则是解决企业用户对数据分析需求的有效工具。

在蔡慧阳看来，传统意义上，企业在数据价值挖掘的过程中，需要迎接三个方面的挑战，分别是：后端的存储跟不上前端的计算性能的不断提升；数据量的急剧增长；以及IT预算在不断缩减。因此在他看来，企业就非常有必要在选择存储解决方案时，集中考虑三个核心的因素：“首先，是要提供足够的性能以满足前端业务的需求；其次，要具有更高的扩展能力；第三，要尽可能帮助企业节省保存数据的成本。”

蔡慧阳认为传统架构之所以不能适应AI数据处理，是因为在整个AI的数据处理过程中，环节众多，数据传递损耗掉了必要的时间；同时，传统存储架构也容易存在数据接口单一等缺陷，企业难以在一个存储平台上面同时满足不同文件大小对性能的不同要求。

与此相对，蔡慧阳强调：HCSF作为一个为AI而生的数据平台，提供丰富的接口，因此在整个人工智能数据处理的流程中，所有的数据处理流程完全是在一套文件存储系统当中进行，自动进行性能调优，有效解决所有传统架构遇到的难题。

“它是一个完整的存储平台，消除了数据孤岛，避免了传统架构中需要多套存储设备的复杂性；它是一个单一的管理接入点，整个存储空间的管理，包括对本地和云端的空间管理，通过一个单一的接入点就能实现；它是一套完整的文件系统，即使后端增加了保存温数据的对象存储或云端存储，对用户来说也是没有感知的，用户看到的仍然只是同一个文件系统；在该平台上，同一份数据只需要一份拷贝，数据无需来回流动、迁移和复制。”蔡慧阳将此称为“极简”特征。

我们都知道，在Hitachi Vantara的软件定义存储解决方案中，不仅有分布式文件存储解决方案HCSF，还有块存储解决方案VSSB，以及对象存储解决方案HCP，且如果单纯从存储模式理论层面讲，分布式文件存储模式并不一定比其他两种模式，在数据读写速度和分享能力方面具有绝对的优势。那HCSF为何被定义成“为AI而生”呢？

“这来源于它与众不同的设计理念和专利的技术。”蔡慧阳谈到HCSF的三项具体设计理念和专利技术：第一，HCSF数据平台的架构是基于高性能介质NVMe、高速网络以及高速总线来进行设计的。因此HCSF能够通过底层的驱动优化，减少数据传输的中间环节，从而大大缩短延迟。第二，HCSF设计的初衷，就是要规避传统分布式文件存储在各方面的局限性能，同时考虑高吞吐、高IOPS、低延迟、高效的元数据处理。因此，无论是任何大小的文件，还是混合负载，它都能够自动调优提供无差别的高性能。第三，HCSF采用了专利的全分布式扩展架构，把数据和所有元数据都分布在所有的节点上。“这一点很重要，”蔡慧阳强调，“因为传统架构只将元数据分布在某些节点上，所以它就会有瓶颈；如果是采用HCSF这种全分布式架构的专利技术，就能打破这些性能瓶颈，所以可以提高扩展性、聚合性能和弹性。”

因此在蔡慧阳看来，基于这样的技术背景，HCSF就获得了超高性能、无限扩展、简单易用的产品特征，且拥有广泛的接口支持，“支持更多协议意味着我们能够轻松适配前端的各种异构计算平台——目前已经能够同时支持五种接口协议，未来还能够支持更多协议。”蔡慧阳说。

具体谈到HCSF和HCP在具体应用中的关联，蔡慧阳认为，虽然两者都是软件定义的分布式存储架构，但是Hitachi Vantara给两者做了比较清晰的应用场景的侧重：“HCSF定位于高性能计算和高性能数据分析领域，满足高IOPS、高吞吐和低延迟的极致性能需求；而HCP面向那些采用S3接口的应用，存储海量的静态数据，同时满足企业合规对数据无篡改长期保存的需求。”他同时强调，事实上在非常多的企业应用场景中，两者是相互配合的关系：“前端是HCSF提供高性能的存储，后端是对象存储HCP——而终端用户对此并不会有所察觉，因为两个解决方案还是同一个存储空间，只不过是根据数据的冷热程度分别放在不同的存储层。”

写在最后

拨开纷繁复杂的基础架构和眼花缭乱的应用，企业真正开始关注数据的价值，无论如何都是一个令人欣喜的进步，说明企业开始将关注的重点放在IT能力，以及IT到底能够给现实业务带来怎样的增益，这事实上也是企业级IT最核心的价值所在。而对于企业而言，关注数据亦需要强调现实作用的同时，兼顾可持续性和全局性——毕竟，企业级IT的进阶还仅仅是刚进入下半场，距离终场还很远。