2017年10月,为云计算优化的机器学习和分析平台提供商Cloudera推出Cloudera SDX。通过将集中、一致的框架运用于schema、安全、管控、数据获取以及其他用途,SDX使得数十种不同的客户应用能够基于共享或者重叠的数据组运行,在为企业带来“共享数据体验”的同时,SDX降低了多功能数据应用的开发难度和部署成本,提高了应用的持续安全性。
要知道,在Cloudera SDX还没有正式推出之前云计算应用都在受到众多的高管级挑战,如网络安全、互联产品和服务、提高用户的终身价值等等,需要各种复杂的应用共同协作。
举例而言,物联网应用通常涉及数据获取、实时分析、批量机器学习以及流数据,新一代最佳平台集机器学习和实时处理于一体。在很多情况下,这些多功能应用集群要么在云计算架构上运行,要么依赖于云所产生的数据。
开发并交付这些复杂的应用对于内部数据中心的多租户集群而言是一项艰巨的挑战,在云环境中更是十分困难,因为数据上下文和策略不在瞬时环境里存留。此外,大部分云计算服务实际上都是在隔离的集群中运行的孤立应用。
在这样的前提下,SDX的推出更为符合时宜。它不仅使用户能够创建、管控、管理这些多功能、高价值的分析应用并且保障其安全。此外SDX还支持集成并且进一步增强平台功能的、经过Cloudera认证的合作伙伴解决方案。
Cloudera SDX的一个关键组件是共享数据目录,通过该目录可以实现持续安全、管控以及管理功能,并且可将其用于长期运行以及瞬时分析应用。此外,该共享目录还允许自助访问业务数据,因为已经不再需要IT重新创建上下文、控件或者每个新用例 。
“企业经常将安全、管控以及复杂性作为其不愿意将其操作型工作负荷转移至云端的主要理由。Cloudera通过内置安全和数据管控功能,使企业能够满怀信心应对其生产环境中的大数据工作负荷。Cloudera SDX建立在企业的IP上,具备跨云环境和内部数据中心的共享数据体验 。” Ovum公司首席分析师Tony Baer表示到。
那么Cloudera SDX会为我们解决哪些难题呢?
首先是解决孤立数据的问题,云端自助集群不是天然就共享数据和元数据,因此单独的集群就变成了事实上的孤岛。通过在按需应用和瞬时集群间共享一致的数据和元数据,Cloudera的客户可以保持敏捷性,确保每个孤立的集群不需要单独控制和管理,也不会产生额外的数据复制和存储成本。
其次就是关于安全漏洞,由于没有集中的安全控制,管理员不得不针对多份孤立数据持续反复运用安全和访问政策,产生了额外的工作量并且增大了敏感信息泄露的风险。有了Cloudera SDX之后,安全性持续在数据层面得到保障。安全策略普遍存在,当数据在新的分析应用中移动或者使用时,无需加以变更或者重新运用。
当然,想要应对如今的HIPAA和 PCI-DSS合规以及潜在的GDPR要求,共享数据和元数据目录必不可少。有了共享数据目录,就能够很容易迅速找出并且理解数据上下文,实现自助应用,并且提供可靠的审计和数据沿袭功能。
为了进一步增强云计算环境下的Cloudera SDX功能,Cloudera将会根据用户的需求进行不断的完善。例如,多集群目录,基于共享Amazon RDS或Azure用户共享MySQL的Hive元存储,用于存储和管理数据上下文。
包括多集群Cloudera Navigator功能,使得用户能够更容易发现数据并且管控数据访问,满足审计要求并且理解数据沿袭,以及多集群Sentry安全许可及政策,提供详细、基于角色的共享数据访问控制。
更为重要的是,Cloudera SDX将会实现不同地方的集群采用同一Cloudera Manager界面,从而简化操作并且增强数据验证功能。
Cloudera创始人兼首席战略官Mike Olson表示:“Cloudera 企业版能够加速数据科学、机器学习和分析,SDX是Cloudera 企业版的秘密武器。数据是世界上最宝贵的资源,是推动深入洞察,驱动机器并且化不可能为可能的源动力。从成立伊始,Cloudera就致力于帮助企业从其数据中获取价值。无论是对于IT还是业务用户,Cloudera SDX都简化了这一使命。”
如Mike Olson所说,Cloudera SDX支持多个公共云、私有云以及裸机配置,并且可供拥有Cloudera 数据科学和工程版本、分析型数据库版本、操作型数据库版本或Cloudera 企业数据中心版本许可证的用户使用。而作为Cloudera的秘密武器,SDX将会为企业带来怎样的共享数据新体验呢?