当今企业在云端工作负载管理方面所面临的最大挑战之一,是无法全面了解基础设施和服务支出。尤其是随着混合云和多云环境已成为新的事实标准,企业数据既存储在本地,也可能存储在多个公有云上,因此追踪管理不同部门和成本中心的云消费情况、保持平台稳定可控以及在这些不同基础设施上排查问题变得异常困难。
事实上,透过现象看本质,用户对有了更清晰的认知:首先,在云的环境下,光有调优远远不够。无论是是云平台,还是公有云和私有云,系统的可控性和稳定性很重要;其次,系统运维过程中,可以优化资源的管控;最后,可以有效帮助运维人员迅速排查故障,支撑数据的采集和分析。
“Cloudera Observability让这些难题迎刃而解。”Cloudera大中华区技术总监刘隶放在接受笔者的采访时表示,Cloudera Observability依托Cloudera在混合数据解决方案领域的经验,使客户能够监控、了解和优化其CDP部署。客户还可以通过可自定义的自动操作和预先构建的操作,发出警报、主动避免问题并优化工作负载。
值得一提的是,在Cloudera Observability之前Cloudera 有一款产品Workload Management,它主要负责工作负载优化,在Cloudera Observability中这一功能得以延续——无论是公有云,还是私有部署,都可以用最高的效率、最少的资源帮助客户优化和查询。
“Cloudera Observability是一个很好的工具,能够在方法论基础之上进行辅助:让程序可以自如的在公有云、私有云、本地部署之间移动,这样在不同的平台,保证开发成本。对于开发者来说,也不需要在不同云上考虑查询引擎的变化;同时,在数据移动过程中,会有一些工具辅助数据移动,保证原数据的一致性,让数据的移动变为可能。”刘隶放强调,客户很怕被锁定,从而缺乏议价权,因此 Cloudera Observability在公有云上面解决了一个问题:尽量去屏蔽底层,通过专业能力屏蔽问题分析的事先投入,尽量指标化,提取主要特征,从而帮助客户第一时间掌握信息。
先讲方法论,然后再梳理部署,最后通过工具辅助,这就是Cloudera Observability产品背后思维逻辑:它可以同时实现收集数据和分析数据,帮助客户解决多云环境下的业务烦恼。
目前,Cloudera Observability是基于公有云的SaaS版本。刘隶放透露,考虑到国内客户有很多,特别像基金客户,可能对监管需求,数据很敏感,Cloudera会推出一个本地的部署版,帮助客户在本地分析和支撑。比如传统的产品引擎Hive等都会支持。
据了解,Cloudera在已有适用客户的平台上面做了一个数据分析:第一基础设施的回报,因为调优、预测、评估,提升30%;对于售后,包括客户对外运维,SCL以及SLA达到了43%的提升;故障排查更是达到50倍的效率。
另一方面,AI市场的高速成长,客观地反映出企业用户对于AI关注点的进步:他们更希望通过AI技术手段,充分实现数据的分析和价值发掘,与业务相结合,从而实现让数据真正发挥价值,最终完成其“数字”应用的完整流程。
“Cloudera是一个数据平台管理者,这对Cloudera是一个非常好的机会。”在刘隶放看来,市场上公有云有很多大模型可以直接使用,但企业却选择了合作伙伴,原因在于:训练数据的背景跟数据有非常大的相关性,客户关心的是自己的业务跟数据训练的结果,而且数据的关联性和准确很重要。
对于Cloudera来说,大数据和分析是核心优势。在此之前,Cloudera也经历过结构化、半结构化的数据、会用HIVE、SQL,做查询和数仓相关的事情。湖仓一体方面,Cloudera也可以把以往的数据湖、数据仓融合在一起,通过数据的加工和处理,尽量在保持原始数据的基础上进行加工,但是有时为了达到一个最终结果,还需要一个验证的过程。
显然,大数据模型更像是把数据都放在里面,通过模型的数据训练,引入相应的数据库进行评估,最终以交互的方式给出答案。不过这一切都在AI时代发生了变化:在所有数据里进行训练,对客户答案进行分析。
过去十年看,无论是MapReduce查询引擎,还是现在的ChatGPT,不管数据处理方式如何变化,数据是不变的,这是客户最重要的东西。“只需在数据基础上提供相应的服务,这就是Cloudera深度参与的一个要点。”
从产品的角度来看,Cloudera可以提供混合多云的方式,赋能各个公有云和私有云上的企业数据,通过与业务相关的背景信息使企业AI变得强大;同时Cloudera SDX提供在任何地点的企业数据上创建可信AI所需的安全、治理和溯源;此外,CML平台不仅可以对市面上所有的模型进行适配,也可以充分利用Cloudera的知识库,加工处理数据。
“Cloudera拥有丰富的数据云服务,但未来Cloudera的目标是做一个AI的平台。”刘隶放表示,Cloudera的基础平 CDP拥有2500万TB的数据量,这个是对客户未来的分析系统做分析提供数据的支撑,而且可以提供数据加工的过程,保证数据的安全。更重要的是,Cloudera的数据平台可以直接嵌入LLM模型,为客户提供更加民主的方式。这些都让Cloudera的AI转型有迹可循,掷地有声。