AI的战略在过去一年里备受瞩目,成为业界广泛讨论的话题,Cloudera自然也不例外。
“与以往堆人、堆硬件式的粗放发展,现在的企业都在追求高质量的发展,更加看重技术本身对于企业自身业务的价值。”Cloudera大中华区技术总监刘隶放从业的25年时间一直都在跟数据“打交道”,他认为,从生产数据向分析数据的过程,无论是什么样的模式,都可能会在公有云和私有平台上去进行分配,比如以SaaS模式对客户进行服务,进行分析。
Cloudera大中华区技术总监刘隶放
随着数据越来越多,企业业务系统发掘数据时,会要求实时性、完整性、结构化和非结构化的数据,这个时候数据的重心就会发生变化,企业更倾向于用数仓的方式去管理数据,数据湖仓一体架构成为一个重心。
另一方面,数据的治理是数据分析对外服务非常重要的一块。如何做数据治理?无论是数据中台,还是数据编织,就是以多种数据语言去形成不同的数据格式,再处理它对外进行服务。
以车企为例,对于车企来说,数据安全性非常重要,而且由于品牌投资方的不同,数据域的归属和数据汇报方式也变得复杂。在这种情况下,车企需要一种能够适应不同资本结构下的数据管理策略,以确保数据安全性和合规性,同时能够实现跨域之间的数据沟通和服务。
此外,企业在推进人工智能策略的落地时,需要一个可信的数据。从传统的机器学习到现在的生成式AI,构建人工智能应用其实是一个过程:先有数据,再构建模型,开发模型或是引用模型,在此基础上,通过微调、提示词的方式创建模型,然后再探索部署,最后到生产。
“在数据可信的情况下,数据的组织和集中很重要。”刘隶放强调,在AI领域取得成功,从0到1的过程很重要。当企业里面有相关的数据资产、文化的沉淀,才能够往前迈过0到1,利用数据。
在刘隶放看来,在今天这样一个市场环境之下,Cloudera也毫无疑问的大举AI的旗帜,给AI提供数据作为一个集中化可信的数据中心。“现在我们对云的要求已经不是简单的有一个应用部署在公有云上面,不仅要在云上部署应用,还要能够管理和集成分布在不同平台上的数据,以支持更加灵活和高效的业务运营。这需要企业采用现代化的数据架构和技术,以实现跨平台的数据联邦访问。”
近日,Cloudera发布2025年五大科技趋势预测,揭示了在未来一年生成式AI和AI Agent等创新技术的发展趋势。其中包括生成式AI的应用将趋向务实,AI Agent将在商业决策中发挥重要作用。同时,企业面临着AI生成数据激增的挑战,亟需提升数据治理能力。企业需要强大的数据管理和多云策略来访问、存储和分析数据,从而获取数据的最大价值,充分发挥AI潜力。
生成式AI”热度减退”,企业将采取更务实的AI策略
众所周知,AI是机器学习的一部分,生成式AI又是AI的一部分。在生成式AI之前,大部分企业已经在广泛的应用机器学习的算法。所以,对于这些企业而言,如何抉择适用于自身的AI策略十分重要。
数据显示,预计到2025年,企业将在生成式AI应用上分化为两大阵营。一类是已成功应用生成式AI的企业,通过成熟应用实现了显著成效;另一类企业由于缺乏足够的数据储备,难以从生成式AI中获得相同效益。因此他们将更倾向于采用传统AI或确定性机器学习模型,以提升效率和生产力。
“开始做最简单的生成式AI问答很容易实施,每个人都可以去做,但是企业一旦对外服务客户,就要特别看重。”刘隶放表示,企业不要去羡慕市场上的生成式AI有多火,要先把马步扎实,机器学习好就继续做。另外,企业要形成企业数据资产的习惯,收集数据,扎根数据,然后不断地在小范围有目标地去尝试,去找自己的路子。
AI智能体重塑商业决策
虽然AI仍无法复制人类做出的所有决策,但明年Agentic AI将改变这一现状。
“我们在没有AI智能体之前,包括大语言模型最开始是按照一条固定的路线,参数调好,提示调好,这个时候它的答案基本上相对固定。”刘隶放认为,未来AI智能体将形成成熟的实践,特别是在生态圈的形成方面,包括硬件、软件和方法的整合。与此同时,无论是银行、制造、还是医疗等行业,随着算法的形成,对生成式AI决策性、时限性有更大的促进之后,会有更多的产业跟它结起来。
“全天候”AI为数据管理带来新挑战
AI将如同空气无处不在,渗透至个人生活的方方面面。随着AI全面普及,其生成的数据量将呈现爆炸式增长。随着中国企业对计算能力需求的提高,这一趋势也会为数据管理带来巨大挑战。
IDC预测,到2026年50%的中国企业将与云服务商形成生成式AI平台、开发者工具、基础设施的战略合作,这给企业数据和成本的管控治理提出了新的要求。
“我们一个知名的中国制造业企业客户,它把收集的信息从以前的按每个小时,到现在按几分钟就要收集一次,数据量之大超乎想象,每年要收集50亿条数据,数据压缩到10个T。这个时候企业要追求更新的算法以及更廉价的储存方案,来满足AI的能力。”刘隶放表示,面对数量庞大且种类繁多的AI生成数据,企业如何从中挖掘出有价值的信息,又如何确保AI提供的洞察信息既相关、又具可操作性,同时满足最基本的安全性和弹性要求,避免其成为无意义的噪音,成为企业亟需攻克的难题。
为了充分释放 AI 潜力,企业需要强大的数据管理和多云策略来访问、存储和分析数据,无论数据是在本地、云中还是在边缘,都能提炼获取数据的最大价值。
单纯的混合云架构已无法满足企业需求
什么叫单纯的混合云架构?刘隶放以教培行业场景为例补充说,一个课最多的时候9000多个人,以50个人分成一个班,有多20个班,1万多人同课。50多个人就是在公有云上面开了一个小的模块,只要收够50个人的钱,那第51个人的时候就可以开出另外一个教室,这其实在公有云上对应就是一个模块,这种经营模式就叫业务上云。
但昂贵的成本、网络带宽以及硬盘速度的高要求,让企业不得不重新评估它所带来价值。尤其是随着生成式AI的全面生产和规模化部署。单纯的混合云架构已无法满足企业需求,用于数据和分析的多云及混合能力将成为关键。
随着混合环境的逐步扩展,企业的数据分布于本地、大型机、公有云和边缘等多种平台,生成式AI模型需要灵活部署到数据所在之处,确保数据和工作负载在业务内的无缝迁移,以产生高效洞察并满足企业需求。
私有大语言模型成为企业优选
企业内部私有的大语言模型会取代公有的模型,并不代表企业自己要去自己开发大语言模型。
因为企业在选择大语言模型时,首要关注的是合规性。企业利用公有云的算法进行训练,但在这个过程中可能会遇到合规问题,尤其是涉及隐私和知识产权的问题;与此同时,由于隐私保护的考虑,许多企业更倾向于在私有平台上进行数据处理,而不是在公有云上。这样可以更好地控制数据和模型的访问权限。
另外,越来越多企业将采用企业级LLM,这将对GPU的高性能支持提出更高要求,以比传统CPU更快的速度运行,同时确保数据管理系统具有更高的安全性和隐私保护。
“企业在选择模型时会考虑硬件的灵活性,根据是否拥有GPU资源来选择不同的模型。如果有足够的GPU资源,企业会选择GPU模型;如果没有,也会考虑CPU或X86架构的模型。”刘隶放说。
值得一提的是,在12月12日Cloudera内部发布了7.3.1版本,这个版本正式支持ARM芯片,与国内自主可控、安全和信创的要求相符合。刘隶放透露,Cloudera计划与国内客户合作,进行ARM芯片的适配,并预计在新的部署上使用ARM芯片。
写在最后
事实上,无论国内,还是国外企业,大家都在求生存、求发展。如果只看中国市场,这个盘子可能有点不够,此时Cloudera将目光转向了出海。
那么Cloudera产品能不能适应客户出海需求?刘隶放的答案是肯定的。当客户出海遇到合规性难题时,Cloudera的技术优势和全球化布局成为其得天独厚的优势。
“我们与国内互联网大厂最大的区别就是,我们现在是私有平台,而且掌握的代码是可以控制的。”刘隶放表示,Cloudera在近日发布的7.3.1中就包含CVEs服务,它是安全的漏洞扫描的产出。“企业只有拥有代码才会有去解决代码的能力,开源产品也是一个生态圈, Cloudera可以帮助企业解决这样的问题。”