专注于数字技术的商业观察者
登录×
观察
2025-04-10

核心就位,Amazon SageMaker加速释放数据价值

时间: 2025-04-10 编辑:

在生成式AI浪潮愈演愈烈的今天,越来越多企业意识到,掌握自己的数据比单纯调用开源大模型更能体现差异...

在生成式AI浪潮愈演愈烈的今天,越来越多企业意识到,掌握自己的数据比单纯调用开源大模型更能体现差异化优势。这股技术风潮带来了前所未有的创新动力,也将企业数据平台架构推向新的复杂边界。尤其在追求私有化部署的企业环境下,如何在确保合规、安全的前提下,最大化释放数据价值,成为横亘在数据团队与AI团队之间的一道难题。

事实上,企业面对的不只是模型训练问题,而是一整套包括数据准备、数据质量治理、模型开发、应用部署在内的系统工程。多工具并行、多角色协作、权限割裂、数据孤岛……这些都是阻碍创新落地的真实挑战。

在这样的背景下,亚马逊云科技在近日宣布Amazon SageMaker Unified Studio已正式可用,这是一套独立的数据与人工智能(AI)开发环境,也是新一代Amazon SageMaker的核心。

作为一个试图打通“数据—分析—AI开发”全流程的统一平台,Amazon SageMaker Unified Studio将多种工具整合至一站式的界面中,为客户提供一致的开发体验,不仅能够节省开发时间,还能简化访问控制管理,使数据从业者能够专注于核心任务——构建高质量的数据分析场景和AI应用。

“如今企业数据工具越来越多,技术不断迭代,反而带来了协同成本的激增和数据治理的复杂化。你可能在一个业务线里就用到了多个工具,这就意味着多套权限体系、多种数据格式,团队协作也会变得极其困难。”在亚马逊云科技大中华区数据及存储产品总监崔玮看来,Amazon SageMaker Unified Studio的初衷,正是将亚马逊云科技过去十年积累的分析、存储、治理和AI服务,包括Amazon Athena、Amazon Glue、Amazon Redshift、Amazon EMR、Amazon SageMaker AI、Amazon Bedrock等工具的调用能力聚合到一个界面中,为数据科学家、业务分析师和工程师们构建一个共同工作的基础平台。

当然,亚马逊云科技并不期望这套平台取代所有已有工具。崔玮坦言,对于那些已经深度使用单一引擎(如Amazon Redshift、Amazon EMR)的开发者而言,Amazon SageMaker Unified Studio并非必须迁移的选项。“它更适合有多工具协作需求的用户,或者需要跨角色协同开发的复杂组织。比如像丰田汽车这样的企业,不同业务部门间的数据打通、权限划分和流程协同,本身就是一项系统工程。”

另一方面,企业越来越重视数据的差异化价值,尤其是内部私有数据在模型应用中的关键作用。然而,如何在充分开放数据以支持业务创新的同时,又能有效控制敏感数据的访问权限,防止数据泛滥或误用,成为当前企业客户最为关切的难题之一。

针对这一问题,亚马逊云科技在新一代Amazon SageMaker中引入了Amazon SageMaker Catalog,作为整个数据与AI治理体系的核心支撑平台。Catalog建立在Amazon DataZone等产品基础之上,具备统一的数据资产发布、权限分配、访问订阅、数据质量监控与血缘追溯等能力,形成了一个端到端的数据治理闭环。

具体来看,企业可以将所有数据统一发布到Catalog目录中,构建标准化、结构化的数据资产体系;不同角色和项目组可基于Catalog灵活配置访问策略,避免了传统IAM角色管理的繁琐与高错误率。

在Catalog的加持下,数据血缘和质量检测功能也被深度集成。通过可视化图谱,用户可以清晰地追溯数据表的来源与流向,甚至精确到字段级的变化关系。这不仅增强了数据治理能力,也为构建可信赖的AI模型打下基础。“很多企业对数据安全和合规性的关注,不亚于对AI模型效果本身的要求”,崔玮强调,“我们希望让数据既可被广泛使用,又不被误用。

值得一提的是,Catalog与SageMaker Unified Studio深度集成,使用户在访问引擎和构建AI应用的同时,能够自动对接到合规授权的数据资产,提升协作效率并保障数据安全。

数据孤岛”并不是一个新问题,但在当前企业IT环境日益复杂的背景下,这一问题反而愈发突出。其根本原因之一在于企业内部存在多种技术体系的并存与演化路径不同。

对于“原生云企业”,数据通常从大数据平台(如Hadoop)与数据湖起步,技术栈偏向开源和弹性;而传统企业(如金融、零售、制造)多是从Oracle、Teradata等结构化数据仓库开始,偏重事务性和SQL标准。随着这些传统企业纷纷向“数据驱动业务”和“ToC+ToB并举”转型,不同数据源、格式、处理方式并存,给数据整合和治理带来前所未有的挑战。

为应对数据体系日趋复杂化,Amazon SageMaker引入Amazon SageMaker Lakehouse,意在打破传统湖与仓的界限,构建一个覆盖所有数据形态的统一访问层:无论数据存储于Amazon S3数据湖还是Redshift数仓,用户均可通过统一界面访问。同时借助Iceberg这种兼容性强的数据表格式,提供跨平台、多工具通用的读取能力。

此外,亚马逊云科技一直强调非常开放,因此不仅Amazon SageMaker Unified Studio用户能访问,用户也可以通过任何支持Iceberg API的第三方工具读写数据,实现真正的数据共享与互操作。

Lakehouse的成功构建,关键在于“数据打通”能力的可持续实现。亚马逊云科技在此基础上进一步引入zero-ETL机制,突破了长期以来数据整合依赖繁重ETL流程的掣肘。

Zero-ETL的本质是将数据集成嵌入平台能力中,让数据实时同步、按需查询,而非通过管道抽取与复制。早期已支持Oracle、DynamoDB、S3等与Redshift的zero-ETL集成,后续拓展至更多第三方应用如Salesforce、ICP等;同时搭配Amazon Glue Connector,支持数百种SaaS与业务系统的数据对接,实现大规模异构数据源统一访问,最终形成一种联邦查询模式:一个Query即可同时触达数据湖、数仓乃至外部SaaS数据源,用户无需关心数据位置、格式、协议,也不需承担移动带来的存储冗余与安全风险。

也就是说,通过Lakehouse + zero-ETL + Iceberg API的技术组合,Amazon SageMaker不仅在技术上实现了数据访问统一,更在架构设计上为企业构建了一个高度开放、灵活可控的数据底座。

写在最后

当下,AI从早期的探索期进入企业级应用阶段,数据、算力、算法的边界逐渐清晰,真正决定成败的,是企业是否有能力把这些要素“有机协同”。而新一代Amazon SageMaker,某种程度上正在扮演那个“连接器”的角色——既是工具聚合,也是角色对话的桥梁,还是数据安全与业务价值之间的平衡点。

在AI工具遍地开花的今天,能够“让企业少点内耗、多点产出”的平台,正变得越来越重要。亚马逊云科技显然意识到了这一点,也选择以自己的方式,在这条路上走得更深一步。
如崔玮所言:“企业的组织越复杂,这个平台的价值就越大。”这一判断背后,是亚马逊云科技在众多客户场景中反复提炼出的行业洞察。而对于那些正站在生成式AI浪潮前沿,试图实现业务变革的企业来说,这样的平台也许正是打破数据孤岛、重构协作边界的关键。

标签:
版权声明:本文版权归数字商业时代所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。