随着数字化进程的不断推进,数据对于众多企业而言,已经不仅仅是核心资产,也是重要的生产资料和生产工具——企业在自身的业务管理、战略决策和规划部署的过程中,数据都发挥着越来越重要的作用。而与数据重要性日益提升相对应的,是由于数据边界的不断拓展所带来的数据安全性方面的担忧。
从根本上说,企业数据边界的拓展,主要有两个重要的影响因素:其一,与企业业务相关的IT边界不断拓展。以往企业用户往往是将“更重要”的数据留存在本地数据中心,并借助一切必要手段保障数据的安全。但是由于包括云计算、边缘计算等企业基础IT架构的不断演进和深入应用,企业核心的IT能力和业务范畴开始广泛地分布在包括本地、云平台,甚至边缘设备上;其二,随着ChatGPT带来的AI风潮,企业对于数据应用、数据分析的需求被空前释放,企业用户对于算力的要求也越来越高,因此更多借助共有云平台实现对数据的管理和应用,成了企业现实的业务发展需求。
“数据,牵涉到很多业务的价值,是要绝对保证安全的。同时我们也要去满足数据的合规行要求。只是:安全和合规往往与数据应用是矛盾的关系,保证数据安全和合规,就会对数据的流动和应用产生一定的影响。”陈晓建,亚马逊云科技大中华区产品部总经理在日前一次媒体沟通会上强调,从公有云提供商的角度看:保障数据安全、合规,与增强数据在不同介质间的流动性,以增强对业务的支持,已经成了“一对制约企业整个业务发展、价值最大化的关键矛盾”,已经成为一个如何在应用企业的IT与业务之间建立起一个积极正向关联,并利用IT技术手段促进企业业务成长的问题。
亚马逊云科技大中华区产品部总经理 陈晓建
在陈晓建看来,企业所面对的问题和挑战虽然看似复杂,但实际是有一定共性的:“合规团队需要保证敏感数据能被有效识别并得到合理的保护和存储;数据和业务团队需要在确保数据安全的前提下进行高效协作;运营和安全团队则希望在自身的范围内,满足所有与数据安全相关的需求。”因此在他看来,所有不同部门关于数据安全性的问题汇总起来,实际可以被总结为四个关键安全业务节点:数据识别、数据可见、数据协作和数据操作。
“最近全球有很多国家和地区都推出了很多有关数据隐私和安全方面的法律法规,包括欧盟的GDPR,美国的ADPPA。中国也发布了很多跟数据相关的法律法规,譬如说《个人信息保护法》、《数据安全法》,包括2022年7月7号网信办推出的《数据出境安全评估办法》……无一例外对个人数据和敏感数据的使用都提出了非常具体的要求。”陈晓建认为,所谓数据识别,就是从企业繁多的数据当中,识别出敏感数据和个人数据,从而保证企业能够对这部分数据做针对性的处理,在保证数据安全的基础上,确保其业务的合规应用。“以一个跨境电商为例,在业务日常的过程中,会涉及到大量的、与用户相关的个人数据,包括像邮寄地址、姓名、电话号码、信用卡号等,这些都是需要被有效管理的个人敏感数据。由于业务的属性,这些数据往往分布在不同的信息系统,由不同的运营商提供操作,这种情况下,企业就不仅需要识别这些数据,同样需要有效的方式,打通不同的数据孤岛,实现统一完整的数据合规应用。”
如果说“数据识别”还仅仅是针对企业内部各个部门管理各种不同来源数据的一种机制,那么“数据可见”的作用,就是在保证安全的前提下,在企业内不同部门间,建立起一个数据应用的安全通道和数据管理模式。
陈晓建提到了“数据生产者和数据消费者”的观点。在他看来,目前企业的业务数据本身就存在相当的复杂性,一方面,数据结构存在多样性,结构化数据和非结构化数据都大量存在;另一方面,数据的来源也越来越多,不仅有存在云端、本地的数据,还有来自第三方数据。因此对于企业内部的不同业务和职能部门而言,他们既是数据的生产者,又是数据的消费者,因此对于他们而言,不仅需要能够及时、准确地获得跨部门的相关数据,而且还必须具有处理各种结构类型、来源数据的能力——这就不仅仅涉及到数据流动的问题,还涉及到数据应用的能力问题。
“在以往企业内部对于数据的管理和处理分为集中式管理和联邦式管理两种模式:前者是通过一个集中式的团队来处理来自于多个部门的数据,进行汇总分析;后者则是由统一的团队来制定数据治理的原则和政策,但数据的存储和运营由每个部门独立完成。”陈晓建强调,相对来讲,集中式管理模式成本高,且需要应用场景相对简单;相对而言,联邦式管理更为先进,也更适合数据应用场景复杂的大中型企业采用,但是,“如何实现数据的可见就变得非常重要:一个部门生产的业务数据,要通过怎样有效的方式让其他部门可见、可用,就成了很多企业部门所面临的挑战:数据生产者需要把自己的数据,通过某种安全的方式提供给其他部门的数据消费者,这是一个数据双向交互的关系和机制。”陈晓建说。
沿着企业现实业务需求的脉络:企业正常的业务流程除了需要内部协同一致外,往往还需要与整个产业链的上下游企业配合,甚至需要借助第三方来完善自身的业务。
“上下游企业间的数据协作比较容易理解,例如汽车刹车片企业,他们需要整车厂提供一些数据用来做产品的跟踪和优化的分析,如用户在驾驶不同车辆时的实际使用数据变化——这些数据,整车厂是有的,但是由于这部分数据涉及业务隐私、用户隐私,因此整车厂是没办法把这部分用户的使用数据开放给上游合作伙伴的。”至于对第三方数据的需求,“如果需要判断某个商区的客流情况,那么第三方停车场的停车数据就可以作为判断依据之一。而这种数据本身也涉及到用户隐私,因此也存在如何使用和共享的问题。”陈晓建认为,对于这种企业间的数据协作的问题,实际上是一个“数据可用而不可见”的问题,即通过一些安全的手段或者是代码,让合作伙伴可以使用数据,并且能把结果带走,但不接触和带走原始数据。
作为数据识别、数据可见、数据协作和数据操作四个关键节点的最后一个,数据操作更多强调的是数据管理平台的效率。
Gartner在2022年发布的网络安全的重点趋势显示:企业用户对于安全供应商的整合需求,已经从两年前的29%提高到了75%,而且有43%的企业与超过10家以上的安全供应商合作。“企业对安全供应商整合需求的快速攀升,主要原因是企业的业务变得越来越复杂,其背后的IT系统就会随之变得更加复杂,因此所需要的IT供应商就会变得越来越多。”因此在陈晓建看来:对于应用企业而言,其在安全领域的需求并不仅仅要解决对安全供应商的整合,同时也需要解决对整体企业安全系统的管理效率问题,如对安全日志的监管和审计的要求。“日常的日志管理如何更加高效?在发生一些安全风险的时候,如何通过日志的回溯和分析可以更快、更效地追溯到问题的源头?这些是每个用户都会碰到的问题。”陈晓建说。
而针对企业在应用公有云时的四个安全业务节点——数据识别、数据可见、数据协作和数据操作——陈晓建谈到了亚马逊云科技几个具有针对性的技术解决方案。
敏感数据保护解决方案(Sensitive Data Protection on Amazon Web Services, SDP)是亚马逊云科技为敏感数据识别与保护这一场景量身定做的方案。
“SDP是一个完全开源的云原生的解决方案,用户完全可以进行自动化、自助部署,并且能够根据业务的需要,来对源代码进行修改,以满足对业务最好的支持。“陈晓建解释说,敏感数据保护解决方案利用机器学习、模式匹配等方式,能够自动识别敏感数据,允许客户创建数据目录、使用内置或定制数据识别规则定义敏感数据类型。同时,该解决方案还提供中心化的管理平台,企业用户可通过网页应用程序对敏感数据资产进行可视化管理。通过敏感数据保护解决方案,客户可以加速实现业务数据合规,为下一步释放数据价值铺平道路。“敏感数据保护解决方案特别适用于两种场景:第一种场景是存量数据多,并且分散的情况,需要利用这种方案发现四处分散的数据;第二,对于数据类型不好判断的前提下,利用这个方案可以自动根据合规的要求来快速识别用户所需要识别的这些敏感数据。“陈晓建说。
亚马逊云科技针对“数据可见”的解决方案是Amazon DataZone——这是亚马逊云科技在2022年12月宣布推出的一项全新数据管理服务。
“第一,使用了Amazon DataZone之后我们会对数据进行登记规范;第二,数据的消费者通过Amazon DataZone快速有效地找到所需要的数据;第三,数据的共享层面不需要切换多个界面,在Amazon DataZone就可以进行可视化的管理,包括ERP系统可能会用到数据库的数据,在数仓会使用到Amazon Redshift在里面存放大量的业务数据,或者存放在Amazon S3数据湖里面的数据等。”陈晓建介绍说,Amazon DataZone可以让用户更快、更轻松地对存储在亚马逊云科技、客户本地和第三方来源的数据进行编目、发现、共享和治理,从而使数据开发者、数据科学家、分析师和业务用户等多种角色都能够轻松访问整个组织的数据,从而发现、使用数据,并且通过数据协同来获得业务洞察。
在解决企业间数据协作问题上,亚马逊云科技针对不同场景提出了两个不同的解决方案:针对企业上下游供应链间的“数据协同“,亚马逊云科技推出了Amazon Clean Rooms;面对企业需要第三方数据来协同业务创新,Amazon Data Exchange则更有优势。
“简单来讲,用户可以通过简单的设置,就可以建立一个安全的Clean Rooms,通过这个Amazon Clean Rooms,他们就可以去邀请合作伙伴来实现数据的协同,并创建分配每个成员的权限:在这个过程中,企业的业务数据并不会移动,也就是说,原始数据依然保留在用户自身的数据位置,并没有说把原始数据通过数据的协作分享给其他的客户。“陈晓建强调,Amazon Clean Rooms类似于创建了一个安全的计算环境,在这个计算环境中,数据一直都是以加密的状态来参与分析操作,同时,分析结果本身也是加密的。在这个环境内,数据的消费者可以通过设定不同的代码对整个开放的数据进行计算,从而既实现了数据的有效的共享,同时也保证了数据安全,防止了业务数据泄露。
而相对来说,Amazon Data Exchange的工作逻辑和定位就更容易理解:这是一个亚马逊云科技提供的一项服务,企业用户可以直接通过其获的市场上的公开数据集。“从2019年发布到今天为止,Amazon Data Exchange提供超过3500种的第三方数据,数据来源覆盖包括金融、天气、地理、健康医疗等多方位的行业和领域的数据。”陈晓建介绍说:亚马逊云科技的客户可以直接通过Amazon Data Exchange查找和验证他们第三方的数据,而获取数据的过程非常简单,“不需要做数据的物理拷贝,可以直接通过Amazon S3的输入、表格查询或者是API的方式,就可以非常方便地进行数据的访问。包括生成式AI的模型训练也可以非常方便地把这些公开的数据集导入到数据库进行数据的处理。”
最后专注于“数据操作“的解决方案,是亚马逊云科技创立了业界第一个专门用于安全的数据湖,叫Amazon Security Lake。
“我们建立这个数据湖的目标,就是想统一管理来自于不同来源、不同系统的安全日志,并且能够利用这些日志进行安全分析。”陈晓建说,为了要建立一个统一的安全数据湖,解决不同安全厂商的日志格式不统一的问题。2022年,亚马逊云科技联合了15家安全行业的头部企业,包括Palo Alto Networks, Symantec, Trend Micro等,推出了OCSF的开源的协议框架。通过该协议框架,厂商之间可以统一完整的日志格式。“在OCSF发布的一年内,加入的厂商越来越多,从最开始15家目前达到了130多家。自从有了这样一个统一的日志格式,企业用户就可以对不同来源、不同系统的安全日志进行更有效的管理。
写在最后
事实上,无论是“数据识别、数据可见、数据协作和数据操作“这样的公有云数据安全节点,还是敏感数据保护解决方案、Amazon DataZone、Amazon Clean Rooms、Amazon Data Exchange和Amazon Security Lake这样的针对性解决方案,无非是说明了两点:第一,技术的不断进步总是会带来更多的应用挑战;第二,应用挑战最终都能够通过技术的迭代所弥补。这本身就是一个此消彼长、彼此促进的过程,也是技术得以不断进步,企业业务不断成长的动力源泉。而对于应用企业而言,在业务和安全之前,是否需要找到一个逻辑次序和优先级别?
“亚马逊本身就是全球最大的电商服务网站,所以亚马逊本身也会涉及到如何平衡业务灵活性和安全的问题。我们的经验是:对安全团队来说,它的作用不是告诉业务团队哪些不能做,而是为业务团队提供在满足合规前提的正确方法——安全团队的工作不是为了防止一些事情发生,而是要帮助业务团队实现在合法合规的、安全的前提下,促进业务的尽快实践。“陈晓建这样说。