数据引领着人类社会不断进阶,开启全新的时代之门。但数据同样是把双刃剑,越来越多的人意识到,在享尽其红利之时,他们也需相应地面对数据爆炸带来的隐痛。
如今,数据无时无刻不在生成。据IDC预测,截止2025年,全球数据量将从2019年的45ZB增长至175ZB,年复合增长率达61%左右。175ZB这个数字似乎有些抽象,但IDC在《数据时代2025》白皮书给出了几个形象的比喻——如果将175ZB的数据存入蓝光光盘中,那么这些光盘叠起来的高度将是地球到月球距离的23倍,这些光盘围起来也可绕地球222圈;而若以25Mb/秒的速度下载175ZB的数据,所需的下载时间则为18亿年。
对企业与组织而言,数据量的激增将带来诸多影响,首当其冲便是存储与治理方面的难题。无论是使用本地存储或是云存储,存储大量的数据都意味着一笔不菲的开销。在治理上,麻烦更是层出不穷,暗数据是诸多棘手难题的核心。
暗数据泛指那些没有被发掘、理解的数据,可涵盖多种形式,如文本、图像、音频、视频等等,既可能是结构化的数据,也可能是非结构化的数据。根据Veritas早前开展的《数据冰山》调研,对于大多数企业而言,在他们存储的数据中,仅15%的数据是关键业务数据,33%的数据则为ROT数据,也就是那些冗余、过期或不重要数据,而剩下的52%数据则为既不可见、价值也未知的暗数据。
暗数据就像水面下庞大未知的冰山,诸多问题潜伏其间,高额的成本开支便是其一。以大多数企业的平均数据存储量10PB为例,10PB的数据量意味着企业存储着约合231亿个文件,按照比例进行测算,其中,至少约120亿个的文件,企业对其一无所知——部分文件或许很有价值,但更多的是冗余、年代久远且琐碎的文件。根据存储1PB数据每年约花费500万美元的平均值来进行计算,存储10PB数据每年将给企业带来约合5000万美元的开销,而其中2600万美元都花在了存储价值未知、用处也未知的暗数据上,形成了极大的投资浪费。另一个在开支上需要深思的问题是,Veritas的调研报告提出,企业的数据量将以每年39%的速度不断累积,但大多数企业,显然并未准备与之相应的预算增幅。
暗数据给企业在运维层面带来重重挑战
暗数据可能带来的第二个挑战则与日益严苛的数据合规紧密相连。近两年间,许多国家及地区陆续出台了数据安全领域的法律法规,除名声在外的欧盟通用数据保护条例(GDPR),以及于今年1月1日生效的美国加州消费者隐私法(CCPA)外,周边国家诸如韩国、日本、新加坡等,都先后制定了针对个人信息、隐私保护的法律条文。我国也于今年正式提出,将尽快制定个人信息保护法、数据安全法等法律法规,此举成为近两年间,我国在数据安全立法领域的重磅动向。
但以生效2年多的GDPR为例,目前企业在数据合规方面的情况不容乐观。官方数据显示,仅2019年,欧盟就对违反GDPR的企业级机构开出了累积4.28亿欧元的罚单,特别是2019年下半年来,欧洲各国执法机构逐渐打破GDPR生效初期的慎重,接连开出了数张上千万欧元的罚单,榜单上不乏一些大众耳熟能详的大型跨国企业。
在日益严峻的合规背景下,大量不明的,未进行分类的企业数据就像随时可能喷发的火山,而距离下一次危机爆发只差一次成功的黑客攻击。而更糟糕的是,随着云和移动环境在企业办公中日趋偏重,它们也逐渐成为了企业数据安全中最薄弱的一环,这些环境中的大部分数据未经分类且未受保护。在Veritas的调查中,仅有5%的全球企业表示,其公有云中的全部数据均以实行分类管理,6%的全球企业表示,他们对移动设备中的数据全部进行了分类管理。在中国,这两个数据均徘徊在1%左右。
提高数据可见性,发现数据真正的价值
想要应对数据大爆炸及暗数据带来的难题,企业需建立高效的数据管理策略,对数据进行全生命周期的管理。在Veritas看来,对数据“洞察力”和“可见性”的投资是跨越幽谷的关键,企业对数据了解的越透彻,就越能够准确判断其中的价值与潜在风险。
首先,对数据的可见是评估企业信息资产价值、并进行相应决策的关键。在“可见”的基础之上,企业才能更好地确定应保留哪些数据,并确定保留时长,同时发现无用数据和敏感数据,进行相应的分类处理,从而最大化地消除管理浪费并降低潜在风险。
其次,对数据的可见性也是施行访问控制的基础。在数据合规日益受到公众瞩目的当下,企业需确保对数据访问权限的分配是合宜的,雇员无法访问他权限之外的其他内容。此外,企业也需对访问情况进行审核和跟踪,从而了解对数据的访问及更改明细,而这也恰巧与“数据可见性”息息相关
再来,对数据的可见性也可帮助企业识别用户风险,探查可能存在的恶意或异常行为。尽管大多数“异常行为”通常最后都被证明是良性的,但企业并不能百分百保证雇员、供应商不会存在恶意的数据收集或获取行为。在对数据全局的洞察之上,管理员能循迹特定员工的文件活动、访问及行为情况,及时洞察潜在风险。
最后,对数据的可见性也可有效暴露企业数据中的潜在风险,防止数据被盗及泄露。当PB级的信息分散存储多处时,如不对信息拥有全局的洞察,便很难分辨其中隐藏的风险以及公司或因此存在的连带责任。可见性将帮助企业识别风险,并对各类敏感及风险数据进行优先级排序,从而制定更好的防护策略。
以四个方面来看,“可见性”与“洞察力”将有效地帮助企业明确内部数据留存策略中现存的问题与漏洞,“点亮”此前不为人所知的“黑暗角落”。而在具体落实上,企业不妨施用信息归档类和数据风险类解决方案为先导,先做好“数据洞察”,清点现有数据库存,再以此为基础根据现实需要构建全新的数据运维策略,从而在更好治理、合规遵从的基础上,真正发现数据的价值。