专注于数字技术的商业观察者
登录×
公司
2021-07-29

Nebula Graph:专注于客户需求的分布式图数据库

时间: 2021-07-29 编辑:

随着企业数字化转型浪潮深入,企业业务走向云端的同时,对数据存储功能的需求也在不断的增加。于是在数...

随着企业数字化转型浪潮深入,企业业务走向云端的同时,对数据存储功能的需求也在不断的增加。于是在数据资产化的道路上,各类产品、技术、解决方案层出不穷。

如果说,在过去仅靠单机版的图数据库就可以满足企业对于数据的查询性能需求,那么现在,随着数据价值的变高,数据驱动决策的方式也被越来越多的企业接纳。单机数据库对于数据库纵向扩展硬件的局限性被无限放大,显然,也无法满足和应对企业持续膨胀的数据量。

从市场的趋势来看,在过去六年多的时间里,图数据库的影响力大概增长了十倍。数据显示:2019 年,Gartner在数据与分析峰会上首次将图数据库列为 2019 年十大数据和分析趋势之一,并预计到 2022 年,全球图处理及图数据的应用将以每年 100% 的速度迅猛增长,2020 年保守估计为 80 亿美元。

“不仅仅是互联网企业,越来越多的技术公司也开始认识到图数据的价值,并开始寻找新的图数据库的解决方案。”欧若数网图查询引擎高级技术专家伊兴路在接受笔者的采访时表示,整个图数据库市场虽尚处于蓝海,但竞争却无处不在。

成立于2018年10月的欧若数网科技是一家高科技软件公司,致力于开源的分布式图数据库 Nebula Graph 的研发,为客户提供稳定高效的互联网基础技术服务。

目前,Nebula Graph 服务行业覆盖金融、银行、出行、零售、电商等互联网常见的行业。不过在伊兴路看来,Nebula Graph 服务的本质仍是以大数据场景为主,如果客户需要挖掘数据间的关系,Nebula Graph 采用属性图是存在天然的优势的。

从应用场景来看,互联网时代很多 APP 支持申请贷款,不管是持牌或者持其他牌照的平台,都可以提供一定的贷款能力。与此同时,也存在团伙“作案”,以控制账号登录设备(手机),这些设备和 Wi-Fi 关联的方式,进行欺诈行为。

通过图数据库的能力,可以基于 Wi-Fi 关系将其他点关联到了一起,通过账号-设备-WiFi 的关联关系预先识别“作案”团伙,并提醒企业已知存在风险的账号。

Nebula Graph的客户之一,360 金融通过用图的方法大概识别了接近 100 万个有风险的团伙,哪怕这些团伙换马甲或者其他设备也能第一时间识别进行屏蔽。

事实上,虽然图数据库已经具备了比较成熟的产品及实践案例,但截止目前,图数据库的应用范围仍然较小。在国内图数据库主要被应用在金融风控、推荐、社交、数据治理、数据血缘等等多种场景,而用户也多集中在大型金融机构、电商、社交服务商、出行巨头等。不难看出,图数据库的应用是非常具有针对性和有一定的业务数据门槛。

在国内,图数据库行业起步略晚,市场也尚未形成规模。

目前,国内出现频率较高的图数据库产品主要分为两种:OLAP 和 OLTP。其中,Nebula Graph支持全对称分布式集群、存储计算架构分离、类SQL的查询语言、支持Spark、HBase等多数据源导入导出、支持多地多中心方案,主要应对 OLTP 场景。

从技术层面来看,分布式图数据库将会成为主流。例如,蚂蚁金服的分布式图数据库GeaBase和字节跳动的分布式图数据库ByteGraph等,分布式扩展、分布式架构容灾方案等设计,可以从多个方面确保图数据库储存、查询、分析、计算高性能运转。

“Nebula 项目设计之初就是为了解决大数据量的问题,所以起初的架构搭建对分布式的扩缩容及弹性做了深度规划。”伊兴路表示,从实际应用来看,很多用户的数据量达到了千亿甚至万亿级别,查询效率达到毫秒级的主要原因是数据库从设计之初就针对 OLTP 场景也就是线上实时查询场景进行了规划,包括数据分区、查询执行计划等,每次查询的延时其实和总数据量并没有关系,因为仅查询单次任务中涉及的数据量,可能仅是一个小的子图,这也是 Nebula 可以在如此大的数据量级下保持毫秒级延时的原因。

不过与传统数据库类似,图数据库领域也分为 OLTP 和 OLAP 两类。OLTP 指的是提供在线查询的服务,其特点是对延时要求苛刻,同时并发量较大,比如金融风控场景,每秒的交易量可以达到上百笔甚至上千笔,且交易过程较快。从用户视角来看,无论是转账还是支付都希望在极短的时间内完成,这就极大压缩了风控的过程和时间,如果调用图数据库可能只需要几十毫秒就可以完成。

在这个群雄逐鹿的图数据库市场,有些产品是为了计算而生;有些产品是为了在线查询的低延时、高并发场景而生,Nebula 显然是后者。

在前不久,欧若数网发布了分布式图数据库 Nebula Graph 2.0 版,在大幅提升查询性能和运维便捷性的同时,延续了前一版本的系统稳定性和开放性。

从产品的思维逻辑来看,Nebula Graph 2.0 版更像是Nebula Graph 1.0 的重构版本,欧若数网主要从四个方面进行产品升级:首先,提升查询性能。高吞吐、低延时地处理超大数据量是 Nebula Graph 天然的架构优势,很多用户因为市面上现有的图数据库产品满足不了业务数据量增长带来的挑战,转而使用 Nebula Graph。因此,在 2.0 版本中欧若数网在超大数据量实时查询场景下的优势,是用户需要的。

其次,保证稳定性。1.0 GA 之后,有越来越多的用户将 Nebula Graph 用于生产业务,任何轻微的系统抖动,都会给业务造成巨大的影响。同时,用户的业务在不断演进、数据量也在不断增加,因此必须保证 Nebula 集群能随着业务演进和数据量增长始终保持稳定运行。

再次,加强系统开放性。2.0 新增了几个重要特征,同时对底层实现逻辑做了优化,使得 Nebula Graph 具备更强的开放性。可以兼容 openCypher,让 Neo4j 用户零学习成本使用 Nebula Graph;能够对接更多图分析算法,满足用户离线分析和图计算需求。

最后,确保运维便捷。分布式数据库的运维复杂度是单机数据库无法比拟的,在2.0 版本为用户提供了运维工具,尽量简化 Nebula Graph 的部署、升级、备份、监控等,同时帮助用户更准更快地定位问题。

写在最后

2020年11月,新一代自主研发的开源分布式图数据库Nebula Graph研发商欧若数网完成近千万美元Pre-A+融资,无独有偶,2021年开年,图数据库新锐TigerGraph也宣布完成1.05亿美元C轮融资,成为迄今为止行业中最大单笔融资。

资本的涌入,让图数据库再以新的势头进入大众视野,越来越多的舆论认为图数据库大火,甚至成为未来的趋势。但事实果真如此吗?

在伊兴路看来,图数据库行业未来想要实现市场的迅速拓展和广泛应用,仍然要解决两个难题:一方面,实现真正的 ACID 完备性,即图数据库要保证在数据增删改查过程中的事务性,这也是决定图数据库是否能够成为一个真正的图数据库,而不是仅仅作为备库存在。

另一方面,实现分析(OLAP)和事务处理(OLTP)的融合。Gartner 在 2014 年指出混合事务分析处理(HTAP)将是图数据库发展的方向之一,这种混合应用数据库架构一方面可以避免传统的 TP 和 AP 分离架构中因为大量数据交互造成的资源浪费,另一方面可以减少运维成本。未来,图数据库的 HTAP 将是一个有机的闭环,而不是相互割裂的状态,这也是一个比较大的技术挑战。

值得一提的是,2021年7月31日,伊兴路将会在GIAC全球互联网架构大会的分场进行《图数据库 Nebula Graph 的架构演进和典型应用》的主题演讲,为大家分享Nebula Graph 的存储和计算的架构设计以及用户的实践分享和未来规划。

标签:
版权声明:本文版权归数字商业时代所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。