专注于数字技术的商业观察者
登录×
公司
2024-05-08

亚马逊云科技:企业构建生成式AI应用的三个关键能力

时间: 2024-05-08 编辑:

在生成式AI时代,如果不讨论大模型,总有一种落后于时代的错觉。然而,在与客户交往合作的过程中,一个...

在生成式AI时代,如果不讨论大模型,总有一种落后于时代的错觉。然而,在与客户交往合作的过程中,一个比较深刻的体会就是:好的大模型是一个很重要的先决条件,但并不是全部。反倒是在实际使用的过程中,如何把大模型的价值真正与业务相结合,才是企业客户最为关心的话题。这其中,数据发挥着十分重要的作用。

对于客户而言,在可以选择业界最好的模型的基础之上,怎样能够创造差异化,很大一个因素取决于客户自身的数据。也就是说,如何把数据用好,是企业打造生成式AI应用程序差异化优势的关键。

“企业需要的是懂业务、懂用户的生成式AI应用,而打造这样的应用需要从数据做起。”亚马逊云科技大中华区产品部总经理陈晓建日前在接受笔者的采访时表示,亚马逊云科技构建数据基座的三大核心能力涵盖从基础模型训练到生成式AI应用构建的重要场景,能够帮助企业轻松应对海量多模态数据,提升基础模型能力。

当前,企业数据应用到生成式AI应用主要有三类不同的工具:第一类,检索增强。企业可以将自身的知识库、数据库等与生成式AI模型相结合,在生成过程中实时检索和利用企业内部数据,从而提高生成结果的准确性、一致性和信息量;第二类,微调。使用与目标任务相关的数据对模型进行进一步训练,以提高其在特定任务上的性能。微调的门槛介于预训练和RAG两者之间,适用场景包括角色理解、输入理解、输出格式控制等;第三类,持续预训练。企业利用自身专有数据(如内部文档、客户记录等)对模型进行持续预训练。这种持续预训练门槛较高,成本较大,但是可以得到一个企业自身定制的行业大模型。适用场景包括理解行业领域知识/术语,以及用于严控数据合规等。

值得注意的是,RAG、微调和持续预训练需要的数据规模、数据来源和技术要求各不相同:RAG需要GB级企业数据,微调需要GB级人工标的高质量数据,持续预训练则需要TB级未标的原始数据。此外,RAG的数据来源是企业内部文档库、数据库、数据仓库、知识图谱;微调数据来源为私域知识;持续预训练数据来源为公开的数据集或企业各部门的数据。

而在技术要求上,RAG需要向量检索来迅速查找让模型能快速准确地进行响应;微调需要选取和检验符合业务需求的高质量数据集;持续预训练需要的是大规模、分布式清洗加工原始数据集的能力。

为了更好地帮助客户加速落地生成式AI的落地,亚马逊云科技持续引领数据基座构建必备的三大核心能力,即模型微调和预训练所需的数据处理能力、利用专有数据与模型快速结合以产生独特价值的能力,以及有效处理新数据以助推生成式AI应用持续快速发展的能力,助力企业在生成式AI时代取得成功。

具体来看,企业构建生成式AI应用需要具备强大的数据能力之一,是利用现有数据支持微调或预训练模型的能力。从原始数据集到训练出基础模型需要解决三个主要问题:找到合适的存储来承载海量数据;清洗加工原始数据为高质量数据集以及对整个组织内数据的发现编目治理。

其中,在数据存储方面,扩展性和响应速度是关键,既需要能够承载海量数据,存储性能也必须跟上计算资源。

Amazon S3的容量,安全和功能都满足微调和预训练基础模型对数据存储上的要求: S3拥有超过200万亿个对象,平均每秒超过1亿个请求。亚马逊云科技上超过20万个数据湖都使用了S3。

“Amazon S3几乎是云上扩展性的代名词,它支持广泛的数据协议,能够轻松应对各种数据类型,还支持智能分层以降低训练成本。”陈晓建说。

同时,专门构建的文件存储服务Amazon FSx for Lustre则能够提供亚毫秒延迟和数百万IOPS的吞吐性能,能够进一步加快模型优化的速度。

在数据洗方面,企业面临着繁重的数据清洗加工任务。以公开搜集的2TB英文数据集为例,经过清洗、去重后变成1.2TB的数据,再经过分词处理成大约3000亿的tokens.

Amazon EMR Serverless和Amazon Glue可以帮助企业轻松完成数据清理、去重、乃至分词的操作,让企业专注于生成式AI业务创新。

Amazon EMR serverless采用无服务器架构,它易用使用,能够预置、配置和动态扩展应用程序在每个阶段所需的计算和内存资源,性能上拥有比开源快2倍以上的速度,且用户只需为使用的时间和资源付费,同时提供实时监控和跨AZ的高可用设计。

Amazon Glue是简单、可扩展的无服务器数据集成服务,它可以更快地集成数据,可以连接不同数据源并简化相关的代码工作;同时提供大规模自动化功能,通过Amazon Glue Studio提供可视化创作体验,拖拉拽快速集成源和目标;它具有无服务器执行引擎,可降低管理运维难度;还提供基于Spark、Python和Ray这种广泛使用的框架,以方便开发者进行灵活构建。

在数据治理方面,企业难以在多个账户和区域中查找数据,也缺乏有效的数据治理工具。Amazon DataZone让企业能够跨组织边界大规模地发现、共享和管理数据,不但能够为多源多模态数据进行有效编目和治理,而且还提供简单易用的统一数据管理平台和工具,从而为用户解锁所有数据的潜能。

企业构建生成式AI应用需要具备强大的数据能力之二,是利用现有数据快速结合模型产生独特价值的能力。

其中,基础模型自身有一定的局限性:缺乏垂直行业的专业知识,缺乏时效性生成错误信息以及用户敏感数据的隐私合规风险。

“用户期待生成式AI给出高质量答案,但简单的对话背后蕴藏着复杂的提示工程。通过提示工程获取模型介绍,从企业数据库获取用户背景信息,从RAG获取上下文,最后才是用户的问题及问题相关的提示词。”陈晓建表示,RAG技术的关键是vector embeddings——向量嵌入,包括几个阶段:获取特定领域数据源,通过分词将其分解为token元素,通过LLM将token导出数值向量——即每个token的数字数组,这些向量放置在多维向量空间中并彼此靠近。通过这一系列操作,人们成功将元素数据中内容关联问题简化为token元素间的距离计算问题。

RAG场景的核心组件就是向量存储,现代应用程序需精准理解用户需求并正确关联产品或内容,这一需求广泛存在于搜索、评论、购物车及产品推荐等交互框架中,这些框架又依赖于功能各异的数据库,这使得数据库成为实施RAG技术的理想平台。

向量存储的理想情况,是将向量搜索和数据存储结合在一起。因为这样客户无需额外学习新的向量存储,无需添加额外的组件和费用,无需迁移现有数据,将向量检索和现有数据关联时也会有更快的体验。

据了解,亚马逊云科技已经在八种数据存储中添加了向量搜索功能,让客户在构建生成式 AI 应用程序时有更大的灵活性。随着新用例的不断出现,亚马逊云科技在该领域的创新速度将迅速加快。例如,亚马逊云科技专门构建了图数据库Amazon Neptune,并为其推出了分析数据库引擎,能够提升80倍的图数据分析速度,使用内置算法可在几秒钟分析数百亿个连接。通过将图和向量数据一直存储能够实现更快的向量搜索。

企业构建生成式AI应用需要具备强大的数据能力之三,是有效处理新数据,助力生成式AI应用飞速发展的能力。

对生成式AI应用程序而言,基础模型频繁调用将会导致成本的增加和响应的延迟。相对于此前数据库调用通常毫秒级甚至微秒级的响应时间,基础模型每次调用时长往往达到秒级。此外,每次调用基础模型也会增加成本。

“很多企业反映,终端用户绝对大部分问题是类似甚至重复的。”陈晓建认为,企业可以通过将之前问答生成的新数据存入缓存,从而在面对类似问题时,可以不调用模型,而直接通过缓存给出回答,这不但能够减少模型调用,还可以节约成本。

Amazon Memory DB内存数据库本身就是一个高速的缓存,同时也支持向量搜索。它能够存储数百万个向量,只需要几毫秒的响应时间,能够以99%的召回率实现每秒百万次的查询性能。这对于欺诈检测和实时聊天机器人等实时场景至关重要。

另外,企业应结合无服务器的速度和生成式AI的力量快速占领市场。在陈晓建看来,无服务器减少繁重复杂运维,让企业集中精力于AI代码创新,闲时收缩资源以实现高性价比,还能够在需要时快速扩展消除性能瓶颈。例如,Amazon OpenSearch Serverless用于向量搜索,可省去企业配置运维OpenSearch,快速占领市场。“无服务器的速度加上生成式AI的力量,能够让企业快速交付以创新为重点的更智勇气应用程序和功能。”

写在最后

“我们希望每一个企业在生成式AI时代借助亚马逊云科技的服务打造坚实的数据基础。这样企业就可以高效安全地将海量的多模态数据和各种基础模型结合在一起,创建出一系列具有独特的价值的生成式AI应用程序并收到终端用户的欢迎,进而产生更多的数据。”陈晓建表示,这些新数据又会继续提升模型的准确度,创造更好的用户体验,从而实现生生不息的正向生成式AI数据飞轮,带动企业的业务走向成功。

标签:
版权声明:本文版权归数字商业时代所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。