随着越来越多的企业开发和部署由人工智能(AI)驱动的应用程序,我们需要做出决策:使用什么样的向量数据库?
向量是通过计算得出的字符串,用来表示非结构化数据,可帮助企业为通用大语言模型 (large language models, LLM) 添加场景。向量可以对其表示的非结构化数据进行快速语义搜索,这是进行产品推荐或显示数据或对象之间相关性等用途的关键功能。
对于许多企业来说,向量已经或很快将成为需要管理的全新数据类型。AI 开发团队必须确定存储、管理和检索向量数据的方式。目前主要有两种选择:专用向量数据库(purpose-built vector databases)或多模数据库(multi-modal databases),例如 Oracle Database 23c 不仅支持向量,还支持许多其他数据类型。
这两种方法都各有优势。专用向量数据库的目的是让 LLM 在响应查询时使用您的数据。但是它们可能不太适合其他数据类型和工作负载。由于向量数据库是新的,因此必须将它们集成到您现有的应用程序架构中。这项工作包括确定可扩展性、添加安全性和身份管理以及满足可用性和性能预期。
Oracle Database 23c 等通用数据库可以避免这些问题。Oracle Database 23c 不仅能处理包括向量在内的多种数据类型,而且它还集成到您的应用环境中,并已包含公司数据。无需将数据移入专门的向量数据库,团队可以集中精力利用公司数据增强 LLM。
Oracle 用来描述这种高度集成模型的术语是“融合数据库”,即原生支持各种现代数据类型、分析和最新开发范例的数据库。例如,Oracle 数据库支持事务、分析、AI/ML、区块链、图形、空间、JSON、REST、事件、物联网流等,这些都是核心系统的一部分。
Oracle 一位优秀的产品经理 Maria Colgan 在一篇有关融合数据库的博客文章中写道:“它允许您使用单一平台支持许多不同的项目。”
Oracle 近期将向量数据添加到 Oracle 数据库不断增长的数据类型列表中。这种支持的形式是 Oracle Database 23c 中名为 “AI Vector Search” 的新的、有限可用性功能,它包括原生数据类型的向量,以及向量索引和向量搜索 SQL 运算符,这些功能使得非结构化数据的语义内容存储为向量成为可能。接下来您可以对文档、图像和任何其他表示为向量的非结构化数据运行瞬间相似性查询。
更简单、更快捷、更精确
甲骨文关键任务数据库技术执行副总裁 Juan Loaiza 在 2023 年 9 月 Oracle CloudWorld 上宣布推出 AI Vector Search时,强调了集成向量和业务数据的优势。
Juan Loaiza 表示:“如果业务数据和语义数据都由一个数据库管理,那么对这两类数据的组合搜索就会更简单、更快捷、更精确。”
使用集成向量数据库的五大优势
多功能性。融合数据库可处理多种数据类型和工作负载。它们不仅适用于许多公司日益重视的支持向量的应用,而且其内置的灵活性还为涉及其他数据类型的新用例敞开了大门。融合数据库并不会“黔驴技穷”。
降低复杂性。多年来,IT 领导者一直在努力解决数据库庞杂的问题,这是部门项目、专业数据库、单点解决方案和“影子IT”进入数据基础设施的结果。首席信息官和首席技术官最不希望看到的就是另一个一次性平台。Oracle Database 23c 作为满足各种数据管理需求(交易、分析、人工智能、地理分布、数据整合等)的企业标准,有助于降低复杂性。
结合结构化和非结构化数据。借助 AI Vector Search,Oracle Database 23c 可以将结构化业务数据与非结构化向量数据结合在一起,Juan Loaiza 在 Oracle CloudWorld 的找房应用中展示了这一功能。这种集成方法的另一个好处是,它减少了跨数据库移动或同步数据的需要,从而增强了一致性。
利用现有技能。您的组织是否拥有建立和管理专门的向量数据库所需的专业知识和实际管理资源?如果没有,使用 Oracle Database 23c 进行向量搜索的另一个优势是许多开发人员和数据库管理员已经拥有 Oracle 数据库的经验。
企业级能力。随着支持向量的应用程序从试点项目发展到面向客户的部署,它们必须提供业务经理期望从业务运行应用程序中获得的性能、可扩展性、安全性和可靠性级别。Oracle AI Vector Search 通过利用其他企业级 Oracle 功能,例如真正应用集群 (RAC)、分区、分片、安全性、分析和灾难恢复消除了这一障碍。
更多 AI 构件
正如这些示例所示,Oracle Database 23c 可以把支持向量的相似性搜索添加到用户体验。AI Vector Search 只是 Oracle 提供的几个新的 AI 构件之一。
例如,基于 Oracle 数据库和自治数据库构建的应用程序可以添加基于 LLM 的自然语言界面。事实上,Oracle 自治数据库(Oracle Autonomous Database)于 2023 年 9 月发布了 Select AI 这一自然语言界面。Oracle 数据库工具 APEX 和 SQL Developer 提供生成式 AI 功能(目前有限使用),让开发人员使用自然语言生成应用程序或 SQL 查询。
Oracle Database 23c 旨在增强开发人员和数据专业人员的能力。技术决策者在评估其构建AI应用的选项时,可参考 Oracle Database 23c 中的新功能,这些应用可将内部的向量数据与 LLM 结合起来,并提供自然语言界面。
目前,Oracle Database 23c 免费版为特定群体提供 AI Vector Search 功能,2024 年 4 月将支持更广泛的访问。
注:为免疑义,本新闻所用以下术语专指以下含义:
1. Oracle 专指 Oracle 境外公司而非甲骨文中国。
2. 相关 Cloud 或云术语均指代 Oracle 境外公司提供的云技术或其解决方案。