零一万物自研全导航图向量数据库,权威榜单评测 6 项第一

发布时间:2024-09-03

Image

零一万物自主研发的全导航图向量数据库“笛卡尔”在国际权威评测平台ANN-Benchmarks上大放异彩,一举夺得6项数据集评测的第一名。这一成绩不仅标志着中国企业在向量数据库技术领域的重大突破,更预示着向量数据库将成为AI 2.0时代的关键基础设施。

向量数据库,作为AI时代的信息检索技术,是检索增强生成(RAG)的核心技术之一。在大模型为代表的AI 2.0时代,图片、视频、自然语言等多模态非结构化数据量激增,传统数据库难以应对。向量数据库专门用于存储、管理、查询和检索向量化的非结构化数据,被形象地称为大模型记忆的“海马体”。

零一万物的“笛卡尔”向量数据库在性能上实现了显著提升。在ANN-Benchmarks的6项数据集评测中,笛卡尔在吞吐量QPS(每秒处理请求数)这一关键指标上大幅领先。特别是在gist-960-euclidean数据集上,其性能比原榜单TOP1提升了286%。这一成绩得益于零一万物在全导航图技术和自适应邻居选择策略上的创新。

全导航图技术是零一万物的核心突破之一。传统的哈希、KD-Tree等方法导航效果不够精确,而零一万物研发的全局多层缩略图导航技术,通过图上坐标系导航,既能保证精度,又能裁剪大量无关向量。此外,零一万物首创的自适应邻居选择策略,突破了以往仅依赖真实topk或固定边选择的局限,使每个节点能根据自身及邻居的分布特征动态选取最佳邻居边,从而更快收敛接近目标向量,提高了RAG向量检索性能15%-30%。

在实际应用中,高性能向量数据库可以轻松应对80%-90%的日常场景。以电商推荐为例,即使库中向量数不算大,如果用户基数庞大,高峰时每秒用户请求数可能达到几十万甚至上百万。使用高性能向量数据库可以有效提升搜索、广告业务的推荐效果。在自动驾驶领域,高性能向量数据库可用于加速自动驾驶模型训练。

随着AI技术的快速发展,向量数据库的战略地位日益凸显。它不仅能解决大模型实时信息更新、隐私保护、推理失真和效率等痛点,还能为个性化推荐、精准内容检索等应用提供强大支持。零一万物等中国企业在这一领域的突破,不仅展示了中国AI技术的创新能力,也为全球AI产业发展注入了新的活力。

未来,随着大模型优化到一定程度,向量数据库的能力可能决定各家大模型的天花板。零一万物表示,笛卡尔向量数据库将应用于即将发布的AI生产力产品中,并计划未来结合工具提供给开发者。这一举措将进一步推动向量数据库技术的普及和应用,为AI 2.0时代的到来奠定坚实基础。