Google AI 推出 CardBench:一个全面的基准,包含超过20个真实世界数据库和成千上万个查询,旨在革新学习基数估计
谷歌公司的研究人员推出了 CardBench,这是一款用于系统评估学习基数估计模型的基准。CardBench 是一个全面的基准,包括跨越20个不同真实世界数据库的数千个查询,显著超过了以往的任何基准。这允许在各种条件下对学习CE模型进行更彻底的评估。该基准支持三种关键设置:基于实例的模型,这些模型在单一数据集上进行训练;零样本模型,这些模型在多个数据集上进行预训练然后在未见过的数据集上进行测试;以及微调模型,这些模型经过预训练后再用目标数据集的一小部分数据进行微调。
CardBench 的设计包括用于计算必要数据统计、生成真实的SQL查询以及创建用于训练CE模型的注释查询图的工具。该基准提供了两组训练数据:一个用于具有多个过滤谓词的单表查询,另一个用于涉及两个表的二元连接查询。对于其较小的数据集之一,该基准包括9125个单表查询和8454个二元连接查询,确保了一个稳健且具有挑战性的模型评估环境。训练数据标签由 Google BigQuery 得出,花费了七年CPU查询执行时间,突显了创建此基准所需的巨大计算投资。通过提供这些数据集和工具,CardBench 降低了对开发和测试新CE模型感兴趣的研究人员的门槛。
阅读我们的完整看法:https://www.marktechpost.com/2024/09/02/google-ai-introduces-cardbench-a-comprehensive-benchmark-featuring-over-20-real-world-databases-and-thousands-of-queries-to-revolutionize-learned-cardinality-estimation/
论文:https://arxiv.org/abs/2408.16170
@DEV AI记录
- 复制链接
- 举报