谷歌 AI 推出 CardBench 评价结构

09-03 709阅读 3评论

IT之家 9 月 3 日音讯，谷歌 AI 研究人员最新推出了 CardBench 基准，主要为学习型基数估量（cardinality estimation）满意体系评价结构需求。

CardBench 基准是个归纳评价结构，包含 20 个不同实在数据库中的数千次查询，大大超过了以往的任何基准。

项目布景

基数估量（cardinality estimation，简称 CE）是优化联系数据库查询功能的要害，触及猜测数据库查询将回来的中心成果数量，直接影响查询优化器对履行计划的挑选。

关于挑选高效的衔接次序、决议是否运用索引以及挑选最佳衔接办法来说，精确的卡入度估量至关重要。

这些决议计划会对查询履行时刻和数据库全体功能发生严重影响。不精确的估量会导致糟糕的履行计划，然后大大下降功能，有时甚至会下降几个数量级。

现代数据库体系中广泛运用的基数估量技能，依赖于启发式（Heuristic）办法和简化模型，例如假定数据统一和列独立。

这些办法虽然核算效率高，但往往需求精确猜测基数，在触及多个表和过滤器的杂乱查询中体现尤为显着。

最新的数据驱动办法企图在不履行查询的情况下，对表内和表间的数据散布进行建模，然后减少了一些开支，但在数据发生变化时仍需求从头练习。

虽然取得了这些前进，但由于缺少全面的基准，因而很难对不同的模型进行比较，也很难评价它们在不同数据集上的通用性。

CardBench

CardBench 能在各种条件下对学习到的基数模型进行更全面的评价。该基准支撑三种要害设置：

根据实例的模型，即在单个数据集上进行练习；

零点模型，即在多个数据集上进行预练习，然后在一个未见数据集上进行测验；

微调模型，即进行预练习，然后运用方针数据集的少数数据进行微调。

该基准测验供给两组练习数据：一组用于具有多个挑选条件谓词的单个表查询，另一组用于触及两个表的二进制联接查询。

该基准测验包含 9125 个单表查询和 8454 个二进制衔接查询，适用于其间一个较小的数据集，然后保证为模型评价供给强壮且具有挑战性的环境。

例如，微调图神经网络（GNN）模型在二进制衔接查询中的 q-error 中位数为 1.32，第 95 百分位数为 120，显着优于零点模型。成果表明，即使是 500 次查询，对预练习模型进行微调也能大幅前进其功能。这使它们在练习数据有限的实践使用中变得可行。

总归，CardBench 代表了在学习的基数估量方面的严重前进。研究人员可以经过供给全面、多样的基准，体系地评价和比较不同的 CE 模型，然后促进这一要害范畴的进一步立异。该基准可以支撑需求较少数据和练习时刻的微调模型，为练习新模型本钱过高的实践使用供给了切实可行的解决方案。

IT之家附上参阅地址

评论列表（有 3 条评论，709人围观）

只想要你懂 V 游客沙发

同的模型进行比较，也很难评价它们在不同数据集上的通用性。CardBenchCardBench 能在各种条件下对学习到的基数模型进行更全面的评价。该基准支撑三种要害设置：根据实例的模型，即在单个数据集上进行练习；零点模型，即在多个数据集上进行预练习，然后在一个未见数据集上进行

09-03 回复

°°々给我俯首称臣→ V 游客椅子

实践使用中变得可行。总归，CardBench 代表了在学习的基数估量方面的严重前进。研究人员可以经过供给全面、多样的基准，体系地评价和比较不同的 CE 模型，然后促进这一要害范畴的进一步立异。该基准可以支撑需求较少

半轮秋月 V 游客板凳

下，对表内和表间的数据散布进行建模，然后减少了一些开支，但在数据发生变化时仍需求从头练习。虽然取得了这些前进，但由于缺少全面的基准，因而很难对不同的模型进行比较，也很难评价它们在不同数据集上的通用性。CardBenchCardBench