VLDB 2024丨与 TiDB 一起探索数据库学术前沿

PingCAP 2024-08-27

1236

VLDB 2024 将于 2024 年 8 月 26 日至 8 月 30 日在中国广州举行。VLDB 是数据库领域的顶级国际会议，旨在为数据管理、可扩展数据科学、数据库研究者、供应商、从业者、应用开发者和用户提供交流平台。

2024 年的 VLDB 会议涵盖了数据管理、数据库架构、图形数据管理、数据隐私与安全、数据挖掘、机器学习、人工智能和数据库系统研究等领域的问题——这些都是 21 世纪新兴应用的基本技术基石。

第 16 届 TPC 技术会议（TPCTC 2024）将于 2024 年 8 月 30 日与 VLDB 2024 大会联合举行。本次会议重点讨论包括向量处理、生成式 AI、大数据分析、云计算等新兴技术领域，相关论文及成果有机会用于未来的 TPC 基准开发。

TiDB 将有两篇论文、一个 Demo Paper 亮相本次大会，欢迎大家现场交流。

/ 议题推荐

Machine Learning, AI, and Databases Industry Paper

论文分享: AutoTQA: Towards Autonomous Tabular Question Answering through Multi-Agent Large Language Models

时间： 8 月 26 日，11:00-12:30，B4 会议室

摘要： 在数据分析日益重要的今天，表格问答（TQA）技术正逐渐成为研究的热点。然而，现有的 TQA 方法主要处理单表问题，而现实世界中的 TQA 问题通常涉及多个表格，这带来了扩展性的挑战。为了解决这一问题，我们提出了 AutoTQA，一个自主的多表格问答框架，它利用多智能体大型语言模型（LLMs）来处理来自不同系统（如 TiDB, BigQuery）的多个表格。AutoTQA 由五个智能体组成：用户智能体接收自然语言查询，规划智能体创建执行计划，工程师智能体执行计划，执行智能体提供执行环境，批判智能体评估结果。此外，我们开发了 LinguFlow，一个开源、低代码的可视化编程工具，用于快速构建和调试基于 LLM 的应用程序。AutoTQA 在四个代表性数据集上展现出色性能，标志着向自主表格问答迈出了重要一步。

Demo Paper 展示

Demo 展示：OSSInsight

时间：8 月 26 日至 8 月 30 日
摘要：OSSInsight 是由 PingCAP 开发的开源工具，旨在提供对 GitHub 数据的深入洞见。该工具利用可扩展的 HTAP 数据库（TiDB）处理实时和历史的 GitHub 数据。OSSInsight 的主要功能包括一个数据浏览器，允许用户使用自然语言查询 GitHub 数据并将其翻译成 SQL；一个仓库和用户指标服务，生成关键指标的可视化；以及允许用户查看、编辑和执行针对 GitHub 数据的自定义 SQL 查询。在浏览器上将自然语言数据查询转换为 SQL，并使用强化学习来验证结果。OSSInsight 提供了比现有 GitHub 分析工具更多的功能，这些工具通常缺乏实时数据、可视化选项或自定义 SQL 支持。

TPCTC 论文分享

论文分享：StarBench: A Fresh Approach On Star Schema Benchmarking

时间：8 月 30 日，14:30-15:00，Great Hall D1

摘要：StarBench 是一种新型的星型模式基准测试，它结合了星型模式数据模型的优势和 TPC-H 基准测试的全面工作负载。StarBench 解决了现有星型模式基准测试（SSB）中存在的数据缺失问题，利用了 TPC-H 的实用工具和工作负载，包括所有 22 个查询和刷新功能，为 TPC-H 提供了一个真正的扩展，并为数据库提供了一种新的方式来处理相同的数据。该基准测试可以用于比较数据仓库中广泛使用的星型模式，评估它们在一系列分析查询中的性能。StarBench 为评估如 TiDB 等数据库系统在星型模式下的性能提供了一个全面和标准化的基准测试框架。

大会官网：https://vldb.org/2024/ (https://vldb.org/2024/)