暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

华东师大、PingCAP等:AutoTQA,通过多智能体LLMs实现自主式表格问答

数据库应用创新实验室 2025-04-30
564

本文对华东师范大学蔡鹏教授团队、PingCAP刘奇、唐刘等人联合编写的2024 VLDB论文《AutoTQA: Towards Autonomous Tabular Question Answering through Multi-Agent Large Language Models》进行解读,全文共8238字,预计阅读需要15至25分钟。



随着数据分析日益重要,许多研究致力于从表格中为用户的自然语言问题提供精确答案,这一任务被称为表格问答(Tabular Question Answering,TQA)。现有最先进的TQA方法主要只能处理单表问题。然而,现实世界中的TQA问题往往非常复杂,涉及多个表格,这使得现有的单表TQA方法难以直接扩展,根本原因在于其大多缺乏良好的可扩展性。本文提出了AutoTQA一个新型的自主式表格问答框架,它基于多智能体大语言模型(multi-agent LLMs),支持跨多种系统(如TiDB、BigQuery)处理多个表格。AutoTQA由五个智能体组成:User(接收用户的自然语言问题);Planner(为问题制定执行计划);Engineer(按步骤执行该计划);Executor(提供多种执行环境以完成指定的任务);Critic(判断任务是否完成,并识别当前结果与原始目标之间的差距)。


为促进不同智能体之间的协作,作者还设计了智能体调度算法。此外开发了开源可视化低代码工具LinguFlow,以加速构建和调试基于LLM的应用程序,便于外部工具与执行环境的快速创建。文章还实现了一系列数据连接器,使AutoTQA能够访问来自多系统的表格。





AutoTQA架构




1.研究背景与动机


1.1大语言模型给表格问答任务带来的可能性和挑战

表格问答(TQA)是数据分析中的关键任务,其目标是对用户的自然语言查询,从表格中提供精准答案。实际应用中,表格常用于财报、统计报告等场景。处理这类任务通常需要具备数据分析专业知识,但TQA的出现使用户无需精通自然语言处理或数据分析即可获得答案。


在现实中,表格形态复杂,包括关系型数据库(RDB)表(结构化表)与网页表格(半结构化)。此外,TQA任务常常涉及多个表之间的操作,例如关联(Join)、集合操作(Set operations)等。构建一个可适用于各种TQA场景的统一框架,是当前数据分析与自然语言处理领域的研究热点。


大语言模型(LLMs)如ChatGPT、BLOOM、LLaMA等近年来快速发展,具备强大的零样本(zero-shot)语言理解能力。然而,在数据分析等领域,由于缺乏领域训练,它们可能产生不准确答案,无法被完全依赖。大语言模型的出现给予表格问答任务更多的可能性和挑战。


1.2现阶段表格问答方法的局限性

目前研究中先进的TQA方法具有以下的局限性:

  • 缺乏多表TQA的有效解决方案:现有方法多聚焦于单表处理,只能够从单个表格中就行特定的数据分析。无法完成需要关联多个表的信息检索任务。

  • 未充分挖掘LLM潜力:一些研究如ReAcTable结合了Chain-of-Thought和ReAct的LLM范式来解决TQA,但仍存在空答案难判别、处理大表困难等问题,且对LLM的对话学习能力未加以利用。

  • 缺乏多系统多表处理能力:现如今的TQA方法对于同时处理结构化表格和半结构化表格时具有挑战性。现实中表格可能来自MySQL、S3、API等多个来源,现有方法依赖繁琐的ETL预处理流程,增加了操作复杂性与资源开销。


1.3提出AutoTQA的动机

为了解决上述TQA方法的局限性,首先对于LLM中的TQA方法具有以下关键技术挑战:

  • 如何设计统一框架,处理单表与多表 TQA?

  • 如何充分挖掘 LLM 的能力以验证并生成正确答案?

  • 如何高效管理多个系统中的不同表格?


基于上述挑战,作者提出了AutoTQA,一个基于多智能体LLM的自主式表格问答框架。为前两个个挑战构建了多智能体架构,包括:User(接收问题);Planner(制定计划);Engineer(执行计划);Executor(调用LLM应用);Critic(判断任务是否完成并回溯)。同时设计了三种智能体调度算法,以提升任务协调精度;为第3个挑战,AutoTQA基于Trino实现了多系统数据连接器,允许使用单查询来访问多个来源表格。


为了解决因快速构建和调试基于LLM的应用程序而带来的挑战,作者还构建了LinguFlow,作为一款开源低代码开发工具,便于开发者快速构建、调试和部署LLM用。



2.先验知识

2.1表格问答任务

表格问答(Tabular Question Answering,简称TQA:是自然语言处理(NLP)与数据库领域数据分析中的重要研究方向。通常,数据分析员或用户需要探索一系列表格,其中表示存储在任意位置的表格。随后,数据分析员需对特定表格执行一系列数据转换操作,其中表示一次数据转换操作。


在每次数据转换之后,分析员需要判断是否继续执行下一步转换,或者当前结果是否已经能回答用户的问题。如果是,则探索过程终止。


在数据转换过程中,分析员通常会使用诸如Python或SQL等数据处理工具,因此需要具备一定的Python或SQL编程能力。





TQA任务示例


举例来说,当用户提出问题“Tom的年终奖金是多少?”时,数据分析员首先识别出需要从Employee表和Salary表中提取相关答案。随后,分析员在两张表之间执行连接(join)操作,即join(Employee, Salary),然后判断查询结果是否能够解答问题。


在更复杂的TQA场景中,可能还需要进行集合操作(Set)、嵌套查询(Nested Queries)、正则表达式(Regex)处理等复杂的数据转换步骤。即使在单个查询中,也常常需要执行多轮复杂操作才能得出正确答案。TQA任务的最终的输出形式多种多样,可以直接将表格中提取的结果返回给用户,如:单一数值(即单行单列表);表格形式(多行多列表);或者从表格中抽取结果并用自然语言进行理解与描述。此外,还可以根据预定义的答案格式,让数据分析员根据特定格式将结果填充至特定表单,再返回给用户。


2.2大语言模型

(1)大语言模型(LLMs:是通过海量文本数据训练而成的先进人工智能系统,旨在理解和生成类人语言。许多主流LLM(如ChatGPT、BLOOM、LLaMA)基于深度神经网络构建。其中一个关键技术是注意力机制(Attention Mechanism),它使得模型在生成输出时能够聚焦于输入文本的不同部分,对输入序列的不同部分赋予不同权重,显著增强模型对上下文和关系的捕捉能力。模型的架构通常包含多层互联神经元,通过训练过程不断调整连接权重与偏置,以最小化预测值与真实输出值之间的差异。


(2)LLM 提示工程(Prompting:提示是一种灵活技术,通过在输入中添加提示信息,引导LLM给出定制化响应,无需重新训练模型。提示可以手动设计,也可以通过数据自动学习获得。常见的提示技术包括:零样本提示、小样本提示、小样本提示等方法。


(3)LLM 智能体(LLM Agent:LLM智能体是将LLM与关键模块(如规划与记忆)结合,执行复杂任务的应用系统。在这种设计中,LLM担任智能体的“控制器”或者“大脑”,以掌管任务执行的各个步骤与流程或者响应用户的请求。LLM智能体主要通过整合LLM与策略性组件(如规划与记忆组件)来执行复杂任务。






3. AutoTQA设计概览





AutoTQA架构


3.1 AutoTQA 的整体架构

根据AutoTQA的整体架构图可以看出,其核心组成部分主要有以下几块:

(1)数据源(Data Source:在AutoTQA中,对表格数据来源不做限制,无论是分布式数据库(如TiDB、Greenplum),分布式文件系统(如HDFS),还是电子表格(如Google Sheets)格式的存储。在PingCAP的实际应用中,部分表存储在BigQuery和TiDB,而一些实时数据则通过API直接访问。如果将所有数据迁移到统一系统,其代价高昂且不可行。因此,AutoTQA保持了所有表格数据的原始存储位置,通过数据连接器展现各数据源的元数据,以及抽象了多系统交互的复杂性。


(2)数据连接器(Data Connector:数据连接器作为关键组件,使得不同数据源的无缝整合,充当基于LLM应用(或执行环境)与数据源之间的中间层。这些连接器支持多种数据源,如TiDB、PostgreSQL、本地文件、Google Sheets、Apache Thrift 及各种API。其核心功能是简化不同存储系统的数据交互流程,同时为用户提供统一接口,从而轻松操作并整合多源数据,增强异构环境下的数据互操作性与分析处理能力。


(3)LinguFlowAutoTQA采用了ReAct范式,需要与外部工具(例如text-to-SQL)交互以完成Engineer分配的任务。因此,AutoTQA提出了LinguFlow作为一款开源的可视化低代码开发工具,旨在加速基于LLM应用的开发、调试与部署。LinguFlow的核心是低代码架构,开发者可以通过基于有向无环图(DAG)的消息流方式组织业务逻辑,大幅降低LLM应用开发门槛。此外,LinguFlow内置了嵌入式服务,通过少样本提示技术优化LLM应用的准确性与正确率。


(4)AutoTQA智能体(AutoTQA Agents:AutoTQA中的LLM智能体承担特定职责,包括五个不同的智能体,即User、Planner、Engineer、Executor和Critic。每个智能体在TQA任务中都有各自的角色,它们的协作对于完成任务至关重要。它们也被称为“数字员工小组”。


(5)AutoTQA智能体调度器(AutoTQA Agents Scheduler:AutoTQA在TQA任务中的有效性高度依赖于智能体调度机制。系统为智能体交互设置了最大轮次数限制,达到阈值时终止交互。为优化智能体协作效率,文章中设计了三种调度器:基于循环滚动的调度器(Circular Rolling-based Scheduler);基于LLM理解功能描述的调度器(LLM-based Scheduler);基于有限状态机的调度器(Finite-State Machine-based Scheduler)。不同调度器在任务分配方式与性能表现上有所差异,直接影响任务准确率与执行开销。


3.2 AutoTQA 的执行流程





AutoTQA的一个执行流程


如图展示了AutoTQA如何通过Planner和Engineer制定执行计划,并如何通过Executor调用外部LLM应用完成任务,同时Critic负责评估任务完成度。主要有以下步骤:

1. User提交问题。如提交“分析2024年1月10日用户Eugene的账单记录。”这个问题。

2. Planner根据用户输入制定初步执行计划,确定该任务共包含九个子步骤(图中➀所示)。考虑到PingCAP业务场景的复杂,User在输入中引入了部分标准操作流程(SOP),帮Planner制定合理计划。

3.计划通过内嵌的基于有限状态机的调度器分配给Engineer。

4. Engineer按步骤执行计划,细化每个子步骤,并指定需调用的外部应用,随后将任务交由Executor执行。

5. Executor调用指定工具,执行Engineer分配的任务。当需要撰写SQL/Python代码或进行数值计算时,Engineer将具体任务委派给Executor,避免直接与外部工具绑定,从而便于各部分独立调试与优化。


PingCAP实践中,为了完成计划,主要步骤如下:

1. Engineer与Executor之间会进行多轮交互以完成计划(图中➁所示),同时调度器指挥Critic评估任务完成情况。

2.若Critic判定任务未完成,则根据当前执行上下文与初始任务描述,识别差距GAP与未完成任务(图中➂所示),并指派Planner修正执行计划(图中➃所示)。

3.新的执行计划将继续由Engineer和Executor依次执行,并且调度器动态选择合适的下一个智能体(图中➄所示)。

4.最终由Critic总结结果并返回给用户,形成完整闭环(图中➅所示)。


在实际应用中,任务通常涉及多轮迭代。在PingCAP实践中根据精度与成本权衡设置了最大交互轮次限制。值得注意的是,交互轮数越多,LLM理解长上下文的错误概率也会上升。




4.实现细节

4.1数据连接器

为了支持TQA任务中跨多表操作,核心组件是数据连接器。数据连接器的主要功能是将任意外部数据源注册到Trino中。在具体实现中,为了获取实时数据更新,AutoTQA直接通过API抽取数据,并将其注册到一个统一接口中,选择Trino作为中间统一格式。


接口实现包括以下五个部分:

  • ListSchemaNames:注册数据库列表。

  • ListTables:注册指定数据库的表的列表。

  • GetTableMetadata:注册表格的特定元数据,如列名、数据类型和索引键。

  • GetSplit:根据查询需求检索若干数据块(split),用于后续按块提取完整行数据。

  • GetRows:根据指定split提取所有行数据。


对于存储在其他系统或文件中的表格,TQA任务用户只需实现上述五个接口,即可自定义数据连接器,大大降低了ETL成本。通过实现这五个接口,可以屏蔽不同数据源间的差异,使得在单次查询中方便地操作多种表格。同时,在Executor调用text-to-SQL应用时,会自动生成Trino SQL,以抽象底层系统的复杂性。总结来说,数据连接器的将所有必要的表格元数据映射到一个统一的Trino接口,从而支持跨多个系统、跨多个表格的单次查询操作。


4.2 LinguFlow:一款基于LLM应用的低代码工具的开发

有向无环图DAG是LinguFlow中消息流的抽象,代表了应用的业务逻辑,由节点与边组成。在LinguFlow中,每个节点代表一个实例化的模块,是一个核心单元。节点用于将复杂的LLM应用拆解为可复用模块,使开发者可以根据业务逻辑自由选取与组织这些模块。遵循开发规范的模块会被注册到模块注册中心中;开发者可以快速理解各模块的输入/输出与功能定义,并将其迅速实例化为DAG中的节点。


LinguFlow支持六种模块类型:输入/输出模块、数据处理模块、条件判断模块、LLMs模块、外部应用调用模块和工具模块。使用LinguFlow开发的应用可一键部署至云端,同时支持在线运行与调试功能。最终,AutoTQA可以通过URL直接调用云端部署的外部应用。


LinguFlow还集成了嵌入式服务(Embedding Service),以提升少样本提示(Few-shot Prompting)下的LLM应用性能。为了达到这个目的,嵌入式服务通过不同场景使用namespace来隔离语料库,并支持upsert操作新增或更新示例,能够通过embedding查询返回top-k相关数据,并支持根据唯一ID删除数据。嵌入式服务还提供了选择少样本示例的灵活性。


4.3 AutoTQA 智能体与调度器





AutoTQA的五个智能体和一个调度器


AutoTQA的中心组件是智能体(Agent),用于保障用户提问的准确应答。各智能体按功能分工协同工作。其中,AutoTQA包括以下五个智能体:

  • User:接收用户自然语言任务描述;

  • Planner:将任务拆解为可执行的细粒度子任务;

  • Engineer:基于上下文细化并逐步执行子任务;

  • Executor:执行与外部应用的交互,并与Engineer之间会进行多轮交互以完成计划

  • Critic:评估任务是否完成,发现差距(GAP),报告给Planner就行新的任务修订。


根据图中所示,智能体交互的初步执行流程为:

1.用户提交问题后,Planner根据任务制定执行计划;

2. Engineer 接收子任务并逐步实现,并调用外部应用时委派给Executor;

3. Executor 完成后将结果返回给Engineer;

4. Critic 评估当前任务完成情况,若存在GAP,重新反馈给Planner修正。


AutoTQA中的智能体调度器旨在有效调度不同的智能体,最小化成本的同时能够最大化TQA任务的准确率,其中包含三种调度算法:

  • 循环滚动调度器:使用静态调度序列,调度器分配代理以按照给定的顺序执行各自的任务。在算法中,生成了一个专用的调度队列。其中,排除User对调度器至关重要,因为它负责提交用户指定的问题。随后,如果当前任务仍然未完成并且该回合没有超过最大限制,使用循环滚动机制从调度队列中选next_agent。但是,这种调度算法不能在指定的最大循环次数内达到正确的结果。AutoTQA不能依赖于静态序列来实现正确的代理调度。

循环滚动调度器





  • 基于LLM理解功能描述的调度器:这是一种动态调度算法,依据智能体功能描述与对话上下文动态选择下一步智能体。基于LLM的调度器在一定程度上会生成不符合预期的调度序列。这主要是由于对会话上下文的误解。

基于LLM理解功能描述的调度器


  • 有限状态机(FSM-based)调度器:算法中,将各智能体建模为有限状态机FSM中的状态,通过定义转移规则,以确保智能调度。当条件满足时,它触发FSM中的进入动作。当动作完成时,AutoTQA从一个智能体切换到另一个智能体。这里,每个智能体的职能将作为过渡条件(或事件)。当当前任务需要具有特定职责的代理时,该算法将智能体的调度信息与智能体的职能相分离。


基于有限状态机的调度算法减少了根据会话上下文推断next_agent的开销,在AutoTQA设计的智能体函数的基础上,建立predecessor和successor智能体的关系,并定义它们之间的调度,保证了调度过程的高效和准确。





AutoTQA的基于有限状态机的调度器


4.4讨论

(1)异常处理与重试机制:当Engineer将SQL或Python编程任务交由Executor执行时,Executor会初始化相应代码执行环境,并通过数据连接器分发SQL操作至底层系统。在此过程中,需特别处理两类异常情况:

  • 执行器返回错误:错误常因表或列信息召回错误引发,需要启动重试机制;

  • 执行器返回空值:空值不一定意味着结果为空,可能由于查询条件问题。在此情况下,系统会收集类似错误信息并反馈给 Engineer,作为通用知识积累,以便在重试中进一步优化查询。




5.实验

本章节通过四个具有代表性的基准数据集,对AutoTQA的设计进行系统性实证评估,主要关注以下研究问题:

  • RQ1AutoTQA在单表TQA任务中的准确率相比现有方法表现如何?

  • RQ2AutoTQA 在多表TQA任务(以企业数据集为代表)中的准确率表现如何?

  • RQ3AutoTQA中不同智能体调度算法对TQA任务准确率有何影响?

  • RQ4:嵌入式服务(few-shot prompting)对准确率有何影响?


5.1实验设置

5.1.1大语言模型(LLMs)

本实验中使用的LLM包括:

  • GPT-4-0613(简称GPT-4);

  • GPT-4-1106-preview(简称GPT-4-turbo);

  • GPT-3.5-turbo-16k(简称GPT-3.5-turbo)。

所有模型统一将温度参数设为0,以优先保证可复现性。在实验中,AutoTQA的最大交互轮次数、被设置为50轮,使用FSM-based(有限状态机)智能体调度器。


5.1.2数据集

本实验使用了四个数据集,包括三个公开数据集和一个来自PingCAP真实业务的数据集:

  • WiKiTQ:单表TQA的代表性数据集,包含18,496个复杂问题,需多步推理及各种数据操作(比较、聚合、算术计算等)

  • FeTaQA:源自维基百科,自由形式回答,包含9,329个问题-答案对

  • TabFact:大规模手工标注数据集,关系被分类为true或false,主要用于评估结构化数据上的语言推理能力,使用小规模测试集(1,998个问题)

  • 企业数据集:来自PingCAP真实业务场景。


5.1.3评价指标

实验中对于四个数据集,将以下度量统称为准确性:

  • 对于WikiTQ,指标是Accuracy

  • 对于FeTaQA,使用ROUGE-1,ROUGE-2和ROUGE-L指标

  • 对于TabFact,评估指标是字符串匹配

  • 对于企业数据集,标准度量是结果准确性。


5.1.4基线

实验中采用以下基线与AutoTQA进行对比:Codex,Binder,Dater,ReAcTable,ReAcTable(GPT-3.5-turbo),ReAcTable (GPT-4),ReAcTable(GPT-4-turbo),AutoTQA(GPT-3.5-turbo),AutoTQA(GPT-4),和AutoTQA(GPT-4-turbo)。


5.2单表任务评估





在WikiTQ数据集上的结果


在FeTaQA数据集上的结果


在TabFact数据集上的结果


为回答RQ1,实验在WiKiTQ、FeTaQA和TabFact三个单表基准数据集上,评估不同方法在TQA单表任务中的表现。可以看出,在三种数据集上,AutoTQA都优于其他的所有基线。其中,在WiKiTQ上,AutoTQA(GPT-4-turbo)相比ReAcTable(GPT-4-turbo)有5.2%的准确率提升;在FeTaQA上,AutoTQA(GPT-4-turbo)在ROUGE指标上全面优于ReAcTable;在TabFact上,AutoTQA(GPT-4-turbo)准确率达到88.7%,超越所有对比方法。这主要是由于,使用更强推理能力(如GPT-4/GPT-4-turbo)的基础模型,能更好发挥AutoTQA的智能体协作能力。同时AutoTQA通过智能体循环调度与错误重试机制,显著提升了推理深度与准确率。


*Finding:与其他基于LLM的方法相比,AutoTQA通过利用强大的GPT-4和GPT-4-turbo模型获得了卓越的性能。这主要是由于AutoTQA的代理设计(例如代理调度和重试机制),它充分利用了LLM从对话上下文中推理和学习的能力。同时,它还可以利用强大的外部应用程序。


5.3多表任务评估

为回答RQ2,实验在本节中使用PingCAP的企业数据集,来评估AutoTQA在多表TQA任务中的准确率表现。由于Binder、Dater和ReAcTable等方法不支持多表操作,因此实验中仅评估AutoTQA(基于不同LLM)的情况。





在企业数据集上的结果


实验结果表明,AutoTQA(GPT-4-turbo)的准确率为80.0%,AutoTQA(GPT-4)为85.0%,AutoTQA(GPT-3.5-turbo)仅为45.0%。这主要是因为,工业数据集涉及复杂表间连接(Join)、规整(Normalization)等操作,GPT-4相比GPT-3.5-turbo拥有更强推理与复杂任务处理能力。同时,AutoTQA的智能体设计(尤其是计划生成与错误回溯机制)有效提升了多表任务表现。


*Finding:在要求严格的多表TQA任务的实际场景中,AutoTQA表现出了显著的性能。这突显了AutoTQA在各种TQA场景中实现最佳性能的能力。在处理复杂的企业TQA任务时,配置了GPT-4-turbo的AutoTQA可以达到更佳的精度水平,还为企业提供了更具成本效益的解决方案。


5.4调度算法对准确率的影响

为回答RQ3,本节实验在企业数据集上,评估不同智能体调度算法对AutoTQA准确率的影响。





调度算法对准确率的影响结果


实验发现,采用循环滚动调度时,无论GPT-4还是GPT-4-turbo,均无法在最大轮次数内给出正确答案;而采用LLM-based调度和FSM-based调度时,性能显著提升,并且使用FSM-based调度更好。LLM-based调度器比FSM-based调度器准确率要低约5%。这是由于FSM-based调度通过显式定义状态转移关系,减少了推理错误,收敛速度更快。实验结果还表明,使用FSM-based调度器,AutoTQA在相同任务下平均轮次数降低至原LLM-based调度器的1/1.6





在企业数据集下的平均轮次


*FindingAutoTQA的其性能取决于代理调度算法。值得注意的是,基于循环滚动的调度器表现出最差的性能。基于FSM的调度算法实现了最佳性能,同时减少了调度轮次,这有助于更快的收敛,从而显著增强用户体验。


5.5嵌入式服务对准确率的影响

为回答RQ4,实验在本节探讨嵌入式服务(Few-shot Prompting)对AutoTQA(GPT-4-turbo)准确率的提升作用。





嵌入式服务对准确率的影响


实验结果表明,引入少量few-shot示例(如5个),即可将准确率从60.0%提升到80.0%。随着few-shot示例数量增加,准确率先上升后趋于稳定。这说明选择高质量的few-shot示例对提升准确率尤为关键,数量过多反而可能带来负面影响。由此可见,Few-shot示例对AutoTQA性能有重要影响;适量引入少量示例,可以显著提升系统整体准确率。


*FindingAutoTQA在精度方面的性能取决于少样本示例。通过适度增加示例数量,可以提高AutoTQA性能。




6.相关工作

6.1表格问答

目前已有若干先进的方法用于处理单表的表格问答(TQA)任务。这些方法大致可以分为以下两大类:

  • 基于微调的表格问答方法:主要有Table-BERT、TaPas、TAPEX、SaMoE、PASTA、TaCube、OmniTab、MultiTabQA

  • 基于大语言模型的表格问答方法:主要有Binder、Dater、ReAcTable等。


6.2大语言模型智能体

针对基于LLM的智能体研究,目前比较代表性项目有Voyager,它在Minecraft游戏环境中,持续探索世界的LLM驱动自主学习智能体;同时,Generative Agents模拟人类行为的智能体,能够根据环境变化动态适应;BOLAA提出了多智能体协作策略,以提升智能体在复杂任务中的动作交互能力。此外,AgentVerse项目开放了一个多智能体协作框架,促进LLM智能体在复杂推理与执行任务上的广泛应用。其他的研究还有ChatDev、CAMEL、D-Bot等等。


6.3基于LLM的可视化编程工具

近年来,随着LLM的迅猛发展,出现了多种利用LLM进行可视化编程(Visual Programming)的工具与系统。代表性工作包括:LangFLow、Rivet、Prompt Flow、PromptChainer等。




7.结论

在本文中,作者提出了AutoTQA,一个自主式表格问答(TQA)框架,基于多智能体大语言模型协作工作。AutoTQA包含五种智能体,它们通过协作来完成用户指定的任务。同时还提出了智能体调度算法,以协调各智能体之间的互动。此外,通过引入ReAct范式,AutoTQA能够与外部应用进行交互,从而增强其处理复杂TQA任务的能力。最后,作者进一步开发了一个开源的、可视化的低代码工具LinguFlow,极大地加速了基于LLM应用的开发、调试与部署流程。大量实验结果表明,AutoTQA在四个具有代表性的数据集上均取得了优异的准确率表现。



论文解读联系人:

刘思源

13691032906(微信同号)

liusiyuan@caict.ac.cn




数据库应用创新实验室简介




数据库是基础软件的重要一员,是支撑全球数字经济蓬勃发展的核心技术产品。为推动我国数据库产业国际地位从跟跑、并跑到领跑,多家数据库企业、应用单位、系统集成商、数据库服务企业、硬件制造商,共同成立公益性免费社群数据库应用创新实验室(以下简称“实验室”),打造了中国数据库产业的“联合舰队”。实验室持续致力于推动我国数据库产业创新发展,以实际问题为导向,以合作共赢为目标,联合政、产、学、研、用等多方力量,协同推进数据库领域应用创新的相关工作。实验室将一直秉承开放理念,持续欢迎数据库领域各企业、各机构、各组织申请加入。





实验室联系人




刘老师
13691032906
liusiyuan@caict.ac.cn

齐老师
17801071990
qidanyang@caict.ac.cn





实验室成员单位



文章转载自数据库应用创新实验室,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论