点击蓝字,关注我们ACL(Annual Meeting of the Association for Computational Linguistics)是自然语言处理领域的顶级国际会议,将于2025年7月27日至8月1日在奥地利维也纳举办。本期「GraphTalk」联合蚂蚁技术研究院「论文秀Live」将
深度解读其中四项研究成果,涵盖图谱问答、分词技术、隐私保护微调、历史类比构建等方向,分别由论文作者分享该技术的设计思路与验证过程。
论文一
M3GQA: A Multi-Entity Multi-Hop Multi-Setting Graph Question Answering Benchmark/多实体、多跳、多场景图谱问答基准
近期,图检索增强生成(GraphRAG)系统在提升大语言模型性能与可靠性方面取得了显著进展。然而,现有基准测试大多基于固定的模板,且主要针对单一实体查询,这种单一化的简易评估模式难以实现全面可靠的系统评测。此外,真实推理路径的缺失也阻碍了对 GraphRAG 系统各模块的精细化评估。为此,我们提出了 M3GQA 基准,一个聚焦多实体查询、兼具复杂性、多样性的高质量 GraphRAG 评估体系,并通过六种差异化场景实现全方位评测。为了构建具有语义正确推理路径的多样化数据,我们创新性地提出了四步推理驱动的构建方法:树结构采样、推理路径回溯、查询生成以及多阶段精筛。大量实验表明,M3GQA 能有效反映 GraphRAG 方法的真实能力,为模型性能与可靠性评估提供重要依据。该基准通过突破现有方法的评估边界,建立起全面、鲁棒且可信的 GraphRAG 评测新标准。
论文二
Unsupervised Morphological Tree Tokenizer/基于无监督词法学树结构的分词器
作为语言建模的基石,分词负责将文本输入切分为预定义的原子单元。然而,传统的统计分词方法往往破坏词内部的组成边界,从而损害语义信息。为克服这一问题,我们引入形态结构引导机制,并提出一种深度模型,用于在字符级别上建构词的内部结构。
具体而言,该深度模型联合编码词的内部结构与语义表示,并引入一种名为 MorphOverriding 的机制,以确保语素(morpheme)的不可再分性。通过无监督训练目标进行学习,我们的方法能够在无需人工标注数据的情况下,诱导出符合形态学规律的字符级结构。
在此基础上,我们设计了一种自顶向下的词汇匹配算法,实现基于诱导结构的分词过程。实证结果表明,该方法在保留完整语素方面表现出色,并在形态切分任务和语言建模任务中均优于目前广泛使用的 BPE 和 WordPiece 方法。
论文三
GradOT: Training-free Gradient-preserving Offsite-tuning for Large Language Models/GradOT:用于大型语言模型的免训练的梯度保持跨域微调
大型语言模型(LLMs)在传统的集中式微调方法下实现了快速增长,这使其成为应对特定领域挑战的关键技术。然而,这种方式也为模型和数据所有者带来了隐私风险。为了解决这些问题,研究者们提出了一种前景广阔的解决方案,称为跨域微调(Offsite-tuning,OT)。这种方法通过从原始模型中压缩一个较弱的仿真器,并进一步利用适配器进行微调,从而增强隐私保护。尽管如此,现有的基于 OT 的方法通常需要较高的计算成本,且缺乏理论分析。本文介绍了一种新型的 OT 方法,名为 GradOT,基于梯度保持压缩。我们从优化的角度分析 OT 问题,并提出了一种选择性压缩技术(如秩压缩和通道剪枝)的方法,这种方法能够在保留微调适配器梯度的同时,确保隐私安全。大量实验表明,我们的方法在隐私保护和模型性能方面均优于现有的 OT 方法。我们的研究为 OT 提供了理论基础,并为大规模 LLM 的跨域微调提供了一种实用的、无训练的解决方案。
论文四
Past Meets Present: Creating Historical Analogy with Large Language Models/以史为鉴:大语言模型的历史类比构建与评估
历史类比作为一项重要认知能力,通过将已知历史事件与当前陌生事件进行对照,辅助人类理解世界并做出决策。然而应用史学研究表明,人们普遍难以发现恰当的类比事件,而人工智能领域的前期研究亦长期忽视该方向。为填补此研究空白,本文聚焦于历史类比获取任务——即针对给定事件检索或生成相似历史事件。基于不同大语言模型(LLMs),我们同步探索了检索式与生成式两种历史类比获取路径,并创新性地提出自反思机制以抑制生成过程中的幻觉与刻板倾向。通过人工评估及自主构建的多维自动评估体系验证发现:大语言模型展现出显著的历史类比潜力,且采用自反思机制可进一步提升其性能表现。
【论文亮点聚焦】
1、M3GQA: 首创多维度复杂图谱问答评测基准,填补领域空白。
2、树结构分词器: 无监督捕捉词法结构,超越传统分词性能。
3、GradOT:首创理论保证的免训练梯度保持的跨域微调压缩算法,致力于大模型隐私微调。
4、历史类比:数据集与多维度评估指标,探究大模型在该任务中的潜力与缺陷。


彭泊词
北京大学智能学院博士研究生
(M3GQA: A Multi-Entity Multi-Hop Multi-Setting Graph Question Answering Benchmark)
祝青杨
纽约大学博士生
(Unsupervised Morphological Tree Tokenizer)
姚凯
利物浦大学博士,浙江大学博士后在读
蚂蚁集团高级算法工程师
(GradOT: Training-free Gradient-preserving Offsite-tuning for Large Language Models)
李念琪
复旦大学上海数据科学重点实验室研究生
(Past Meets Present: Creating Historical Analogy with Large Language Models)
【直播观看指南】
直播速约,锁定前沿
👇
观看时间:2025年7月10日18:00-20:00
直播预约:一键预约,防走失
直播平台:除【TuGraph】视频号,直播还将在微信视频号【蚂蚁技术研究院】、【蚂蚁技术AntTech】、【机器之心】、B站【蚂蚁技术研究院】同步,敬请预约关注!

·END·

欢迎关注TuGraph代码仓库✨
https://github.com/tugraph-family/tugraph-db
https://github.com/tugraph-family/tugraph-analytics




