GraphTalk｜NLP 研究者必读：ACL 2025 精选论文深度解读

TuGraph 2025-07-10

719

点击蓝字，关注我们

ACL（Annual Meeting of the Association for Computational Linguistics）是自然语言处理领域的顶级国际会议，将于2025年7月27日至8月1日在奥地利维也纳举办。本期「GraphTalk」联合蚂蚁技术研究院「论文秀Live」将
深度解读其中四项研究成果，涵盖图谱问答、分词技术、隐私保护微调、历史类比构建等方向，分别由论文作者分享该技术的设计思路与验证过程。

论文一

M3GQA: A Multi-Entity Multi-Hop Multi-Setting Graph Question Answering Benchmark/多实体、多跳、多场景图谱问答基准

近期，图检索增强生成（GraphRAG）系统在提升大语言模型性能与可靠性方面取得了显著进展。然而，现有基准测试大多基于固定的模板，且主要针对单一实体查询，这种单一化的简易评估模式难以实现全面可靠的系统评测。此外，真实推理路径的缺失也阻碍了对 GraphRAG 系统各模块的精细化评估。为此，我们提出了 M3GQA 基准，一个聚焦多实体查询、兼具复杂性、多样性的高质量 GraphRAG 评估体系，并通过六种差异化场景实现全方位评测。为了构建具有语义正确推理路径的多样化数据，我们创新性地提出了四步推理驱动的构建方法：树结构采样、推理路径回溯、查询生成以及多阶段精筛。大量实验表明，M3GQA 能有效反映 GraphRAG 方法的真实能力，为模型性能与可靠性评估提供重要依据。该基准通过突破现有方法的评估边界，建立起全面、鲁棒且可信的 GraphRAG 评测新标准。

论文二

Unsupervised Morphological Tree Tokenizer/基于无监督词法学树结构的分词器

作为语言建模的基石，分词负责将文本输入切分为预定义的原子单元。然而，传统的统计分词方法往往破坏词内部的组成边界，从而损害语义信息。为克服这一问题，我们引入形态结构引导机制，并提出一种深度模型，用于在字符级别上建构词的内部结构。

具体而言，该深度模型联合编码词的内部结构与语义表示，并引入一种名为 MorphOverriding 的机制，以确保语素(morpheme)的不可再分性。通过无监督训练目标进行学习，我们的方法能够在无需人工标注数据的情况下，诱导出符合形态学规律的字符级结构。

在此基础上，我们设计了一种自顶向下的词汇匹配算法，实现基于诱导结构的分词过程。实证结果表明，该方法在保留完整语素方面表现出色，并在形态切分任务和语言建模任务中均优于目前广泛使用的 BPE 和 WordPiece 方法。

论文三

GradOT: Training-free Gradient-preserving Offsite-tuning for Large Language Models/GradOT：用于大型语言模型的免训练的梯度保持跨域微调

大型语言模型（LLMs）在传统的集中式微调方法下实现了快速增长，这使其成为应对特定领域挑战的关键技术。然而，这种方式也为模型和数据所有者带来了隐私风险。为了解决这些问题，研究者们提出了一种前景广阔的解决方案，称为跨域微调（Offsite-tuning，OT）。这种方法通过从原始模型中压缩一个较弱的仿真器，并进一步利用适配器进行微调，从而增强隐私保护。尽管如此，现有的基于 OT 的方法通常需要较高的计算成本，且缺乏理论分析。本文介绍了一种新型的 OT 方法，名为 GradOT，基于梯度保持压缩。我们从优化的角度分析 OT 问题，并提出了一种选择性压缩技术（如秩压缩和通道剪枝）的方法，这种方法能够在保留微调适配器梯度的同时，确保隐私安全。大量实验表明，我们的方法在隐私保护和模型性能方面均优于现有的 OT 方法。我们的研究为 OT 提供了理论基础，并为大规模 LLM 的跨域微调提供了一种实用的、无训练的解决方案。

论文四

Past Meets Present: Creating Historical Analogy with Large Language Models/以史为鉴：大语言模型的历史类比构建与评估

历史类比作为一项重要认知能力，通过将已知历史事件与当前陌生事件进行对照，辅助人类理解世界并做出决策。然而应用史学研究表明，人们普遍难以发现恰当的类比事件，而人工智能领域的前期研究亦长期忽视该方向。为填补此研究空白，本文聚焦于历史类比获取任务——即针对给定事件检索或生成相似历史事件。基于不同大语言模型（LLMs），我们同步探索了检索式与生成式两种历史类比获取路径，并创新性地提出自反思机制以抑制生成过程中的幻觉与刻板倾向。通过人工评估及自主构建的多维自动评估体系验证发现：大语言模型展现出显著的历史类比潜力，且采用自反思机制可进一步提升其性能表现。

【论文亮点聚焦】

1、M3GQA: 首创多维度复杂图谱问答评测基准，填补领域空白。

2、树结构分词器: 无监督捕捉词法结构，超越传统分词性能。

3、GradOT：首创理论保证的免训练梯度保持的跨域微调压缩算法，致力于大模型隐私微调。

4、历史类比：数据集与多维度评估指标，探究大模型在该任务中的潜力与缺陷。

彭泊词

北京大学智能学院博士研究生

(M3GQA: A Multi-Entity Multi-Hop Multi-Setting Graph Question Answering Benchmark)

祝青杨

纽约大学博士生

(Unsupervised Morphological Tree Tokenizer)

姚凯

利物浦大学博士，浙江大学博士后在读

蚂蚁集团高级算法工程师

(GradOT: Training-free Gradient-preserving Offsite-tuning for Large Language Models)

李念琪

复旦大学上海数据科学重点实验室研究生

（Past Meets Present: Creating Historical Analogy with Large Language Models）

【直播观看指南】

直播速约，锁定前沿

👇

观看时间：2025年7月10日18:00-20:00

直播预约：一键预约，防走失

直播平台：除【TuGraph】视频号，直播还将在微信视频号【蚂蚁技术研究院】、【蚂蚁技术AntTech】、【机器之心】、B站【蚂蚁技术研究院】同步，敬请预约关注！

·END·

欢迎关注TuGraph代码仓库✨

TuGraph-DB 图数据库

https://github.com/tugraph-family/tugraph-db

GeaFlow 流式图计算引擎

https://github.com/tugraph-family/tugraph-analytics

Chat2Graph 图原生智能体系统

https://github.com/tugraph-family/chat2graph

acl 分词 nlp tugraph

文章转载自TuGraph，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

GraphTalk｜NLP 研究者必读：ACL 2025 精选论文深度解读

评论