暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

GraphTalk|NLP 研究者必读:ACL 2025 精选论文深度解读

TuGraph 2025-07-10
715
点击蓝字,关注我们


ACL(Annual Meeting of the Association for Computational Linguistics)是自然语言处理领域的顶级国际会议,将于2025年7月27日至8月1日在奥地利维也纳举办。本期「GraphTalk」联合蚂蚁技术研究院「论文秀Live」将
深度解读其中四项研究成果,涵盖图谱问答、分词技术、隐私保护微调、历史类比构建等方向,分别由论文作者分享该技术的设计思路与验证过程。


论文一

M3GQA: A Multi-Entity Multi-Hop Multi-Setting Graph Question Answering Benchmark/多实体、多跳、多场景图谱问答基准


近期,图检索增强生成(GraphRAG)系统在提升大语言模型性能与可靠性方面取得了显著进展。然而,现有基准测试大多基于固定的模板,且主要针对单一实体查询,这种单一化的简易评估模式难以实现全面可靠的系统评测。此外,真实推理路径的缺失也阻碍了对 GraphRAG 系统各模块的精细化评估。为此,我们提出了 M3GQA 基准,一个聚焦多实体查询、兼具复杂性、多样性的高质量 GraphRAG 评估体系,并通过六种差异化场景实现全方位评测。为了构建具有语义正确推理路径的多样化数据,我们创新性地提出了四步推理驱动的构建方法:树结构采样、推理路径回溯、查询生成以及多阶段精筛。大量实验表明,M3GQA 能有效反映 GraphRAG 方法的真实能力,为模型性能与可靠性评估提供重要依据。该基准通过突破现有方法的评估边界,建立起全面、鲁棒且可信的 GraphRAG 评测新标准。



论文二

Unsupervised Morphological Tree Tokenizer/基于无监督词法学树结构的分词器


作为语言建模的基石,分词负责将文本输入切分为预定义的原子单元。然而,传统的统计分词方法往往破坏词内部的组成边界,从而损害语义信息。为克服这一问题,我们引入形态结构引导机制,并提出一种深度模型,用于在字符级别上建构词的内部结构。

具体而言,该深度模型联合编码词的内部结构与语义表示,并引入一种名为 MorphOverriding 的机制,以确保语素(morpheme)的不可再分性。通过无监督训练目标进行学习,我们的方法能够在无需人工标注数据的情况下,诱导出符合形态学规律的字符级结构。

在此基础上,我们设计了一种自顶向下的词汇匹配算法,实现基于诱导结构的分词过程。实证结果表明,该方法在保留完整语素方面表现出色,并在形态切分任务和语言建模任务中均优于目前广泛使用的 BPE 和 WordPiece 方法。



论文三

GradOT: Training-free  Gradient-preserving  Offsite-tuning for Large Language Models/GradOT:用于大型语言模型的免训练的梯度保持跨域微调


大型语言模型(LLMs)在传统的集中式微调方法下实现了快速增长,这使其成为应对特定领域挑战的关键技术。然而,这种方式也为模型和数据所有者带来了隐私风险。为了解决这些问题,研究者们提出了一种前景广阔的解决方案,称为跨域微调(Offsite-tuning,OT)。这种方法通过从原始模型中压缩一个较弱的仿真器,并进一步利用适配器进行微调,从而增强隐私保护。尽管如此,现有的基于 OT 的方法通常需要较高的计算成本,且缺乏理论分析。本文介绍了一种新型的 OT 方法,名为 GradOT,基于梯度保持压缩。我们从优化的角度分析 OT 问题,并提出了一种选择性压缩技术(如秩压缩和通道剪枝)的方法,这种方法能够在保留微调适配器梯度的同时,确保隐私安全。大量实验表明,我们的方法在隐私保护和模型性能方面均优于现有的 OT 方法。我们的研究为 OT 提供了理论基础,并为大规模 LLM 的跨域微调提供了一种实用的、无训练的解决方案。



论文四

Past Meets Present: Creating Historical Analogy with Large Language Models/以史为鉴:大语言模型的历史类比构建与评估


历史类比作为一项重要认知能力,通过将已知历史事件与当前陌生事件进行对照,辅助人类理解世界并做出决策。然而应用史学研究表明,人们普遍难以发现恰当的类比事件,而人工智能领域的前期研究亦长期忽视该方向。为填补此研究空白,本文聚焦于历史类比获取任务——即针对给定事件检索或生成相似历史事件。基于不同大语言模型(LLMs),我们同步探索了检索式与生成式两种历史类比获取路径,并创新性地提出自反思机制以抑制生成过程中的幻觉与刻板倾向。通过人工评估及自主构建的多维自动评估体系验证发现:大语言模型展现出显著的历史类比潜力,且采用自反思机制可进一步提升其性能表现。


【论文亮点聚焦】

1、M3GQA: 首创多维度复杂图谱问答评测基准,填补领域空白。

2、树结构分词器: 无监督捕捉词法结构,超越传统分词性能。

3、GradOT:首创理论保证的免训练梯度保持的跨域微调压缩算法,致力于大模型隐私微调。

4、历史类比:数据集与多维度评估指标,探究大模型在该任务中的潜力与缺陷。



彭泊词

北京大学智能学院博士研究生

(M3GQA: A Multi-Entity Multi-Hop Multi-Setting Graph Question Answering Benchmark)


祝青杨

纽约大学博士生

(Unsupervised Morphological Tree Tokenizer)


姚凯

利物浦大学博士,浙江大学博士后在读

蚂蚁集团高级算法工程师

(GradOT: Training-free  Gradient-preserving  Offsite-tuning for Large Language Models)


李念琪

复旦大学上海数据科学重点实验室研究生

(Past Meets Present: Creating Historical Analogy with Large Language Models)



【直播观看指南】

直播速约,锁定前沿

👇


观看时间:2025年7月10日18:00-20:00

直播预约:一键预约,防走失



直播平台:除【TuGraph】视频号,直播还将在微信视频号【蚂蚁技术研究院】、【蚂蚁技术AntTech】、【机器之心】、B站【蚂蚁技术研究院】同步,敬请预约关注!


·END·

欢迎关注TuGraph代码仓库✨

TuGraph-DB 图数据库

https://github.com/tugraph-family/tugraph-db

GeaFlow 流式图计算引擎

https://github.com/tugraph-family/tugraph-analytics

Chat2Graph 图原生智能体系统
https://github.com/tugraph-family/chat2graph



文章转载自TuGraph,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论