本期将分享近期全球知识图谱相关
行业动态、近期会议、论文推荐
AI京医
京东健康近日推出AI医生"大为",该智能体基于全医学领域知识图谱和"京医千询"大模型,可快速分析海量病例数据,生成个性化诊疗方案。"大为"能将复杂病理转化为可视化知识图谱,通过智能对话精准识别患者需求,提供专业医疗建议。作为"AI京医"核心服务角色之一,"大为"的上线标志着京东健康在智能医疗领域取得新突破。此前,AI营养师、药师等专业智能体已在细分场景落地应用,如优化老年共病患者用药方案等。京东健康表示,将持续迭代AI医疗服务,推动医疗健康行业智能化升级。
https://t.hk.uy/bTWn
初创公司
捷克AI公司Waypoint AI近日完成270万欧元Pre-Seed轮融资,由42Cap和Dreamcraft Ventures领投,将用于扩展工程团队。该公司成立于2024年,其核心产品“AI客户支持工程师”通过自研的升级智能知识图谱(EIKG)整合文档、工单等碎片化信息,结合大模型生成解决方案,帮助Kpler等客户将平均问题解决时间(MTTR)缩短50%。该技术能自动处理客户问题分诊、生成报告,并嵌入现有支持系统。投资方称其“用AI重塑了软件公司的跨部门协作效率”。
https://t.hk.uy/bTWm
SSTD 2025
时空数据国际研讨会(SSTD)将于2025年8月25-27日在日本举办,自1989年创办以来一直致力于推动时空数据管理的理论创新与技术进步。SSTD 2025将继续秉承这一传统,重点关注大数据、人工智能和普适计算时代下时空数据的全生命周期管理。会议录用论文将由ACM出版,为研究者、从业者和行业领袖提供展示与交流的平台。多年来,SSTD在空间数据库、地理空间计算和时空分析等领域的突破性研究发挥了关键作用,持续引领学科发展。

本周推荐的是arxiv 2025.6上的论文:Data Efficacy for Language Model Training,作者来自微软。

微软研究院引入了数据有效性,这是一个通过组织训练数据来优化语言模型训练的新概念。这项工作提出了 DELT,一个通用的范式,包括可学习性-质量评分(LQS)和折叠排序(FO)方法,与传统训练相比,其在1.6亿参数模型上的 OLMo 基准测试中,平均准确率持续提升高达1.71%。
问题:
大型语言模型(LLM)的训练主要侧重于数据效率(选择、过滤),而忽略了训练数据的组织或排序。
尽管课程学习等方法前景广阔,但除了简单的排序之外,目前还没有建立起一种有效组织训练数据的通用范式。
LLM规模的不断扩大通常将训练限制在单个 epoch,使得数据呈现的顺序具有高度影响力,并易受模型遗忘和数据分布偏差等问题的影响。
方法:
该论文引入了DELT(数据有效性语言模型训练),这是一种通过重新组织训练数据而不改变其内容或模型架构来优化语言模型性能的通用范式。
它提出了可学习性-质量评分(LQS),这是一种新颖的数据评分机制,从梯度一致性的角度量化样本的可用性和质量。
它开发了折叠排序(FO),一种新的数据排序策略,通过多次重复课程学习而无需重复数据,从而减轻了简单排序的局限性,确保在整个训练过程中数据得到多样化暴露。
要点:
数据有效性,专注于优化数据组织和排序,是增强语言模型训练的一个独特且关键的领域,与数据效率(选择)相辅相成。
智能数据排序,特别是所提出的折叠排序(Folding Ordering),可以通过减轻模型遗忘和数据分布偏差,显著提高LLM性能和训练稳定性,尤其是在少轮训练场景中。
像DELT这样的系统范式可以在不增加数据规模或模型大小的情况下提供持续的性能提升,为大型语言模型提供了一种计算效率高的优化方法。
论文、讨论和代码链接:
https://www.alphaxiv.org/zh/overview/2506.21545v1
感兴趣的读者可以关注。
更多链接
内容:袁知秋、程湘婷、卢小柯、王图图

诚邀您加入我们的gStore社区,我们将在群内解决使用问题,分享最新成果~
请在微信公众号图谱学苑发送“社区”入群~

微信社区群:请回复“社区”获取




