暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

NDBC 2025|CCF-华为胡杨林基金数据库专项2025年预开题论坛,敬请期待~

Gauss松鼠会 2025-07-18
246
Gauss松鼠会

学习 探索 分享数据库前沿知识和技术 共建数据库技术交流圈

关注


NDBC 2025
CCF中国数据库学术会议始于1977年,是由数据库专业委员会举办的中国数据库领域的最高学术会议。第42届中国数据库学术会议(NDBC 2025)将于2025年8月1日-8月3日在吉林长春举行。
本届大会将主要关注数据库领域所面临的新挑战、新问题和新方向,着力反映我国数据库技术研究的最新进展,为高校、科研院所、科技企业的数据库研究、开发和应用相关人员搭建交流平台。

CCF-华为胡杨林基金数据库专项论坛作为NDBC 2025的重要分论坛,将于8月2日14:00-18:20,在长春国际影都万达文华酒店金熊厅会议室,由东北大学教授张岩峰华为GaussDB数据库技术专家李士福主持开展CCF-华为胡杨林基金数据库专项2025年预开题。本论坛将对已经确定合作的课题,由各高校专家老师进行项目工作计划报告。同时,本次论坛将通过Gauss松鼠会B站同步直播,欢迎大家届时准时观看~


论坛议程

聚焦






论坛主席介绍

NDBC





家介绍:张岩峰,东北大学教授,博士生导师,东北大学与美国麻省州立大学联合培养博士,国家级高层次青年人才。研究方向为数据库系统、机器学习系统。承担国家重点研发计划课题、国家自然科学基金等国家级科研项目,承担华为2012实验室、阿里巴巴达摩院等校企合作项目。曾获中国计算机学会自然科学二等奖、云计算国际会议ACM SOCC杰出论文奖等奖励。

张岩峰

东北大学教授


李士福

GaussDB数据库技术专家


家介绍:李士福,GaussDB数据库技术专家,15年数据库内核开发经验,2014年加入华为高斯部,曾在Teradata研发中心从事分布式MPPDB数据库研发。目前其主要负责GaussDB(含openGauss)自治数据库内核的研发工作,开发产品包括DBMind自治运维系统、DB4AI库内AI引擎、ABO优化器、向量数据库等已广泛应用于金融、政企等关基行业;同时作为openGauss社区TC成员支撑openGauss社区拓展。



报告&嘉宾介绍

NDBC





家介绍:南京航空航天大学教授,计算机系主任,ACID研究所所长,主要从事数据管理及数据库原型系统研究,近年来主要针对大模型驱动的复杂数据管理和高效计算、垂直领域智能数据管理和分析开展工作,主持国家自然科学基金项目3项、省部级项目4项。发表学术论文50余篇,包括CCF推荐A类论文和中科院1区论文等,例如IEEE TKDE、ICDE、PVLDB、计算机学报等,出版英文专著1本。担任中国科学卓越期刊二期领军、中科院2区期刊Frontier of Computer Science 青年编委,多次获得国际/国内学术会议论文奖,包括最佳系统演示论文奖,最佳展望论文奖等,国内学术会议特邀报告5次,授权国家发明专利7项。

许建秋

南京航空航天大学


报告题目:基于对象存储的存算分离数据库数据结构

摘要:在云存储服务多样化的背景下,云数据库系统需要动态弹性地获取具有差异化成本和访问特性的存储资源,并基于数据访问模式实现智能化的分层存储管理。其主要面临的挑战包括对象存储分块粒度选择、元数据存储与管理和读写局限性。本项目拟设计和实现基于对象存储的存算分离数据库数据结构,其作为中间层解决段页式存储与对象存储的异构性问题。在数据库系统中,冷数据的随机点查询、范围查询、随机修改的性能不低于热存储的50%;范围查询、大批量修改的性能不低于热存储的90%。

张心怡

中国人民大学


家介绍:中国人民大学讲师,吴玉章青年英才,CCF数据库专委执行委员。博士毕业于北京大学,主要研究方向为智能数据库系统、面向人工智能的数据管理,在SIGMOD、VLDB等数据库领域国际会议和期刊上发表CCF A类论文10余篇,获2024年玉兰青年学者、2023年字节跳动奖学金(全球13人)、2022年微软学者提名(亚太地区21人)等荣誉。担任ICDE、WWW等国际会议PC Member,任VLDB、TKDE、TODS等国际会议期刊审稿人。

报告题目:通用解耦OLTP优化器的高效描述接口

摘要:GaussDB支持多种数据库生态,每个生态都有独立SQL引擎,为实现全生态性能优势,需构建统一的SQL语义和执行计划抽象描述语言,支持优化器基于通用的抽象语义来进行逻辑优化和物理优化,驱动各生态的执行器调用GaussDB融合引擎。现有开源查询描述语言(如ORCA、Substrait)在抽象表达上已有探索,但在完备性、扩展性和转换效率方面不足,难以满足高频短查询的OLTP需求。因此,本报告关注通用解耦 OLTP 优化器的高效描述接口,探究二进制零拷贝数据转换机制,实现轻量级转化。

家介绍:上海交通大学计算机学院长聘轨助理教授,博士生导师。主要研究智能数据分析、AI数据底座、自治数据库系统。在SIGMOD、VLDB、NIPS、TKDE等CCF A类会议和期刊上已发表论文数十篇,包括近五年VLDB、ICDE高被引论文,入选CMU、Cornell等高校课程。谷歌学术引用量两千余次。曾获通信学会科学技术一等奖、ACM SIGMOD Jim Gray提名奖(国内首次)、VLDB最佳工业论文亚军奖(第一作者)、CCF优博、微软学者、清华特奖等荣誉。曾主导或主要参与OpenMLDB(入选Gartner报告)、DB-GPT(BenchCouncil开源成就奖)、Bird-SQL(用于OpenAI微调服务推广)等多个高星标开源项目。

周煊赫

上海交通大学


报告题目:查询资源预估和智能任务调度

摘要:本项目研究面向HTAP数据库的混合负载资源估算与任务调度。首先,我们将介绍面向Stage-based的细粒度、低开销的资源预测方法,准确估算查询执行的关键资源消耗。其次,我们将介绍基于pipeline执行模式的智能调度策略,实现Stage级别的资源优化与任务排序。最后,我们将介绍原型系统设计以及混合负载基准测试方案,系统评估调度方案在吞吐性能、资源隔离与可扩展性方面的表现。

王宏志

哈尔滨工业大学


家介绍:哈尔滨工业大学计算学部长聘教授、博士生导师、海量数据计算研究中心主任、哈工大数据科学与大数据技术专业负责人、CCF杰出会员、CCF数据库专委常务委员、大数据专委会执行委员、数据治理发展委员会执行委员、黑龙江省大数据科学与工程重点实验室主任、黑龙江省计算机学会数据科学与大数据技术专委会主任、黑龙江省教学名师。主要从事数据库和大数据研究,主持国家自然科学基金重点项目和联合基金项目各1项,各类国家、省部级和校企合作项目20余项,在VLDB、 SIGMOD等国内外重要会议和期刊发表学术论文300余篇,出版学术专著四部,论文被SCI收录百余次,他引6000余次,授权发明专利50余项,获得省部级一等奖2项。其研究成果应用于国产数据库、电力系统、智慧金融等领域。

报告题目:面向场景化机器学习任务的高效大数据存储格式设计

摘要:随着智能制造的发展,企业积累了海量结构化数据。在质量预测任务中,机器学习模型(如深度神经网络)依赖这些历史数据进行训练与推理。然而,高维度、大体量、复杂访问模式和动态变化等数据特性,使得传统存储系统在吞吐量和访问延迟上难以满足需求,严重制约了模型性能与应用部署效率。为了解决如上挑战,本项目将从两方面展开研究:1)面向场景化机器学习任务的高维向量存储;2)面向场景化机器学习任务的动态分层压缩,通过设计页内组织、页间布局及压缩编码等存储格式优化方法,构建面向场景化机器学习任务的高效大数据存储原型系统

家介绍:武汉大学计算机学院教授,挂任武大信息中心副主任和聘任武大数智教育教学研究中心成员;担任CCF武汉会员中心秘书长、数据库专委会、信息系统专委会执行委员; 2013年和2016年本硕毕业于南京航空航天大学,2019年博士毕业于澳大利亚皇家墨尔本理工大学,2021年在美国纽约大学完成博士后;主要研究一体化数据管理及应用,研究成果发表在SIGMOD和 PVLDB等CCF A类推荐的国际顶级会议及期刊上;培养学生获国家奖学金、优秀毕业设计;担任武大数智教育课程《数据分析与处理(Python)》课程组组长、雷军班和弘毅班学业导师;主持国家重点研发计划课题、湖北省重点研发计划项目和国家自然科学基金青年基金等,入选国家和省市等各高层次青年人才项目。

王胜

武汉大学


报告题目:面向NPU异构计算资源的软硬协同调度算法

摘要:大语言模型(LLM)的规模化应用对推理效率提出了更高要求,尤其在资源受限场景下,如何平衡计算性能和响应速度成为关键挑战。我们聚焦NPU(神经网络处理器)的架构优势,探索其在加速大模型推理中的潜力,并提出细粒度的资源调度策略。区别于传统依赖通用计算单元的方法,我们通过挖掘NPU的并行计算特性,实现计算资源的动态优化配置。同时,针对检索增强生成(RAG)技术中高计算开销的检索环节,我们分析其资源需求特征,构建分层调度机制以提升整体效率。我们的工作主要涵盖:1)NPU的硬件加速原理及其与大模型推理的适配性;2)RAG任务的计算特征分析与调度优化方法;3)面向实际业务场景的系统级优化方案与性能评估。通过资源感知的调度优化,我们为高负载场景下的大模型高效推理提供系统化解决方案。

于明鹤

东北大学


家介绍:东北大学软件学院副教授、硕士生导师,软件工程系副主任。CCF高级会员、CCF数据库专委会、信息系统专委会委员。研究方向为数据库、大数据分析、智慧教育等。承担或参与国家自然科学基金、国家重点研发计划等多项国家级科研项目,及华为、OceanBase等校企合作项目。在VLDB、ICDE、TKDE、VLDBJ等国际重要会议和期刊上发表论文40余篇。

报告题目:结构与非结构化数据关联知识发掘

摘要:随着大数据时代的到来,企业资源规划、工业制造等领域的数据资源从单一类型演变为结构化与非机构化共存的复杂模态。为破解两类数据割裂导致的语义失联与关系湮没等瓶颈,本项目拟研究基于知识图谱的结构化与非机构化数据关联知识发掘技术。项目首先构建知识图谱对异构数据进行统一管理,并在此基础上,通过研究跨模态知识图谱补全、多模态数据融合和可解释分类三个方向来解决结构化与非结构化数据关联知识发掘问题。从而有效梳理数据关系,融合多源数据,并精准的提取知识,破解异构数据协同分析的难题,为企业管理、工业制造、金融等领域提供实践工具。

家介绍:南开大学计算机学院教授、博士生导师,CCF数据库专委会执行委员。博士毕业于清华大学计算机系,主要研究方向是数据融合,以第一/通讯作者在数据库、数据挖掘领域CCF-A类国际会议期刊(SIGMODKDDICDEWWWTKDE等)上发表论文20余篇,所发表一作/通讯论文被引用超过2000次。先后主持国家自然科学基金面上项目、重点项目课题、青年项目,以及CCF-滴滴盖亚学者科研基金、CAAI-华为MindSpore学术奖励基金等多项产学研项目。曾获中国科协青年人才托举工程、ACM中国新星奖提名奖、CCF-Intel青年学者提升计划、中国人工智能学会优秀博士论文奖、天津市青年科技优秀人才。

沈玮

南开大学


报告题目:结构与非结构化数据关联知识发掘

摘要:在大数据时代,结构化数据和非结构化数据广泛存在于各个领域,它们的数据量呈现出爆发式增长。结构化数据如知识图谱、数据库表格等,结构清晰规整;非结构化数据像文本、图像等,内容丰富但格式松散。二者独立分析时,挖掘的信息有限。如能将这两类数据关联起来,打破数据类型的壁垒,定能从两类数据的关联中发掘出新的知识和规律,为企业决策、科研创新等提供更全面深入的信息支持。本项目面向企业资源管理应用场景,针对多源数据融合难、知识提取准确性低等挑战,研究结构与非结构化数据关联知识发掘任务。

汤南

香港科技大学


家介绍:香港科技大学(广州)副教授。2007年12月取得香港中文大学系统工程与工程管理专业博士学位。2008-2009年期间,任职研究院于荷兰国家数学与计算机研究所,主要研究方向是列存储数据库对半结构化数据的高效支持。2010-2011年期间,任职研究院于爱丁堡大学,主要研究方向为数据清洗。2011年12月至2023年6月,加入卡塔尔计算机研究所担任资深科学家,作为卡塔尔国家计算机研究所的创始成员,在过去十年的时间里带领卡塔尔国家计算机研究所成为数据管理领域世界闻名的研究中心。在数据库和数据挖掘顶级会议和期刊上发表论文150余篇。根据 Google Scholar,其论文总引用数量超过9000,h-index为49。在众多国际顶级会议和期刊担任审稿人,区域主席 (VLDB 2026 & 2025, ICDE 2026 & 2024,KDD 2025 Datasets and Benchmarks, CIKM 2025 & 2024),和主席 (SIGMOD 2021 Exhibition Chair, DASFAA 2019 Demo Chair),并多次获得国际会议的重要奖项 (SIGMOD 2024 Research Highlight Awards, Best Papers of SIGMOD 2023, VLDB 2021 Distinguished Reviewer Award, ACM SIGMOD 2020 Reproducibility Award, Best Papers of ICDE 2018 & 2012 & 2009, Best Papers of VLDB 2023 & 2015, The Best Paper Award of VLDB 2010.

报告题目:基于大语言模型和轻量模型结合的多模态数据分析

摘要:本研究聚焦多模态数据分析系统的智能协同计算范式,致力于解决非结构化数据爆炸与模态多样性(文本、图像、音视频等)带来的核心挑战。传统方法受限于规则系统的僵化与大模型的高昂计算成本,尤其在跨模态语义融合、实时性要求及能效控制方面存在显著瓶颈。本领域通过重构"解析-调度-执行-反馈"的技术链条,构建分层智能框架,旨在突破"算力堆砌"模式,实现多模态数据从"暗数据"到商业洞见的高效转化。

本研究领域的核心创新在于构建大语言模型(LLM)与轻量模型的动态协同机制:通过任务解耦技术将复杂多模态分析分解为全局语义规划(由LLM执行高阶推理)与局部信息抽取(由轻量语言模型完成),显著降低计算密度;依托马尔可夫决策过程(MDP)的动态调度框架实现异构资源优化分配,在保障语义完整性的前提下提升系统吞吐量;创新性采用分组投影对齐策略解决跨模态特征空间碎片化问题,在专业领域使细粒度推理提升准确率,最终形成支撑TB级数据实时处理的高效引擎,为工业场景提供兼具强认知能力与低资源消耗的智能化分析基础设施

家介绍:电子科技大学教授、博士生导师,国家青年特聘专家、国家重点研发计划首席科学家、国家自然科学基金重点类项目负责人。2023、2024年度国家自然科学基金信息学部会评专家。本科毕业于北京大学,博士毕业于澳大利亚昆士兰大学。研究方向包括大数据、大模型、智能时空计算、智能防灾减灾、社会计算等。在相关领域发表CCF A 类论文90余篇,Google Metrics高影响力/ESI高被引/热点论文 12篇,SCI他引2000余次。担任IEEE TKDE、Geoinformatica、DSE期刊执行编委,担任8个CCF A类会议SIGMOD、VLDB、ICDE、KDD、WWW、AAAI、IJCAI、NeurIPS的领域主席、(高级)程序委员会委员。研究成果获江西省科技进步一等奖、福建省科技进步一等奖。

商烁

电子科技大学


报告题目:基于大语言模型和轻量模型结合的多模态数据分析

摘要:本研究聚焦Text2SQL技术的突破性训练框架与动态评测基准构建,致力于推动SQL生成模型在数据分析交互过程以及生成准确率的突破。在训练流程方面,本项目使用D2R2-SQL三阶段框架:第一阶段通过多源数据在多维指标下构建高质量训练基座,采用双重模型筛选机制确保数据兼具多样性、难度梯度与可执行性,从而保留模型"可学习临界点"样本;第二阶段引入大小模型协同推理机制,当小模型需要帮助时引入特殊标识符嵌入大模型修正片段,并通过冷启动微调以及以后的强化学习使小模型掌握求助时机,提高推理效率以及准确性;第三阶段为建立执行反馈强化学习闭环系统,在沙箱环境中以可执行SQL、结果匹配度为正向奖励,语法错误/无效执行为负向惩罚,结合数据库实时错误反馈驱动PPO/GRPO算法优化,使模型在自我探索过程中提高SQL能力。 针对现有评测系统的不足,本项目设计了A-SQL动态交互基准以弥补现有基准在真实变化场景中的局限性。该基准构建包含模糊查询、晦涩字段名、缺失主外键等现实挑战,要求模型通过多轮交互完成复杂任务。同时在评测维度,引入"自我修正"评价指标,专门设计陷阱任务考察模型解析数据库报错并动态调整SQL的能力,并建立面向过程的评价体系:以任务成功率为核心指标,辅以最终查询准确率验证SQL精确性。通过训练框架与评测基准的双重突破,本研究旨在构建具有模式感知、逻辑推理以及交互能力的Text2SQL系统,为真实复杂SQL场景提供高鲁棒性方法。

张美慧

北京理工大学


家介绍:北京理工大学计算机学院教授、博士生导师,国家级青年人才。主要研究方向为大数据管理与分析、新型数据管理系统等。近年来,先后主持国家自然科学基金联合基金项目、国家重点研发计划课题等。担任VLDB理事会理事、IEEE Transactions on Knowledge and Data Engineering (TKDE) 期刊副主编、VLDB 2024程序委员会主席,自2018年起持续担任CCF-A类会议SIGMOD、VLDB、ICDE的副主编(Associate Editor)或领域主席(PC Area Chair),担任ICDE 2026 Tutorial Track主席、CIDR 2026-2027 Diversity & Inclusion 主席、EDBT/ICDT 2026 Diversity & Inclusion主席、EDBT 2022 Demo Track主席等。荣获2019年度计算机学会CCF-IEEE CS青年科学家奖、2020年度VLDB青年研究贡献奖,获VLDB 2019最佳论文奖、ICDE 2018及ICDE 2024最佳论文亚军、ACM SIGMOD 2019 突出研究奖及SIGMOD 2024系统奖等。

报告题目:统一多模态数据融合检索技术

摘要:多模态数据及其价值日益受到企业关注。如何在统一框架下实现高效、准确的多模态数据融合检索,已成为数据管理领域的重要问题。现有技术存在多模态数据表征空间不统一、融合检索效率不足、查询接口复杂等问题,难以满足复杂约束条件下的多模态数据高效融合检索的需求。为此,本项目提出统一的多模态数据融合检索技术框架,包括语义一致的多模态数据表示方法、支持多约束条件的融合索引结构、基于强化学习的多路召回检索机制等。基于以上技术,本项目拟研发多模态数据融合检索原型系统,支持多约束联合查询,提升多模态数据融合检索的性能。 

家介绍:天津大学智能与计算学部教授、博导,人工智能学院副院长。CCF杰出会员、CCF信息系统专委会秘书长、CCF数据库专委会常务委员、CCF大数据专家委员会执行委员。研究方向:知识工程与大模型、大数据处理。在国内外学术期刊和会议上发表论文150余篇。担任多个国际会议程序委员会主席及委员;《计算机工程与应用》副主编、国际期刊KBS、DSE、WWWJ编委。曾获天津市科技进步一等奖、中国计算机学会科技进步二等奖,入选高校计算机专业优秀教师奖励计划。

王鑫

天津大学


报告题目:统一多模态数据融合检索技术

摘要:随着文本、图像、视频、音频等多模态数据呈指数级增长,传统单模态检索系统已难以满足智能问答、个性化推荐及决策支持等前沿应用需求。本项目致力于研发基于统一语义表示的多模态数据融合检索技术, 旨在突破现有系统中存在的模态割裂与语义断层等关键瓶颈。研究聚焦三大核心目标:1)开发多源异构模态数据融合建模与高效索引技术,以提升跨模态检索的效率与精度;2)设计面向知识图谱与大语言模型深度融合的统一查询接口技术,以实现自然语言智能查询的语义级理解;3)构建查询执行优化器,以实现复杂多模态查询任务的性能。 本研究在知识图谱、 大语言模型与多模态数据融合的交叉领域具有显著创新性,其技术成果不仅将填补该领域的研究空白, 还将为下一代智能数据管理与检索系统奠定理论基础与技术框架,最终助力我国国产数据库核心技术实现自主可控与跨越式发展。

郑卫国

复旦大学


家介绍:复旦大学青年研究员,博士生导师,上海互联网大数据工程技术研究中心副主任。主要从事知识管理、图数据查询和分析、向量计算等相关研究工作,在国际顶级学术会议与期刊发表论文60余篇,包括SIGMOD、VLDB、ICDE、KDD、ACL、NeurIPS、TODS、TKDE、VLDBJ等CCF A类论文,编写知识图谱专著1部。担任Data and Information Management编委、WISE 2021 Demo chair,GDMA Program Committee Chair,VLDB、KDD、ICDE、IJCAI、TKDE、VLDBJ、TKDD、TOIS等会议的程序委员会委员和期刊审稿人。

报告题目:统一多模态数据融合检索技术

摘要:在当前的检索增强生成系统中,知识检索模块的性能直接决定了生成结果的准确性与实用性。“多路召回 + 精排”的组合范式虽然有效缓解了单一检索方式的语义覆盖不足问题,但在实际多模态大数据场景中仍面临诸多挑战:复杂语义融合能力不足、多模态语义对齐与相似性测度挑战、多模态数据孤岛问题严重等。为了解决上述问题,本次报告讲会介绍构建统一的多模态数据融合检索的关键技术,主要包括数据融合建模、图模式约束下的向量检索。


观看直播

欢迎




Gauss松鼠会B站将对本次CCF-华为胡杨林基金数据库专项2025年预开题论坛进行全程直播,未到现场参会的朋友可通过直播间观看:

Gauss松鼠会B站直播间


线下展台

等您




如果您是NDBC 2025大会线下参会嘉宾,欢迎到展台区域-华为展台,进一步和华为专家交流探讨数据库技术与合作。同时,展台区为您准备了精美小礼品。


- END -




Gauss松鼠会
汇集数据库从业人员及爱好者
互助解决问题 共建数据库技术交流圈


文章转载自Gauss松鼠会,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论