1 月 12 日,2024 第四届 OceanBase 数据库大赛答辩颁奖仪式在北京举办。颁奖典礼上,中国人民大学教授杜小勇为同学们带来了一场「爱上数据库」主题公开课,分享了自己关于 AI 时代数据库人才培养的思考。

随着 AI 大模型的迅速发展,计算机领域的学生很多都涌向了 AI 领域,数据库人才短缺的问题随之凸显。杜老师认为,人工智能如海啸般汹涌而来,但如果没有良好的数据管理,AI 将是一片狼藉。想让AI大模型更具竞争力,底层系统人才是关键。
如何让学生爱上数据库?他认为,需要学术界和产业界更系统性地布局、努力,这是一项更长远艰巨的工作。作为高等院校,有责任优化课堂,从「用数据库」向「造数据库」方向转变,不仅要教授概念,关键是要少讲、多练、多实践。
课程时间线
00:48
AI 时代,数据库的人才困境
01:56
学习的三种境界
06:17
如何让学生爱上数据库?
精彩节选

人工智能给我们的生活带来了翻天覆地的变化。自 ChatGPT 诞生以来,短短两个月,使用人数就达到了 1 个亿。这个成绩 TikTok 用了 9 个月,微信用了一两年的时间。Indeed 报告显示,生成式 AI 相关职位自 2023 年 1 月以来迅速增长,从每 10 万个职位发布中仅有 3 个,增长到 2024 年 2 月底每 1 万个职位发布中 11 个,增长了 30 多倍。
所以我把人工智能形容成海啸,它铺天盖地而来。我们在本科生和研究生招生的时候,几乎大家都想去学人工智能,这是数据库人才培养面临的困境。但是我想说,在海啸过后,如果没有很好的数据管理,那将是一片狼藉。AI 的发展需要诸多做数据库的、做系统的人去支持。

我的前辈说,无论什么领域的学习都有三种境界,这三种境界让我们行稳致远。第一种境界是责任感,第二种境界是使命感,第三种境界是发自内心的兴趣。
首先是责任感,我想大多数同学都有对学习的责任感。只要我们努力认真地学习,我想任何一个领域我们都能学好。至少今天在座的同学都能做好责任感,有的同学白天做科研,晚上六点钟才开始打数据库比赛,有的研究生同学带着本科生同学参加比赛。
前不久清华大学郑纬民院士做了一个报告,他认为,如果只是做人工智能的应用,做点调参,最高年薪能够达到 50w;如果去做模型,是少之又少的人中龙凤,可以拿到 100w 年薪。但是真正让模型有竞争力的,是支撑模型运行的底层系统人员,可以拿到 120w 年薪。

我们也做过调研,这反映了一个真实的状态。AI 的发展需要数据库和底层系统的支持。如果从责任感的角度出发,无论是为自己,为家庭,还是为社会,选择数据库会培养我们系统的观点,会让我们有很好的工作。
第二个是使命感,一般人很难有使命感,我想周恩来是一个代表,他从初中时代就开始“为中华之崛起而读书“,并伴随终身。在中华民族复兴的过程中,我们一直在奋斗,这个过程中涌现出很多杰出的科学家,像钱学森、屠呦呦、邓稼先这些优秀科学家是怀抱使命努力奋斗一辈子的,是我们学习的榜样。实际上,使命感的培养是很难的。
数据库是我们国家需要关键突破的技术之一,现在国产数据库很多,大家都在努力,让中国的数据库技术取得了长足的进步,在某种程度上我们可以自豪地说,想对中国的数据库形成掣肘已经没有那么容易了。
第三个是兴趣。因为只有喜欢,加班到深夜才不觉得累,会觉得很有趣。不然就会觉得凭什么人家都下班了,我还要工作,就失去了动力,所以发自内心的兴趣是我们真正追求的。
如何从刚才这三种境界,让同学们爱上数据库呢?在过去的几年中,我们的数据库同仁们都在努力。

从学术界和产业界角度,如何让学生爱上数据库呢?我们需要系统性地布局,这是一个更艰难的工作。在这里我也给老师同学们汇报一下,过去几年我们在培养学生学习数据库的兴趣上所做的努力。
第一是课程改革。讲得多不如练得多,这是我来自数据库大赛的切身体会。有一年武汉大学的一个本科二年级学生获得了一等奖。他说自己没学过数据库,是利用竞赛的机会看了一些代码,最后取得了很好的成绩,同时喜欢上了数据库。我觉得这是一个很好的启示。我们在课堂上应该少讲多练。但是如何练以及如何设计课程实验,是我们面临的实际的问题。
我们和头部的数据库企业交流时发现,学校的课程内容不完全符合生产环境的需求,企业很难从市场上找到符合要求的内核开发人员。过去我们教学的重点一直是用数据库,于是我们提出,要从「用数据库」到「造数据库」。这也是 OceanBase 举办数据库大赛的初衷,比赛的 Slogan 也是“从 0 到 1 打造你的数据库”。
所以我认为,高等学校有责任优化课堂教学,培养数据库管理系统的研发人才。我们编写了两本教材,一个是中国人民大学团队的《数据库管理系统原理与实现》,一个是清华大学团队的《数据库管理系统》,两本教材都已经出版。就像我刚才提到的,概念并不难理解,关键是少说、多练、多实践。
多练多实践的核心就是做课程实验。以前做课程实验很简单,只要能在一个开源系统上提交 SQL 语句、做性能优化和索引就可以了。但在今天,这些实践远远不够。现有开源的数据库系统如 MySQL、OceanBase 等系统代码百万行起步,结构复杂,同学们难以掌握。作为教师,如何为学生搭一个适合课程教学的梯子,是我们面临的一个很重要的任务。
中国人民大学的团队,以知识点为导向,搭建了适合教学的开源数据库内核框架 RucBase,覆盖了从存储管理、索引、查询处理、并发控制等所有功能模块的教学知识点,以完形填空的形式,帮助本科生克服百万行代码的心魔。从实践效果来看,中国人民大学的同学们的反馈也是非常积极的。
第二个是组织学科竞赛。OceanBase 数据库大赛已经举办了四届,面向在校学生,这里面既包括本科生也包括研究生和博士生。2023 年在全国大学生计算机系统能力大赛里开设了数据库管理系统设计赛,并且整个大赛被纳入教育部面向本科生的白名单,参加可获得保研加分和课程学分,近千位同学参加了比赛,得到大家的积极响应。
通过两年的大赛,我的想法也有了改变。只要同学们对系统有兴趣,也可以“先结婚后恋爱”。数据库不能像人工智能那样人见人爱,但我们也可以采用各种方法来吸引同学们参加。OceanBase 数据库大赛特等奖奖金 10w 元,很有吸引力,不管是什么原因,先参与进来,做着做着就会对数据库产生兴趣。
我们希望 985 高校都能开设数据库研究团队,希望更多的学校开设数据库系统实现的课程,希望数据库学术界和工业界共同努力,形成合力,更大范围地吸引同学们关注数据库、爱上数据库、加入数据库,这是我们一起要去实现的事。
OceanBase 数据库大赛选手背后的故事 👇

往期推荐



▼ 点击「阅读原文」,进入大赛官网




