
编者语
由北京市科协联合北京广播电视台、北京科技记者编辑协会推出“首都科技人”系列宣传,旨在展示首都科技工作者在聚焦国家重大需求和“四个面向”时攻坚克难、迎难而上、勇攀高峰的先进事迹和优秀典型。其中,科技日报、光明网、中国青年报、新华网、中国科学报、北京日报、北京科技报等媒体进行深度报道。
最新一期,BRTV纪实科教频道播出介绍天云数据CEO、吴文俊人工智能科学技术奖获得者雷涛,讲述AI如何赋予数据新生命……

AI智变,数据觉醒
“首都科技人”雷涛用代码重塑世界
从分布式计算到AI大模型,中国人工智能如何崛起?从大数据洪流中崭露头角的科学家们,正用代码改写世界的未来。

创业之初,他决定投身数据库革命。2010年,在创业之初,雷涛就加入了北京市政府支持的云计算孵化平台——云基地,并在这里开启了他的技术创业之旅。
云基地是北京市政府以“基金+基地”的形式推动的新型科技孵化体系,聚集了一批有志于改变中国数据库生态的技术人才。
在这里,雷涛与被誉为“中国宽带之父”的田溯宁共事,深入参与了多个核心技术项目。
但他很快发现一个问题:数据虽然庞大,但缺乏有效的处理和分析手段,仅仅依靠传统数据库无法满足金融、电信、军工等高并发、高实时性场景的需求。
于是,雷涛决定融合“数据库+AI”,探索更智能、高效的数据处理方式。
在信息化时代初期,人们习惯于通过传统数据库存储和检索数据。然而,随着互联网的普及,数据量以指数级增长,尤其是移动互联网的崛起,彻底改变了信息处理的方式。
十几年前,用户每月的通话记录仅仅只有几百条,运营商可以轻松存储和管理。
然而,进入3G移动互联网时代后,每个用户每月的上网日志数量骤增至几百万条,这对后台的数据存储和计算能力提出了前所未有的挑战。
面对这一困境,雷涛团队率先引入分布式计算,并在中国联通等通信运营商中进行了应用。
从存储到智能分析,AI如何赋予数据新生命?
如果说分布式计算解决了数据存储和处理的难题,那么人工智能的引入,则让数据真正“活”了起来。
在中国移动的内容平台中,技术团队曾面临这样一个挑战:如何精准分析用户的兴趣偏好? 用户是更喜欢阅读小说,还是浏览新闻,或者收听音乐?
这些行为数据庞杂而零散,传统的数据统计方法无法精准识别用户的真实需求。
此时,机器学习技术开始发挥作用。AI算法能够自动分析用户行为模式,预测个体的兴趣倾向,为不同的用户推荐个性化的内容。
这一创新不仅极大提升了用户体验,也开启了人工智能在商业应用中的大规模落地的前奏。
“首都科技人”雷涛
解码AI时代的“算力密码”

“十年前高性能计算(HPC)还是金字塔尖的技术,现在就像蒸汽火车头进了科技博物馆。”雷涛说。
人工智能快速改变着各个行业的格局。2015年,资本市场剧烈震荡,伞形信托引发的配资乱象让传统规则监管束手无策。
雷涛带领的天云数据团队另辟蹊径,将600万正常账户数据与2000多个问题账户“喂”给深度学习模型,让人工智能自主发现人类难以察觉的异常模式。“就像训练警犬识别新型毒品,我们不需要告诉它化学成分,只需让它记住气味。”雷涛说,这套系统将监管效率提升数个量级,如今仍是深交所AI平台的核心模块。
他拿出手机展示团队研发的工业检测系统,AI通过3D点云数据,能像资深技工般“摸”出精密零件的微米级瑕疵。“语言大模型是二维革命,视觉大模型是2.5维突破,空间计算将开启三维智能时代。”
在可见的未来,这场关于智能时代的“算力密码”破译战,才刚刚吹响冲锋号。他建议政策应聚焦三大基座:开放高质量数据集、建设公共算力池、培育跨界人才生态。
“二十年前我们用代码再造业务流程,现在要用数据重塑商业本质。”雷涛说,“这场AI革命不是算法单兵突进,而是算力、数据、场景的集团军作战。”
“首都科技人”雷涛
大模型后训练时代,AI要生产数据训练自己

雷涛表示,硬件的增长遵循摩尔定律,而数据的增长则呈现指数型态势。我们如今所处的时代,已然是机器生产数据的时代,合成数据则是未来算力的主要解决方案。
但在实际应用中,合成数据是否会因为是“人造”的,而存在“假数据”的嫌疑,无法达到与真实数据同等的效用呢?
雷涛介绍,合成数据不是假数据,它是在有限的真实数据的基础上,用真实的逻辑生成的结果数据。这些结果数据服务于真实的生产过程。
他以完成能源行业的安全规范为例进行说明。过去编写安全规范需要专业人员,且要同时消化多种语言的操作手册;现在把所有操作手册给到计算机,计算机按照工艺流程的思维链学习并抽取内容,就能够生成安全规范。这个安全规范虽是“合成”的,却完全可以应用于实际的生产过程,这充分体现了合成数据在工业生产场景中的价值。
人工智能已经从预训练时代走向了后训练时代。在后训练时代,大模型构建起从数据生成到模型强化的正向循环机制至关重要。就像移动互联网时代搜推系统的“数据飞轮”效应——通过应用数据优化算法,算法又反哺应用,人工智能大模型也应形成“数据飞轮”,借助AI生产训练数据实现自我训练。
已经有数家活跃于人工智能领域的企业,正在使用合成数据训练大模型。Facebook和Instagram的所有者Meta已经使用合成数据来微调其最大的LlamaAI模型,而微软也将AI制作的内容用于其Phi-4模型。谷歌和ChatGPT背后的公司OpenAI也在其AI工作中使用了合成数据。
最近如火如荼的Deepseek,也在训练中使用到了合成数据。根据DeepSeek-V3技术文档,对于数学、代码竞赛、逻辑谜题这类推理相关数据,DeepSeek-V3先借助已训练好的DeepSeek-R1模型生成数据,再用融合了特定优化方法(监督微调与强化学习)的专业模型。
为应对数据“饥荒”,“自给自足”的合成数据正在成为人工智能的新燃料。雷涛以2月19日发布的斯坦福生物学模型Evo2为例,Evo2能解构生物数据,还能通过训练,重构数据维度,在人工智能与数据的深度融合中,形成“复利效应”:“现在,AI产业与数据已步入深度协同阶段,构成产业演进的底层逻辑:AI建设数据资产,数据飞轮加速AI产业发展,二者相互依存、共同发展,促使产业格局发生质变。”




