暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

启幕CCF BDCI 新十年:“数智新实践”圆桌访谈实录

TuGraph 2023-10-26
180

10月15日,由中国计算机学会主办的大数据与AI领域顶级盛事——第十一届CCF大数据与计算智能大赛(简称2023 CCF BDCI)在北京正式启幕。

启动仪式上,在CCF大数据专家委员会常务委员、北京航空航天大学教授李建欣的主持下,CCF大数据专家委员会副秘书长、中国人民大学教授窦志成,广州无线电集团广电研究院副院长梁添才,京东零售高级技术总监彭长平,蚂蚁集团图计算平台负责人洪春涛,智谱AI首席生态官刘江,围绕“数智新实践”的主题开启圆桌访谈。

该访谈立足数智时代,探讨数智新十年中,企业和个人在躬身实践时哪些“旧”要坚守、哪些“新”要尝试,从不同视角为大家提供了建议并分享了各自的观点,期待通过大赛和大会进一步推动更多数智创新成果真正向实践应用的方向迈进。


以下为以文字形式记录下来的各位嘉宾在圆桌环节的精彩交流。

CCF大数据专家委员会常委、北京航空航天大学教授 李建欣

CCF大数据专家委员会副秘书长、中国人民大学教授 窦志成

广州无线电集团广电研究院副院长 梁添才

京东零售高级技术总监 彭长平

蚂蚁集团图计算平台负责人 洪春涛

智谱AI首席生态官 刘江


李建欣

窦志成教授,国内每年都有很多的大赛、大会,今天看到CCF大专委已经连续十年组织BDTC大会和CCF BDCI大赛了。想问问您,咱们的大赛和大会有什么不同的特色?为什么持续十年依然发展蓬勃?

窦志成

我觉得可以用三个关键词来概括BDCI大赛和BDTC大会的特点。  

对于BDCI大赛来说,是“平台”。国内现在有各种各样的竞赛,但是CCF BDCI大赛倡导为企业提供一个平台,在这个平台上,企业可以基于实际应用场景出具具有应用价值的赛题,通过竞技为企业培养和选拔人才,为企业的技术迭代和革新提供机会。大赛是汇聚多家企业实际痛难点问题、吸引人才来揭榜挂帅的平台。

对于BDTC大会来说,是“桥梁”。不同于纯学术会议,BDTC是大数据“技术”大会,是打通学术界和工业界在大数据研究与技术研发上的一座沟通交流的桥梁,有希望进一步推动我国大数据领域的产学研合作和技术应用。

第三个关键词是“融合”,是BDCI大赛和BDTC大会的“赛会结合”。今天不仅是大赛的启动仪式,也是大会的发布仪式。希望通过大赛和大会融合的方式,更好地推动大数据的研究、技术、应用等方面的发展。

李建欣

梁院长,是什么吸引了广州无线电集团选择支持落地大会和大赛?广州无线电集团在数字科技发展上有哪些实践和探索?

梁添才

广州无线电集团目前正在加快布局数字经济和人工智能领域的相关产业,包括广州数据交易所、广州数据集团、广州公共数据资源的平台运营,在数字经济领域里和资本相关的投资平台、信息基础设施的投资平台,还有国家新一代人工智能公共算力的开发创新平台,这些实体机构和组织使得广州无线电集团成为了目前广州数据科技的数据和产业平台。

我们广州无线电集团将于2023年底改组更名为广州数字科技集团,接下来将会与学术界、产业界共同努力,把数字科技产业发展壮大。基于这样的一些实践和探索,我们将积极支持本届大赛和大会落地广州。

李建欣

彭总,京东技术实力一直很强也很低调,京东零售为什么会在大数据发展十年后的今天参与大赛和大会?

彭长平

第一,技术对京东来说是非常重要的。零售是几百年的行业,大家的购物体验、供应链的效率以及整个零售领域的成本是零售企业的三个核心竞争力,但这三个点都非常依赖技术的创新。17、18年左右,京东的创始人刘强东先生,就提出“京东最重要的三件事是技术、技术、技术”。

第二,京东过去也有一些高校老师有合作,比如早期跟南京大学的老师、中科院的老师合作过,早两年也跟清华大学成立了智慧零售联合实验室。在这些合作以及与学术界的沟通中,我们发现京东一些场景和数据的特点非常符合大数据、人工智能技术的发展趋势:第一个特点是京东的场景对模型的泛化能力要求特别高,比如长尾现象以及买手机和买菜的这种跨场景、跨品类的行为,是不是能够联合起来、能够更好地建模。第二个特点是CCF BDCI大赛的赛题是取自真实场景的,而京东不仅是真实场景,也实打实地影响大家的生活。一方面,大家的购物兴趣可能产生在线下,并不是在线上表现有购物的需求;另一方面是履约,大家在线上产生需求、收集完数据后还是要跟线下去做紧密结合的,可能天气的变化就会影响大家的购物行为或履约效率。比如,疫情期间不同城市的疫情程度会影响建模的准确度,这就要求建模的数据不单是场景的数据而是行业通用的数据,某些通用的知识能够把场景和数据结合起来、做联合建模。我们前期的试点很成功,与学术界老师联合的技术创新,在京东应用后产生了很大的社会价值,所以我们有很强的意愿和学术界合作,以便找到更好的契合点。

第三,京东这两年技术的深入和人才的积累。京东会大规模招聘校招生,我们还有博士管培生计划。以我的团队来说,接近30%的团队成员是国内很好的高校博士生,接近80%可能是国内985、211或海外名校的学生。从技术深度和人才厚度上来说,我们现在能够跟学术界、产业界的同行在开放的问题上一起探讨、一起共建。

基于以上这三点,现在我们有很强的意愿也有能力参与到这个行业的事情上来,参与到CCF BDCI大赛这个行业盛事里来。

李建欣

图计算赛题在CCF BDCI大赛已经连续发布了几届,吸引了大量的参赛队伍。请问洪总,这几年下来,从选手、参赛队伍和出题团队等方面来说,有哪些变与不变的地方?

洪春涛

蚂蚁集团是从2018年开始参与到CCF BDCI大赛的出题合作中,到今年已经是第六年了,这几年里确实发生很多变化。从蚂蚁出题的角度看,最大的一个变化是,我们出具的题目越来越贴近现实。我们第一次参与CCF BDCI这个比赛的时候,出的是一道三角形计数的问题,这是一个非常纯粹的算法优化问题,跟业务距离比较远。图计算这几年迅猛发展,频繁出现在我们的业务合作中。于是,我们渐渐出了很多跟业务数据、业务场景相关的赛题,并把这些现实场景中发现和遇到的一些问题作为赛题发布出来,希望跟大家一起去探讨、去破解。

从选手的角度来说,我们很欣慰地发现,整个参赛队伍的水平是在逐步提高的。很多从第一届赛题时就一直参与其中的老朋友,当时他们还在读书,现在应该已经工作了也依然还在参加我们的比赛。我们可以看到,他们的技术水平在不断提高,因为这几年我们的赛题越来越难,但他们取得的成绩一直都挺好。这一方面归功于各位高校老师教出了很好的学生,同时我们也能看到,国内的计算机水平在飞速发展。

李建欣

今年大模型特别火,需要很大的算力支撑。我们CCF BDCI大赛的参赛选手有些来大企业、大团队,有些来自普通团队或者个人组队,那大模型相关赛题是不是大团队的专属,普通人应该如何参与改造、创造大模型?

刘江

我们今年出具的“「智谱清言」Prompt优化大师会盟之旅”赛题是门槛非常低的一道题,选手只要基于聊天机器人产品、用prompt就能参与。因为参与门槛低,所以竞争的激烈程度可能会更高,大家可能更要花时间和精力去思考怎么把文案、文档的生成做得更好。

大模型有两个层面,一个层面是直接训练大模型本身,现在百亿以上可能效果比较好,对算力的要求都非常高;另一方面,大模型还有非常多的科研问题,比如大模型对齐、微调、如何更高效化/小型化等问题,给大家提供了丰富的研究场景。我们这次出题也是考虑大模型刚出现、还比较新颖,为了更广的普及面才设置了比较低的参与门槛,明年、后年我们可能会再引进一些科学性比较强的赛题。

我觉得,大模型还有几个大方向是非常值得研究的,比如大模型为什么这么有效?我跟清华大学心理学系主任探讨过,他非常兴奋,因为大模型出来后,除了人脑外,又有一个智能储备比较高的研究对象出现了。对他们来讲,脑科学包括人工智能的原理、解释性,可能是一件非常有希望突破的事情。为什么能够存在更高级智能?这也是一个非常有价值的研究方向,也有可能把人脑和人工智能两个方向作为整个研究对象进行破解。有了大模型,我们就可以把大模型作为智能助手来完成很多工作,可以不再局限于人力,以巨大的规模和数量持续工作。我觉得,大模型可以给我们打开新的业态,未来还有非常多的场景可以去探索。非常希望各行各业、各个学科领域的人才都可以基于大模型重新思考。


李建欣

2013年-2023年,我们走过了数智十年。在过去十年里有哪些好经验可以传承?未来十年有哪些新的挑战和创新需要把握?

窦志成

回想这十年,我非常感触于数据价值这一点,就是我们所说的“唯一不变的就是一直在变化”,即使有各种各样的变化,我们发现“数据中包含价值”这件事是一直不变的,而且这个价值一直在变大。10年前,搜索引擎就开始依赖海量互联网网页和用户数据来提升搜索排序的结果;今天,ChatGPT等大模型的训练也依赖于大规模高质量的数据。

未来十年,我觉得,要继续训练和挖掘大数据的潜力和价值,同时也要提前思考这种模式是否会演进,尤其现在基于海量算力、海量参数训练大模型的方式,是不是会发生一些范式上的变革。人比机器更智能,但人处理问题、解决问题的方式以及能力的养成,都不是单纯基于海量数据的。我们可能需要一个更有效、更经济的从数据到智能的转变方式,这可能是未来十年需要我们关注的一个有价值的方向。

梁添才

关于数字时代的“旧”的需要坚守的、“新”的需要去探索和尝试的问题本身就是一个很大的挑战。从我们自身的经历和企业的实践来看,我想从以下几个方面来谈一谈我的理解。

首先,关于“旧”的坚守。

第一,以往的优秀做法,要传承下来。在这个大的方向上,过去不管是学术界、产业界,为产业培养了大量的人才这件事做得非常不错。接下来,人才培养的工作还是要继续坚持下去,通过各界的共同努力,为产业界、学术界培养更多的大数据、计算智能方面的人才。

第二,在过去若干年,关于基础设施的建设做得比较好,要坚守。大数据训练所需要用到的算力、数据资源、高速网络等基础设施,对发展数字产业来说都是非常必要的。接下来的十年,我们要继续把基础设施建设做好。

第三,关于数字产业在数据要素流通中所面临的一些法务上的挑战。过去十多年,法律规范不断健全和完善。未来,我们应该把这方面的工作做得更扎实,健全法律法规,确保数字产业的发展有法可依。

关于“新”的方面,我想谈三个亮点:

科研“新”范式:我们要转变观念,要用场景应用驱动科研新范式,要用实际应用需求来牵引、通过攻关重大工程项目带动学科重大科学问题的突破。

拥抱“新”变化:新的技术、新的业态是层出不穷的,我们应该以包容的心态来拥抱这些变化,融入其中、共同发展。

发展“新”生态:社会各界要共同努力,建起整个数据要素流通的市场化体系,来实现对各个领域、各个行业的协同赋能,推动千行百业的实践变化。

彭长平

以我的经验来说,主要是在产业界利用数据算法来提升价值和体验。过去在产业界有一套大家比较公认的体系:数据、算法、算力这三驾马车的良好协同能够很好地创造数据价值,我觉得现在可能还要加一个迭代效率。这套大的框架可能在未来十年都不会变,我们依然要兼顾这几个要素,让它们能够很好地协同。现在我们能看到一个趋势或者说产业和学术的共识,就是“大家把模型规模越做越大、把类似的问题用一个通用的模型去解决”。为了适应大模型的特点,未来数据、算力或者迭代的方式可能会有些变化。

从数据角度讲,原来的数据布局比较规范,我们可以用通用的大模型去解决很多相似的问题,但多元的数据怎么融合建成,就需要一些新的解决思路。从算力角度来讲,算力规模每两年翻一番,但是近年来数据规模涨得比算力快很多,工业界疯狂追求算力上的突破。现在有个趋势,就是把很大的模型拆解成很多不同的计算单元去统一完成一个目标。比如,我们会把一个简单的大模型问题拆解出来,分清楚哪些是前置做计算的,哪些是实时请求做计算的,哪些是在端上做计算的,适配这个大模型后,我们对算力的诉求会越来越强烈。

从迭代效率上来说,可能也会比上一个时代更高。在早年,互联网行业的产品做到七八十分才开始对外发布,以防止损伤用户体验。但是现在,人工智能的产品做到五六十分的水平就发布出来,以便更早形成数据闭环,让用户提供反馈,进而让产品迭代得更快。

 

洪春涛

我看到的一个不变的趋势是,大家对数据价值的追求是不变的。一开始谷歌的MapReduce出来,最主要的思路是从大数据中提取出更多价值并根据需要去做分析,所以我们开始设计大数据的整套体系,开始追求数据的价值;后来我们做图计算,也是希望图计算能够更好地从数据中挖掘出更深的价值。我们对数据的挖掘是越来越深层次的

比较大的变化,是大数据的这套系统逐渐开始需要去做用户业务性层次的优化。一开始,大家更多是从系统的角度出发,希望能够通过系统去做一些事情、挖掘出一些价值,所以大家不会对系统好不好用有过多的追求。后来Hive、HBase等逐渐从用户角度、从业务性角度出发,所以系统发展一段时间后通常会减少用户开销、提升应用性。

刘江

我觉得一个比赛能坚持10多年是很难得的,刚才窦老师总结一个平台、一个桥梁,我觉得还有大赛的延续性和持续创新性。2014年我还在CSDN当总编,发现云计算大会和移动开发大会上很多嘉宾都开始谈大数据。所以我们就想搞个大数据大会。然后我跟程老师就在李国杰院士和梅宏院士的支持下把大会推进落地了。程老师非常厉害,能把这个大会持续搞这么长时间,同期的好多大会好像后来都没有延续了。

到2015~2016年大数据大会时,人工智能开始火了,越来越多的嘉宾开始探讨深度学习。2020年刚开始搞大模型的时候,学术界好多人反对,觉得只是把模型参与搞大了不是创新。但去年大模型突然火了,OPEN AI的技术路线证明了,云计算、移动大数据其实是为大模型做准备。基于互联网和移动互联网,通过京东、蚂蚁、阿里这样的大平台,将大量分散的用户数据收集起来,加上算力上有了云计算的加持,几万台甚至几百万台机器可以同时联网计算了。在这些大数据、大算力的基础上,我们终于可以搞大模型了。

大模型一线研发有个规模定律,好像只要数据够、算力够、模型参数够,并且能够匹配好,那智能水平就可以不断提升。所以我觉得,未来十年算力、数据、基础设施等层面还是要提前布局

现在很多人说,大模型可用的数据在未来几年会被消耗光,已有的数据好像已经被我们用得差不多了。但是,未来产生新的高质量数据可能会成为一种生态甚至商业模式。在座的很多老师都在搞科研,这也是在创造新的数据、新的知识。

未来除了算力、数据、算法,用户界面(即落地场景)也是一个很重要的层面。未来如果我们有更多方式让每个人都能把自己的数据提供给人工智能,这会非常有价值。现在主要的计算设备是手机,但未来可能还会是手机吗?现在大模型可能已经开始有苗头了,比如一个耳机、一副眼镜。我们可以通过语音跟它交互,戴上眼镜扫射全场就知道出席名单,所有的声音、生活体验都会被记录下来。当然这里也还有很多隐私问题需要研究。但总的来讲,让更多数据为大模型所用,这可能也是接下来非常有价值的一件事情。

我们经常谈数据要素,数据要素最关键的本质其实就是利益分配机制。我们创造数据、提供数据都是价值创造的环节,剖去隐私信息外,我们有很多个人体验能给大模型提供世界的视角,我们是模型的眼睛、是模型的体验和感知器官。如果我们的体验有了价值,我们还会因此获益。形成这种经济分配体系可能又是未来一个非常有价值的事情。

接下来十年,围绕大模型的新生态可能是科研和产业的一个重要方向。我们可以借助大模型这样跟人匹配甚至未来远超人类智能的系统,使人类社会进入一个新时代。


提问观众

我是多次参加CCF BDCI大赛的参赛选手,我想问一下京东的彭总,对京东的“库存履约一体化决策”赛题来说,您对参赛选手及其作品有什么期待?

彭长平

一方面,我们出的这个赛题数据比较多元、是跨场景的,和线下实体的结合非常紧密,这可能是未来数据的一个特点。我们希望今年大赛的选手,能够在这种与实体相关度较高的场景建模上、在提出更好的解决方案上有较大的创新,能够推进整个行业有更大的进展。

另一方面,这个大会将在政府、产业界和学术界之间起到桥梁和交流平台的作用。我们也是希望通过大会这个桥梁和交流平台,能够跟学术老师、同学以及产业界的朋友有更好、更深入的沟通

李建欣

未来数智十年,大家对高校学生、企业员工甚至产业发展有什么建议?

刘江

作为大模型的代表嘉宾,我建议大家从今天开始,多使用大模型、尽快从事大模型相关工作。因为我们要迎来新时代,因为这个世界上人脑原本是最聪明的,但是现在大模型可以展现一个初级的、跟人差不多的智能,而且它的速度非常惊人。尤其最近图像、语音功能出来以后,智能更像活了一样。在这种情况下,如果你不用大模型而你的同行很善于用大模型,哪怕他只是带了几个实习生,效率产出可能都会超过你。如果你的研究和工作都基于大模型来做,你就可以去重新思考一切,因为一个全新的大变量出现了。

洪春涛

刘总对大模型比较狂热,我相对悲观一些。我认为,大模型要么发展得非常快、把人类淘汰掉,要么可能不会、至少这一波可能不会有大家现在想象得那么好。但是不管怎么样,我相信在未来的5~10年里,大模型会替代我们很多偏体力的工作,比如写一些简单的单元测试和程序。但一些更偏创新的、更需深入思考的东西,还是需要人来做。我相信人类是有自己存在的价值的。

刘江

刚才都是我的个人见解和建议,可能也是一种误解。我们不知道人类的思考机制是什么,我们说的机器思考绝大部分都是自然语言处理,大模型首先是语言模型,翻译行业现在渐渐废掉了就是因为在自然语言处理这件事情上,大模型比人类的潜力要强。所以大家不要小看大模型,它现在可能有些推理还做得不太好,但未来潜力巨大。

我对大模型比较狂热,是因为我们在做大模型的时候,人工智能都是按任务来做的,我们想让它做A、B、C这几个任务,但别人发现它能做C、D、E、F、G,我们可能没有把它的潜能全部挖掘出来。我们这次出的是提示工程相关的赛题,就是在探索我们应该怎么更好地提问,我们改变提问方式,它就可能有新的能力被我们挖掘出来。我比较贴近一线,所以知道真正提升很难,还面临着很多科研难题,所以希望有更多同学加入大模型的科研队伍中来。


洪春涛

作为一个人类主义者,我觉得人类有自己独特的价值。怎么去训练学生、让学生把他的价值发挥出来,这是我最近在思考的一个问题。如果我们不去训练他写一些简单的程序,他怎么能够成长呢?所以,我觉得,同学们可以从现在的事情做起、从简单的编程写起,先不要想那么高级的事情,扎扎实实地学习。虽然我们处在一个变革的时代,但我相信,只要我们脚踏实地地走,还是能走出一条很好的路出来的。

彭长平

我觉得,在技术快速升级的时代里,找到更基础、更贴近本质的技术方案,并找到可以快速提供反馈信号的场景去迭代这项技术,是更重要的。我们为什么从小学语文、数学,因为这个东西是最基础的,未来都是不会变的。老师给我们改题,告诉我们这个是对的还是错的,我们能快速收到反馈信号,知道自己是离这个目标是更远还是更近。不管环境怎么变,这个方法论是不会变的。

梁添才

我给各位学子和从业人员提个建议:我们认知的高度决定发展的高度,大家应构建全新的认知,未来世界是“一切皆有数,万物皆有灵”,这个数就是数据,这个灵就是智能。只要我们能够建立起这个全新的认知框架,并在工作和学习中坚持不懈地努力,肯定有所收获、有所成就。

窦志成

我希望每个人都能认真思考一下大模型对自己的冲击和影响。不管是否使用大模型,在大模型时代,我们每个方向的专业能力构成和核心竞争力,是否会因为大模型的产生而发生变化?我建议大家能够积极主动地拥抱改变,积极思考,及时行动



李建欣

特别感谢五位嘉宾的分享,期待选手们在比赛中大显身手,也期待12月下旬我们在广州相聚。谢谢大家!



戳“阅读原文”,速来参赛报名~


最后修改时间:2023-10-27 10:25:59
文章转载自TuGraph,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论