导读:在元宇宙概念的刺激下,数字人正加速从技术创新走向产业应用,虚拟主播、虚拟客服、虚拟引导员等数字人产品应用不断涌现。如何对数字人系统进行技术选型?当前数字人技术哪家强?如何让数字人技术从能用到好用到用好,更好地发挥数字人技术的赋能价值正在成为产业届关注的焦点。
本文分享题目为《2022 数字人系统基础能力评测观察》。主要内容包括以下几大方面:
数字人系统基础能力评测背景
数字人系统基础能力评测内容
数字人系统基础能力评测模型
数字人系统基础能力评测概况及结果
数字人系统基础能力评测观察
下一步工作

自 2021 年以来,数字人技术应用呈现出蓬勃发展的态势。我们也观察到,在实际的工程落地中,还面临着很多问题。主要有以下三方面:- 从技术层面来看,需要满足从 2D 到 3D,从展示到交互等更多需求。我们发现数字人的建模和驱动技术取得了一定进展,但在智能化形象生成、情感表达、智能化交互等方面还存在较大的提升空间。尤其是在形象生成方面,依然依赖大量的人工参与,整体制作效率比较低。与目前大批量、快速制作的应用场景不太匹配。另外,在情感化表达方面,目前还是主要采用触发策略或视频驱动的方式来实现,与完全的智能化合成的情感化表达还存在一些距离。在交互方面,目前现阶段支撑智能交互的技术,如自然语言处理、智能语音、计算机视觉等技术还不够成熟,人机交互的智能化程度较难满足用户的使用需求。
- 在应用层面,如何满足用户需求,做到由“能用”到“好用”再到“用好”,这需要我们数字人的技术提供方深入场景打磨产品。站在技术应用方的角度,围绕系统的易用性、兼容性、可靠性等方面全面提升数字人的使用体验。
- 在安全方面,需要提前预判数字人可能出现的安全伦理问题,提升治理能力。我们知道,数字人技术和深度伪造是一体两面。如果数字人的技术遭到滥用,就会存在很多潜在的风险。

前期,我们联合了多家企事业单位开展数字人技术标准研究。目前我们已经牵头在国际电信联盟(ITU)和中国通信标准化协会(CCSA)完成了多项全球范围内首创的数字人国际标准级行业标准的研制。其中的两个国际标准也在 2022 年 7 月底的全球数字经济大会上进行了发布,右下角就是当时发布的照片。
除了以上工作,为了进一步回应刚提到的问题、推动产业界对数字人概念达成共识、提升数字人工程化落地能力、解决供需双方的信任问题,信通院依托中国通信标准化协会 TC602 及内容科技产业推进方阵开展《数字人系统基础能力要求级评估方法》规范文件的制定工作。规范制定也得到很多头部互联网公司以及重点行业企业的高度重视和广泛参与,一共有 30 余家企业参与了规范的制定。参与企业包括:阿里、科大讯飞、腾讯、蓝色光标等。该规范在 2022 年 1 月正式定稿,我们也根据该规范开展了首批数字人基础能力评测。02
评测内容

评测内容严格依据标准开展,分别从基础技术能力、基础工程化能力、基础安全保障能力三个维度评估数字人系统是否满足用户需求、支持业务规模化落地和现有合规要求。- 基础技术能力包含形象、语音、驱动、交互、内容提供、人设定制等方面,主要考察数字人系统的基础功能是否满足用户普遍的使用需求。
- 基础工程化能力主要从标准资源配置、可移植性、可扩展性、兼容性、时效性、可靠性等方面,考察数字人系统非功能性能力是否满足支撑业务规模化应用落地。
- 基础安全保障能力,我们主要从形象版权保障、内容追溯能力、内容风险控制等方面,考察数字人系统是否能够满足现有合规要求。
这个评测共包含 48 项测试用例,有 27 项是必选的,21 项是可选的。

2022 年 4 月,中国信通院组成评测组通过进入企业应用现场或线上接入的方式,采取人员访谈、系统操作演示和材料审查相结合的评测方法,陆续对腾讯等 10 家企业开展测试工作。
在 2022 年 5 月我们召开了专家评审会,形成了最终的检验结果。共有 10 家企业参与测评,有 9 家通过了测评,有两家选择不公布结果。上图显示的是首次通过评测的企业,包括:腾讯、火山引擎、百度、科大讯飞、蔚领时代、京东科技、阿里云、华为云。
我们对参评产品的结果进行了分析,数据显示:所有产品测试项目平均通过率为96.61%。可选项相对低一些,平均通过率为 92.6%。终端渲染 SDK 支持情况、肖像权及著作权等、数字水印支持情况、内容风险控制机制等可选项指标通过率相对比较低。
除了对参评结果进行数据分析,我们也从此次评测中观察到以下几点情况。观察1:精细化视频录制生成和 CG 生成分别是 2D、3D 数字人 形象生成的主流方法,基于少量照片生成数字人仍处于探索阶段
部分企业已开始探索基于少量照片生成数字人,但尚未见到广泛使用。测试中发现 100% 的参评企业支持 CG 生成 3D 数字人;75% 的参评企业支持精细化视频录制生成 2D 数字人。37.5% 的参评企业支持基于单张照片生成 2D 真人形象数字人;12.5% 的参评企业支持基于单张照片生成 3D 卡通数字人。智能数字人形象生成可进一步加快数字人创建效率,降低数字人开发门槛。未来人工智能技术将深度融合到数字人形象生成环节,基于少量照片的形象生成将成为数字人创建的重要方式之一。
观察2:语音交互成为数字人主流的交互方式,视觉交互和多模 态交互初见端倪测试中发现 100% 产品和应用使用了语音交互作为数字人交互方式,同时发现已经有部分参评系统开始支持视觉交互和多模态交互。视觉交互主要集中于人脸检测识别,对于手语识别、肢体(手指、头部、四肢等)动作识别、面部动作(表情、口唇动作)识别、视线追踪等其他视觉交互多数还停留在预研或者内测阶段;多模态交互则主要通过对输入的多维信息设置响应策略实现,如已有参评系统支持在和人交互的过程中同时采集视频和音频,并对嘴型和声波不匹配的情况进行提示。由于多模态交互可融合视觉、听觉、触觉等多方面信息,从整体上提高人机交互的自然度和精确度,多模态数字人已成为产业界争相探索的方向之一。
观察3:相比于基础技术能力及基础工程化能力,基础安全保障能力亟待加强基础技术能力、基础工程化能力通过率分别为 98.214%、97.826%;基础安全保障能力通过率为 81.25%,相对较低,相应能力仍需完善。尽管有八分之五的参评企业对于基础安全保障能力的各测试项支持的比较全面,但目前还只解决了有无的问题,仍然存在较大的改进空间。例如“内容风险控制”测试项,尽管大部分的参评企业都具备相应的内容审核能力,但仍是复用语音的审核机制,并未开发针对数字人这类多模态交互系统的定制化的审核机制。
观察4:各家对于各测试项的完成度各异,整体均有较大提升空间由于技术实力、入局时间早晚、业务方向各有侧重等原因,各家对于各测试项的支持程度各不相同,整体均有较大的优化空间。以“驱动范围”测试项为例,并不是每个参评企业都支持所有的驱动范围,目前还有部分企业未实现对背景、肢体、面部表情、手指的驱动;再如“情感化表达”测试项,所有参评系统的情感化表达主要采用触发策略或视频驱动实现,与完全智能合成的情感化表达尚有距离;再如“数字水印”测试项,尽管有 75% 的参评企业具备相应能力,但均未将其与数字人系统能力做打通。
根据对参评企业测试数据的不完全统计及调研发现,数字人应用范围不断拓宽,商业化进程不断加快,具体表现在以下三个方面:一是应用领域不断扩围,部分参评系统已实现在多个领域落地,涉及金融、商业、传媒、电信、娱乐、移动互联网、能源等领域。二是应用场景不断拓展,所有参评系统均已实现在多个场景的应用,涉及客服、助手、主播、员工、偶像、主持人、引导员、讲解员、记者等场景。三是接入渠道不断丰富,所有参评系统均已实现多渠道接入,涉及 Web/H5、APP、大屏、小程序、VoLTE、VTM、VR、AR 等。未来随着相关技术的不断成熟及“元宇宙”的持续探索,数字人应用定将进一步链接经济社会生活场景,在更多领域大放异彩。
最后说一下我们下一步的重点工作。中国信通院云大所会持续依托内容科技产业推进方阵和 CCSA TC602 等平台,进一步聚焦数字内容生成的产、学、研、用资源,开展产业研究、标准研制、评估测试等工作。- 在产业研究方面,我们会围绕数字人、沉浸式视觉内容等方向,持续探索数字内容生成的相关政策、技术、应用及产业研究,编撰并发布相关产业报告。我们今年撰写了《人工智能生成内容的白皮书》,已在在 2022 年 9 月的世界人工智能大会上发布。
- 在标准研制方面,我们会在现有基础上完善和研制数字人、沉浸式视觉内容等相关标准规范,依托 CCSA、ITU 等标准组织平台,向上推行业标准和国际标准。目前我们已经开启了全景生成平台、虚拟时空平台等标准的研制,同时我们计划在 2022 年 10 月的 ITU SG16 全会上对数字人基础能力标准进行立项。
- 在评估测试方面,我们会进一步打造全国领先的数字内容生成检验检测能力,支撑相关前沿技术验证和评估测试。目前第二轮数字人系统基础能力和性能分级评测正在火热进行中,欢迎大家参与我们的评测工作。
以上就是所有的分享,感谢大家。左下角是我的个人微信,欢迎大家与我联系,一起参与到我们的工作中,共同助力数字人产业的健康发展。今天的分享就到这里,谢谢大家。扫码观看【数字人技术峰会】回放⬇️

颜媚
中国信通院云计算与大数据研究所内容科技部 高级业务主管
颜媚,主要从事元宇宙、数字人、数字内容生成、计算机视觉、可信AI等相关政策、技术、标准和产业研究工作。牵头完成《2020虚拟数字人发展白皮书》、《人工智能生成内容(AIGC)白皮书》;牵头制定数字人、深度伪造、智能摄像头、可信AI研发管理等20多项国际、行业标准、联盟规范,其中ITU-T F.748.14"Requirements and evaluation methods of non-interactive 2D real-person digital human application system"、ITU-T F.748.15"Framework and metrics for digital human application system"。为全球首创的数字人国际标准。
🧐 分享、点赞、在看,给个3连击呗!👇