暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

陈恺:不永恒的安全 永恒的安全问题 | CCCF精选

473



编者按:陈恺,中国科学院信息工程研究所研究员,信息安全国家重点实验室副主任,中国科学院大学教授、博士生导师。主要研究领域包括系统安全、人工智能安全。他在IEEE S&P、USENIX Security、ACM CCS、NDSS、ICSE、ASE、TIFS、TDSC、TMC等国际会议和期刊上发表论文100余篇;曾主持国家自然科学基金重点项目、国家重点研发项目课题等40余项。他是国家级人才培养计划入选者,曾获得中国科学院青年科学家奖、北京市“杰出青年”基金资助等,是北京市智源青年科学家、CCF杰出演讲者。因在智能化恶意代码检测与人工智能模型脆弱性分析方面作出的突出贡献,CCF与IEEE CS授予陈恺博士2021年CCF-IEEE CS青年科学家奖。





近日,陈恺接受了CCCF动态栏目的采访,谈了他对安全攻防领域的认识,并对青年科研人员给出了建议。





问:请您介绍一下自己的研究经历。

陈恺:我长期以来一直从事系统安全方向的研究。本科就读于南京大学,大四毕业设计内容选择的就是系统安全相关课题,具体包括恶意代码检测、软件漏洞检测等,之后在中国科学院研究生院攻读博士学位的时候也从事这一方向。目前在中科院信工所工作,主要的研究方向是系统安全和人工智能安全,研究兴趣包括传统安全攻防的智能化和人工智能系统本身的安全问题。


问:您在信息安全领域取得了很多杰出的成果,这个领域的研究和大众认识的相比有什么不一样的地方?

陈恺:一个很有意思的现象是,大众对信息安全的认识很容易受到影视作品的影响。例如,在影视作品里,黑客噼里啪啦地敲一串命令后,可能就是些 dir(查看文件夹)、ls(展示文件列表)、touch(修改文件或目录时间属性/新建文件)之类的命令,系统就被轻易破解了。然而,这是不现实的,破解系统有很多难点。例如通过软件漏洞入侵系统,不是说用一台电脑敲几行代码就能搞定的,前前后后可能需要准备很长时间,比如先要去了解系统本身的机理,进而挖掘其内部潜在的漏洞,想方设法构建利用该漏洞的方法,最后才有可能把它破解。有时候找一个漏洞挺难的,找到后把它真正成功利用起来更是难上加难的事情。


问:安全攻防领域的发展大致是怎样的?

陈恺:攻防领域的发展可以归纳为从人工到自动化再到智能化的趋势。最初,一个漏洞的发现和围绕这个漏洞的攻与防大多依赖人工。以前一些特别难利用的漏洞,需要依赖一个或多个专业能力特别强的人。有时甚至需要和多个其他漏洞结合起来,才能拿到一些权限。利用漏洞需要依赖人的知识经验,有时候还需要一些运气成分。攻击和防御各有手段,两者互相博弈,最后使得攻防变得非常巧妙,这严重依赖人工。


自动化是人们对经验进行固化,将某种条件下使用的方法以规则形式呈现出来。为了提高效率,易于复制,将一些人工手段做成自动化工具,通过这些工具,在设定好参数之后,就能够发现和利用漏洞。进而,从一个模块的自动化发展到整体自动化。整体自动化涉及更多的参数、更复杂的配置,难度会更大。但整体自动化是发展趋势。


智能化则是希望能够更加自动化地抽取这些规则本身,更像是规则的规则或者是从数据中自主学习规则。这些规则可能来自人们的经验,可能来自博客、论坛,也可能来自别人写的代码以及前期的分析数据。将知识和经验提取出来,再对其中的一些规则进行抽象化。这些规则产生的过程并不是人为写定的,而是自动生成的。


近年来出现的人工智能技术对攻防对抗产生了重要影响。一方面,它可以辅助传统攻防手段,使其更智能化 ;另一方面,人工智能自身的安全问题,如对抗样本、神经网络后门、模型窃取等,也时刻影响着自动驾驶、面部识别等多种安全应用以及用户的隐私安全。


问:人工智能在安全攻防领域做到了什么地步?存在什么问题?

陈恺:如今,一些人工智能技术已经被应用到两个方面。在防御方面,例如恶意代码检测,很早就有一些机器学习算法被应用于良性 恶性程序的分类。在攻击方面,也有研究开始尝试利用机器学习以往的模式进行新漏洞的攻击。


人工智能技术在攻防领域的应用也面临诸多问题 :第一,数据集缺乏。人工智能方法需要较大规模的训练数据集,没有足量的数据,现有方法难以很好地训练。机器学习技术在视觉、听觉、自然语言处理领域用得多一些,而在安全方面用得相对较少,原因之一是小样本学习等小数据处理方法很难直接应用到安全问题上。第二,真实场景具有复杂性。很多方法在实验室环境中应用效果很好,而一旦用到真实场景,效果就差很多。安全与行业是紧密结合的,遇到的多是实际的安全问题。虽然一些智能算法在实验室数据中取得了很好的效果,但面对实际问题时,可能并不能发挥出最好的效果。


整体而言,我觉得人工智能如果能做到与专家水平差不多,就是比较理想的状态了,基本能够适用于现实世界中多数的应用场景。


问:陈老师能否介绍一下自己现在的工作?

陈恺:目前我们在尝试两个大方向 :第一个是用 AI 算法增强攻防能力,我们称之为“黑客大脑”,希望机器能像黑客一样思考。人类能从网上学习知识,机器也可以,用于智能化地指导漏洞发现、分析和利用等任务。随着学习到的知识越来越多,机器的能力会越来越接近专家水平。第二个是研究深度学习算法自身的安全问题,例如对抗样本、模型的后门、隐私等问题。在工作中,我们更倾向于研究在实际物理场景中真实出现的安全问题,而不仅仅是实验室环境中潜在的安全问题。例如,做语音、视觉方面的对抗样本,我们会针对真实的语音处理设备(如亚马逊的 Echo、苹果的 Siri 等)或者实际行驶中的汽车,希望能在真实场景中攻击成功。真实场景的成功攻击和虚拟世界相比,差异很大。例如,攻击一个自动驾驶系统中的目标识别系统,让它把“停止”标志牌识别为“限速牌”,在虚拟世界中只需要加一些噪点就能攻击成功 ;但是在真实世界中,噪点很难打印到标识牌上,很难识别错误。语音攻击就更难了,在数字世界中,给语音加噪音相对容易,但是在真实世界中,由于环境噪音很大,后加的噪音很容易被环境噪音覆盖,因此很难攻击成功。我们想了很多办法处理这些问题并进行实验验证,最后获得了成功。


沿着这一方向,我们在 2022 年做了一个有趣的工作。区别于传统智能安全研究工作仅使用实验室环境中的数据集和模型(如手写数字识别等),我们找了实际场景中使用的模型,测试目前常用的攻防算法(如对抗攻击算法等)在这些模型上的效果。这些模型是如何找到的呢?手机的应用程序里有很多深度学习模型,我们尝试提取出来直接使用。为此,我们设计了一系列自动化的方法提取模型,其中有的模型被加密了,有的需要动态加载才能提取。这些模型也缺乏合适的数据集用以分析,因此我们又设计了自动化数据集搜索算法,找到匹配的数据集。通过观察常用的攻防算法在这些模型上的效果,我们发现,算法效果的差异很大,有的攻击算法效果并不好,可能是因为实际环境中的模型被开发者保护和处理过,例如加密和量化等。我们已经把获得的数据集在网上公开,方便有兴趣的读者做更多的测试。


此外,安全和智能两个领域碰撞后会产生新的思路。例如传统方法修复模型错误,往往是通过调整数据或者参数的方法不断尝试。我们提出了“神经网络手术刀”,给神经网络做“微创手术”,就像修复代码错误一样,找到合适的神经元进行错误修复。这点在大模型上可能更具有应用场景,比如GPT-3 模型。


问:现在AI大模型非常流行,您怎么看这些模型上的安全问题?

陈恺:目前大模型很热门,不少安全研究也在这个方面展开。有不少研究利用大模型辅助传统安全攻防,借助大模型的性能优势,取得了一定的效果 ;也有研究关注大模型本身的安全和隐私问题,例如大模型是否会泄露更多隐私、如何在大模型上植入和检测后门、大模型是否更加鲁棒等。


大模型的分析测试和安全防护会消耗更多的资源和数据,一些算力不足的机构会比较吃力,如果有算力充足的公司或者平台支持将会很有帮助。对攻击者而言,如果攻击大模型需要的成本大于带来的收益,他们可能会找一个更好得手、收益更大的目标攻击。


问:您如何看待安全领域的未来发展?

陈恺:安全是一个持续性很强的话题。安全的发展经历了不同的时代,跨越了不同的领域,例如密码和通信领域的安全、软件安全、网络安全、物联网安全以及人工智能安全。安全研究随着新领域、新技术的出现不断发展,新的安全问题也层出不穷,安全很难一劳永逸。但凡有一个脆弱点没有搞清楚,整个防线都可能会损坏。新的攻击方法出现了,新的防御方法也会被研究出来 ;反之,新的防御方法也会催生新的攻击方法。攻防在不断博弈发展。


问:如何吸引学生进入安全领域?

陈恺:有一些活动,比如安全领域的夺旗赛(Capture The Flag,CTF),里面有很多攻防思想,包括密码知识、软件安全知识,甚至有区块链方面的知识。本科生,甚至是中学生,如果感兴趣都能够参与进来,这对他们对这个领域的认识非常有帮助。此外,一个好的攻防教育平台也很用。安全问题的研究有时候很难上手,时间长了兴趣就会降低。一个好的教育平台会降低门槛,让大家能够轻松入门。例如,美国雪城大学的杜文亮老师,他在教育平台方面作了很多贡献,设计了多个攻防试验案例并且开放了教育平台。我们也愿意分享自己的案例和平台,让更多的学生接触和喜欢这个领域。


问:您觉得对于安全领域的学生和青年科研人员,有特殊的要求吗?您对博士刚毕业进入信息安全领域的青年科研人员有什么建议?

陈恺:其中一个要求是肯钻研。遇到有挑战的问题,能够静下心来琢磨。另一个是兴趣。如果一个人对某个问题感兴趣,愿意在上面花时间,思考的多了自然就能做出一些成果。现在相关技术资料特别多,如果想学基本都能学得到。


对博士刚毕业的青年科研人员来说,一个很重要的问题是选择合适的方向。博士期间做的课题和参加工作后的课题既有延续性也有拓展性。延续前期的工作会比较熟悉,也可以慢慢朝着相关的方向去拓展。另外,在指导学生方面也要多为学生考虑,指导学生和亲自上手不同,需要更多的责任心和耐心。 

 


杜子东

CCF高级会员,体系结构专委会执行委员,CCCF动态栏目编委,2016年CCF优博奖获得者。中国科学院计算技术研究所研究员。主要研究方向为智能芯片体系结构。 

duzidong@ict.ac.cn


陈恺

CCF高级会员,2021年CCF-IEEE CS青年科学家奖获得者。中国科学院信息工程研究所研究员,信息安全国家重点实验室副主任,中国科学院大学教授。主要研究领域为系统安全、人工智能安全。 

chenkai@iie.ac.cn


特别声明:中国计算机学会(CCF)拥有《中国计算机学会通讯》(CCCF)所刊登内容的所有版权,未经CCF允许,不得转载本刊文字及照片,否则被视为侵权。对于侵权行为,CCF将追究其法律责任



CCF推荐

【精品文章】





点击“阅读原文”,查看更多CCCF文章。

文章转载自中国计算机学会,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论