
2
Journal of Software 软件学报
methods cannot be guaranteed. In order to address this problem, this paper firstly analyses the reason why the length of the ciphertext of
the application data unit (ADU) encrypted by TLS drifts relative to the length of the plaintext.
For the first time, HTTP head feature and
TLS fragment features are used as fitting features for ADU length restoration, then this paper proposes an accurate fingerprint restoration
method HHTF for the encrypted ADU, and applies HHTF to the encrypted video recognition. A large fingerprint database of 200,000
videos was built based on the simulation of real Facebook videos. Theoretical derivation and calculation demonstrate that the accuracy,
precision and recall rate can reach 100%, and the false positive rate is 0 requiring only one-tenth the number of ADUs of the existing
method. The experimental results in simulating large-scale video fingerprint database are consistent with the theoretical calculations. The
application of the HHTF method makes it possible to recognize encrypted transmitted video in large-scale video fingerprint library scenes,
which is of great practicality and application value.
Key words: encrypted video identification;application data unit; transmission fingerprint;large-scale video fingerprint database;
Transport Layer Security Protocol
互联网最初的设计功能已经远跟不上实际的需求,隐私保护和安全防护是互联网应用必须考虑的问题,利
用 TLS(Transport Layer Security,TLS)协议实现数据的端到端加密传输是最通用的加密传输方法.由于数据重
要程度不一样,有些应用只对用户登录数据加密传输,有些是对所有数据都加密传输,随着硬件成本的下降和人
们安全意识的提高,大趋势是所有数据加密,这些措施为互联网应用提供了很好的安全防护.但是另一方面,加
密流量比重的增加给网络安全和网络管理带来极大的挑战.
如何从加密的数据中抽取出网络安全防护和网络管理需要的信息已经成为国家安全部门网络管理中亟待
解决的问题,既要保护普通网民的隐私,也要及时发现因特网中传递的危害国家和社会安全的信息,这需要能够
在不解密信息的前提下精准识别特定的被加密信息.
目前对加密流量的分析主要分为两大类:应用类型识别和内容识别.对加密流量的应用类型识别开展的比
较早,包括的范围也比较广,包括对加密流量的识别
[1]
,对网络流量应用类型的识别
[2-4]
,对恶意软件流量的识别
[5-7]
,对加密视频播放模式的识别
[8]
, 对加密视频服务平台识别
[9,10]
, 对加密视频服务质量识别
[10-14]
.这类研究都
不涉及到用户信息的具体内容识别.
在网络安全和网络管理领域有较大需求且最具挑战性的是对加密应用内容的识别,包括对视频的识别和
网站访问行为识别.根据 2018 年思科公司的全球互联网流量研究报告
[15]
,互联网全球流量中超过 70%为视频流
量,预计到 2022 年,视频流量的比例将增长到 80%,并且世界上 TOP 视频服务商都已经采用了加密视频传输技
术.在这个背景下,由于视频传播容易,影响力广,对加密视频的识别已经成为亟待解决的问题.与加密视频内容
识别同等迫切的需求还包括加密网站访问的识别
[16-18]
.这两类应用的流量占据了互联网流量的绝大部分,随着
加密传输的普及,对这两类应用内容的识别成为网络安全管理的挑战.
本文的研究围绕加密视频内容识别展开. 对加密视频内容的识别目标是通过数据传输特征获知被传输
视频的内容标签,而不是对视频的画面内容进行分析,以下简称为加密视频识别.由于应用层信息被加密无法直
接分析,侧信道是对加密数据分析的一种常见途径,现有加密视频识别研究的基本思路是从网络层和传输层协
议头部信息中提取出应用数据单元(Application Data Unit,ADU)的特征.ADU 是应用层信息被传输的数据单
元
[19]
,在 HTTP 传输协议中每个 HTTP 请求的资源就是一个 ADU.这些 ADU 的数据量长度和传输顺序构成了
应用层信息的指纹,观测者有可能从这些 ADU 的特征识别出应用层信息.
已有的加密视频识别研究
[20-26]
存在三个主要问题.第一个问题是现有研究的关注点都在识别算法的研究
上,即如何将采集到的加密传输数据与视频指纹库进行匹配以识别热点视频.但是识别算法的输入信息
——
待
匹配的加密传输数据与指纹库中的指纹,这两者如何构建,以及由于不同的构建方法带来的数据原始偏差都没
有进行深入研究.当指纹库规模变大后,这些不确定性会极大影响着这些识别算法的结果.第二个问题是现有研
究对算法结果的评价指标不全面, 通常只有查全率,少有假阳率的测试指标,特别是没有大型指纹库场景下查
准率和假阳率的评估; 第三个问题是现有研究都是基于小型甚至是微型视频指纹库进行实验验证,实验结果
不能反映这些算法应用于大型视频指纹库的可行性,也没有文献对方法应用于大型指纹库的可行性进行理论
探讨.因此,即使已经有了一些初步的探索成果,在大型指纹库场景中的加密视频识别还是空白,这也是国家网
评论