1316
软件学报 2022 年第 33 卷第 4 期
据
[1,2]
具有天然的演化性. 尤其是演化特征空间(evolvable feature space)
[3]
, 它的特征空间可以随着时间的推移
而演化, 即以前的特征空间消失而新的特征空间出现. 例如在生态系统中部署用来收集数据的传感器, 每个
传感器返回的数据信号对应一个特征, 由于每个传感器的使用寿命有限, 需要用新的传感器替换老化的传感
器, 则先前传感器对应的特征(旧特征)空间消失, 而当前传感器对应的特征(新特征)空间出现.
为了利用旧特征空间的历史数据和已学习的预测模型, 探索新特征空间与旧特征空间之间的关系是至关
重要. 演化特征空间往往假设特征空间不会任意改变, 且在特征空间演化之前有一个旧特征和新特征同时存
在的重叠阶段
[3]
. 基于这个假设, 特征演化流学习算法(feature evolvable streaming learning, FESL)
[3]
用在线梯
度下降(online gradient descent, OGD)
[4]
来更新旧特征的模型和新特征的模型; 同时, 在重叠阶段学习一个线
性映射, 用新特征空间下的特征来恢复旧特征; 进而在新特征空间下继续使用或更新旧特征已学习的模型;
最后, 将更新后的旧模型和新模型作为两个基模型, 提出了两种集成方法.作为 FESL 的扩展工作, Hou 等人
[5]
在假设重叠阶段相对较长的情况, 为旧特征和新特征学习一个更为复杂的非线性映射.通常情况下, 集成方法
将一系列相对较弱的基模型组合起来, 可以得到比单个基模型效果更好的强模型, 但在集成方法学习中要求
每个基模型的分类性能不能太差
[6]
.而在线梯度下降作为基模型更新的方法, 仅在样本分类错误时更新模型,
分类性能不能很好的提升.基于此, 基于被动-主动的特征演化流学习(passive-aggressive learning with feature
evolvable streams, PAFE)
[7]
运用在线被动-主动(online passive-aggressive, PA)
[8]
算法来更新新、旧特征空间的
模型;同时, 在重叠阶段不仅学习了恢复旧特征的映射, 也学习了旧特征到新特征的映射, 以便利用旧模型来
对新模型进行初始化, 进而加快模型的收敛和提高模型的性能. 尽管这些特征演化学习算法已获得不错的分
类性能, 但这些算法采用的是基于一阶信息的在线学习方法作为预测模型, 而模型更新时所有维度共享相同
的学习率, 其分类性能通常会受到限制.
为了解决以上问题, 本文提出了一种特征演化的置信-加权学习算法(confidence-weighted learning for
feature evolution, CWFE). 该算法采用基于二阶信息的在线学习方法来更新新旧特征空间的预测模型, 其中,
基于二阶信息的在线学习方法不仅包含了一阶权重信息, 也学习了捕获权重之间相互作用的置信矩阵信息.
在重叠阶段, 学习了从新特征到旧特征的线性映射. 接下来, 在只有新特征空间的情况下, 用线性映射来恢复
旧特征, 进而继续更新旧特征空间下已学习的模型和置信矩阵. 继而, 利用集成方法来融合继续更新的旧模
型和正在更新的新模型, 以提升当前特征空间(新特征空间)的分类性能. 最后, 实验验证了所提算法的分类性
能优于基于一阶在线学习方法的特征演化学习.
本文第 1 节介绍在线学习方法和多样化特征空间的相关工作. 第 2 节给出演化特征空间的具体介绍和形
式化表示. 第 3 节阐述本文所提出的特征演化的置信-加权学习算法 CWFE, 包括模型更新和整体流程. 第 4
节分析 CWFE 的实验结果, 验证了所提算法优于已有的基于一阶在线学习方法的特征演化学习算法. 第 5 节
总结本文工作, 并针对本文的不足之处提出下一步工作展望.
1 相关工作
我们的工作与机器学习中的两个研究方向有关: 在线学习和多样化特征空间.
1.1 在线学习
在线学习(online learning)
[1,9−11]
是一种处理大规模流数据挖掘任务的机器学习技术, 可以实时快速地对模
型进行增量调整和更新, 提高预测的准确率. 最早的在线学习算法是 20 世纪 50 年代 Rosenblatt 提出的感知器
(perceptron)算法
[12]
, 它是一种在线线性分类算法, 旨在解决线性可分的问题. 存在的在线线性分类算法可以
分为一阶方法和二阶方法. 作为最简单且最流行的一阶方法 OGD
[4]
, 根据当前样本计算一个梯度, 并对当前
模型进行一次梯度下降更新. PA
[8]
算法是通过一个带约束的优化问题来进行模型更新, 使得新的分类器模型
尽可能地接近当前的模型, 同时保证了当前样本到模型的最大间隔. Pegasos 算法
[13]
为 OGD 方法使用了一个
更先进的步长调节方式来解决基于
2
A
范数的 SVM 优化问题. 然而, 基于一阶信息的在线学习方法通常会忽
略参数更新的方向. 针对这个问题, 基于二阶信息的置信-加权(confidence-weighted, CW)
[14]
方法假设预测模
评论