AI聚类问题算法：SOM自组织映射

汽车未来科技Lab 2022-03-23

2153

SOM（Self-organizing Maps）自组织映射是一种人工神经网络（ANN），由芬兰赫尔辛基大学教授Teuvo Kohonen于1981年提出，因此又称为Kohonen算法。SOM自组织映射算法是一种聚类和高维可视化的无监督学习算法，是通过模拟人脑对信号处理的特点而发展起来的一种人工神经网络。竞争学习规则的生理学基础是神经细胞的侧抑制现象：当一个神经细胞兴奋后，会对其周围的神经细胞产生抑制作用。最强的抑制作用是竞争获胜，这种做法称为“胜者为王”（WTA）。（正文部分资料来源于网络）

1.介绍

SOM算法是无导师学习网络，SOM模型本质上是一种只有输入层--隐藏层的神经网络，它通过自动寻找样本中的内在规律和本质属性，自组织，自适应地改变网络参数与结构。SOM 也是一种降维算法，用于生成训练样本的低维空间，可以将高维数据间复杂的非线性统计关系转化为简单的几何关系，以低维的方式呈现出来，实现高维数据可视化，然后根据降维之后的数据再进行聚类。

在聚类问题中，你需要一个神经网络来根据相似性对数据进行分组。其主要应用于语音识别、图像处理、分类聚类、组合优化、数据分析和预测等领域，具体的还有，例如：根据人们的购买模式进行市场细分；数据挖掘可以通过将数据划分为相关子集来完成；或者生物信息学分析，比如用相关的表达模式对基因进行分组。在汽车领域也有很多应用，比如汽轮发电机多故障诊断的SOM神经网络方法，基于SOM神经网络的柴油机故障诊断等。

2.工作原理

隐藏层中的一个节点代表一个需要聚成的类。训练时采用“竞争学习”的方式，每个输入的样例在隐藏层中找到一个和它最匹配的节点，称为它的激活节点，也叫“winning neuron”，紧接着更新激活节点的参数。同时，和激活节点临近的点也根据它们距离激活节点的远近而适当地更新参数。

其训练过程是用下面的例子表示，其中紫色区域表示训练数据的分布状况，白色网格表示从该分布中提取的当前训练数据。开始，SOM 节点位于数据空间的任意位置，这个可以随机给出。开始学习时，最接近训练数据的节点（黄色高亮部分）会被选中，同时它和网格中的邻近节点一样，朝训练数据移动。在多次迭代之后，网格倾向于最右图中近似该种数据分布。

其随机数据和训练数据的映射过程是将训练数据输入到网络中时，计算出各个训练数据和随机数据的权重向量的欧几里距离。权重向量与输入最相似的神经元称为最佳匹配单元（BMU）。BMU 的权重和 SOM 网格中靠近它的神经元会朝着输入矢量的方向调整。