1 .一种向量数据库的数据处理方法,包括:
从所述向量数据库的所有向量数据中选择预设数量的向量数据作为聚类中心;
获取每个待分类向量数据与所有聚类中心的距离,所述待分类向量数据为所有向量数
据中未作为聚类中心的向量数据;
根据每个所述待分类向量数据与所有聚类中心的距离将所述待分类向量数据记入包
括与其距离最近的聚类中心对应的类群在内的至少一个类群。
2 .根据权利要求1所述的向量数据库的数据处理方法,其中,
所述根据每个所述待分类向量数据与所有聚类中心的距离将所述待分类向量数据记
入包括与其距离最近的聚类中心对应的类群在内的至少一个类群的步骤包括:
将所述待分类向量数据记入与其距离小于等于参照距离的所有聚类中心对应的类群
中,所述参照距离为所述待分类向量数据与最近的聚类中心之间的距离乘以预设修正值后
得到,所述预设修正值大于1小于等于1.5。
3 .根据权利要求2所述的向量数据库的数据处理方法,其中,
所述预设修正值大于等于1 .15小于等于1 .25。
4 .根据权利要求2所述的向量数据库的数据处理方法,其中,
所述将所述待分类向量数据记入与其距离小于等于参照距离的所有聚类中心对应的
类群中的步骤包括:
对所述待分类向量数据与所有聚类中心的距离按照大小进行排序;
将所述待分类向量数据记入与其距离最近的聚类中心对应的类群中;
按照由小到大依次判断待判定聚类中心与所述待分类向量数据的距离是否小于等于
所述参照距离,若是,将所述待分类向量数据记入所述待判定聚类中心对应的类群中,若
否,判定完成所述待分类向量数据的分类;
其中,所述待判定聚类中心为除与所述待分类向量数据距离最近的聚类中心之外的其
余聚类中心。
5 .根据权利要求1所述的向量数据库的数据处理方法,其中,
所述根据每个所述待分类向量数据与所有聚类中心的距离将所述待分类向量数据记
入包括与其距离最近的聚类中心对应的类群在内的至少一个类群的步骤之后包括:
对每个类群中所有向量数据取平均值作为新的聚类中心;
重复执行所述获取每个待分类向量数据与所有聚类中心的距离的步骤至所述对每个
类群中所有向量数据取平均值作为新的聚类中心的步骤,直至每个类群的聚类中心均不再
变化。
6 .根据权利要求1所述的向量数据库的数据处理方法,其中,
所述从所述向量数据库的所有向量数据中选择预设数量的向量数据作为聚类中心的
步骤包括:
从所述向量数据库的所有向量数据中随机选择一个向量数据作为聚类中心;
获取未作为聚类中心的向量数据与已有聚类中心的最短距离;
将与已有聚类中心的最短距离最大的向量数据确定为下一个聚类中心;
重复执行所述获取未作为聚类中心的向量数据与已有聚类中心的最短距离和将与已
有聚类中心的最短距离最大的向量数据确定为下一个聚类中心的步骤,直至聚类中心的数
权 利 要 求 书
1/2 页
2
评论