基本概念
➢ algo:算法,GBase UP 提供的机器学习算法。
➢ dataSource:数据源,可以来自于数据库表或 HDFS 文件。
➢ dataset:数据集。数据源经过预处理过程生成的数据,直接用于模型训练。
➢ model:模型。经过训练后生成,用于模型的评估和预测,是机器学习算法的核心。
接口规范
1. ADD_ALGORITHM(alg_name,train_class,evaluate_class,evaluate_type,predict_class)
功能:在 GBase UP 中注册算法族。
参数说明:
alg_name:算法族的名称;
train_class:训练算法的类名;
evaluate_class:评估算法的类名;
evaluate_type:评估算法的类型,如果直接使用训练好的模型进行评估则取值为 0,如果根据评估参数重新计算模型进行评估则取值为 1;
predict_class:预测算法的类名。
2. DELETE_ALGORITHM(alg_name)
功能:在 GBase UP 中注销算法族。
参数说明:
alg_name:算法族的名称;
3. SHOW_ALGORITHMS()
功能:显示所有已注册的算法族。
4. CREATE_MODEL(model_name, alg_name, train_set, test_set)
功能:创建模型。
参数说明:
model_name:自定义模型的名称;
alg_name:模型所使用的算法族的名称;
train_set:训练数据集,用于训练模型,可以是表、视图或 HDFS 文件;
test_set:测试数据集,用于评估模型,可以是表、视图或 HDFS 文件。
5. DROP_MODEL(model_name)
功能:删除模型。
参数说明:
model_name:待删除模型的名称.
6. SHOW_MODELS()
功能:显示所有已存在的模型。
7. SHOW_MODEL(model_name)
功能:显示模型的详细信息。
参数说明:
model_name:模型的名称。
示例:显示 kmeans_cust_model 模型的信息。
gccli>call UPEXTDB.SHOW_MODEL('kmeans_cust_model');
8. TRAIN_MODEL(model_name)
功能:训练模型。
参数说明:
model_name:模型的名称。
示例:训练名为 kmeans_cust_model 的模型。
gccli>call UPEXTDB.TRAIN_MODEL('kmeans_cust_model');
9. EVALUATE_MODEL(model_name)
功能:评估模型。
10. PREDICT(model_name, predict_set, predict_result)
功能:使用模型进行预测。
参数说明:
model_name:模型的名称
predict_set:要预测的数据集,可以是表、视图或 HDFS 文件
predict_result:预测的结果,可以是表或 HDFS 文件,如果表不存在会自动创建,如果表已存在内容会被覆盖,如果 HDFS 文件不存在会自动创建,如果 HDFS 文件已存在会报错。
11. ADD_TRAIN_SETTING(model_name , setting_key, setting_value )
功能:以键值对的形式设置模型的训练参数。
参数说明:
model_name:模型的名称;
setting_key:参数的名称;
setting_value:参数的取值;
12. SHOW_TRAIN_SETTINGS(model_name)
功能:显示模型的所有训练参数。




