暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

GBase UP助力各行业客户机器学习,共建生态

GBASE数据库 2022-06-13
318

GBase UP数据库是GBASE南大通用核心产品之一,GBase UP的机器学习就是Apache Spark借助其出色的“内存计算”、并行计算和迭代计算能力,提供了强大的机器学习功能。如果想基于Spark进行机器学习系统开发,需要掌握Spark相关技术、熟悉Java或Scala编程语言,存在一定技术门槛,对于熟悉数据库操作的应用开发人员来说有相当大的难度。GBase UP围绕模型管理这一核心思想,将Spark机器学习算法封装成SQL语句(存储过程)。任何熟悉数据库的开发人员都可以方便地使用SQL语句创建、训练和评估模型,以及使用模型进行预测。

目前,经过GBASE南大通用科研人员的努力,目前GBase UP已支持的机器算法有:

主成分分析(PCA):通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量称为主成分。应用于PCA算法广泛应用于数据降维、图像有损压缩和特征追踪等领域。

词频-逆文本频率(TF-IDF):一种用于信息检索与数据挖掘的常用加权技术,TF-IDF加权的各种形式常用于搜索引擎,作为文件与用户查询之间相关程度的度量或评级方法。

支持向量机(SVMs):常用于解决小样本、非线性及高维识别问题。通常用来进行模式识别、分类以及回归分析。

逻辑回归 (Logistic regression):业界当前非常流行的机器学习算法,用于估计某种事物的可能性。常用于预测和判别。预测在不同自变量情况下,发生某病或某种情况的概率;或判断某人属于某病或属于某种情况的概率。

线性回归(Linear regression):数理统计中回归分析,用来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。主要用于预测或分类判断。

朴素贝叶斯(Native Bayes):概率分类器,它基于把贝叶斯定理运用在特征之间关系的强独立性假设之上。结合TF-IDF算法,实现文章、图书的自动分类。

决策树(Decision trees):一种逼近离散函数值的方法。它用树形的图或者模型表示决策及其可能的后果。常用于决策支持和分类。

随机森林(Random Forests):一种包含多个决策树的分类器,利用Spark并行计算模型,可以使随机森林算法高效处理海量数据,是应对大规模数据分类的有效解决方案。

梯度提升树(Gradient-Boosted Trees):梯度提升树和随机森林一样 ,是一种组合算法,它的基分类器是决策树。既可以用来回归,也可以用作分类。

K-均值(K-means):基于目标函数聚类方法的代表,将数据点到中心点的某种距离作为优化的目标函数,利用函数求极值的方法迭代得到结果。K-均值算法在大数据方面,也有很多应用,例如信用卡客户价值分析。

高斯混合模型(Gaussian Mixture Model):用高斯概率密度函数精确地量化事物,基于将一个将事物分解为若干的基于高斯概率密度函数的方法进行建模。高斯混合模型通过改变高斯的混合度,能够逼近任意概率分布,广泛应用于语音识别等领域。

交替最小二乘(ALS):基于矩阵分解的协同过滤算法,与其它算法相结合,实现个性化推荐等功能。

频繁模式增长算法(FP-growth):查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构,主要用于关联分析。

自回归积分滑动平均模型(ARIMA):一种参考了时间因素的预测算法,将预测对象随时间推移形成的数据序列视为一个随机序列,用数学模型来近似描述这个序列。广泛应用于季节性传染病预测、大宗期货市场价格的预测和分析等方面。

多层感知器分类器 (MLPC):一种多层的前馈神经网络模型,常用于机器视觉,金融风险分析等领域。


关于GBASE

天津南大通用数据技术股份有限公司(以下简称“南大通用”)成立于2004年,自成立以来,始终坚持自主创新,产品的核心技术及底层代码自主可控,是国内少有的专注于数据库产品研发,并且在金融、电信行业得到规模化应用的独立数据库服务商。

经过十余年发展,南大通用构建了覆盖数据管理全生命周期、全技术栈的数据产品体系及服务解决方案。公司立足于天津,覆盖全国,GBase系列数据库产品及服务范围覆盖全国32个省级行政区域。为金融、电信、政务、能源、交通、国防军工等百余个行业上万家用户提供产品和服务,建立节点超过30000个,管理数据总量超过300PB。并远销美国、巴西、墨西哥等34余个国家及地区。

数字时代背景下,南大通用将紧扣时代发展脉络,勇担责任,聚焦数据库核心技术突破与创新,向着成为用户最信赖的数据库产品和服务提供商不断破浪前进!

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论