
HANA Cloud QRC3.2023的新特性
1.前言
其实,2023年HANA Cloud的第三个Release在9月21号就发布了,一直忘了整理了。马上QRC4也会正式发布。这里还是简单整理一下RQC3到底加了哪些内容。感觉就是缝缝补补来一阵子。毕竟是小RELEASE。
2. QRC3新功能
2.1 Security上的根证书替换
这个发生在11月份。SAP正在将用于签署HANA云服务器TLS连接的根证书颁发机构(CA)从“DigiCert Global root CA”更改为“DigiCert Global root G2”。DigiCert已停止使用根“DigiCert全局根CA”对证书进行签名。有关此更改的详细信息,请参阅:
https://knowledge.digicert.com/general-information/digicert-root-and-intermediate-ca-certificate-updates-2023
这个是全球性的更新。动作比较大。
2.2 HDI Admin:提供.hdbremotetablereplica的支持
HDI管理员,现在可以添加插件,增加新的类型:.hdbremotetablereplica的支持。可以参考:SAP HDI Artifact Types and Build Plug-ins Reference. :https://help.sap.com/docs/HANA_CLOUD_DATABASE/c2cc2e43458d4abda6788049c58143dc/9789224788a34d93a86080cab993575c.html
2.3 HDI Admin:支持Container的导出
HDI Admin可以将HDI Container使用Hana Cloud导出到一个Cloud Store, 导出为数据湖文件(HDLF)。
2.4 HDI Admin 新增回收权限操作
现在可以使用新的插件,支持使用参数:revoke_external_parameters 来回收.hdbroles中的权限。
2.5 支持Container到GCP存储的导入导出
See Export an SAP HDI Container for Copy Purposes to a Cloud Store : https://help.sap.com/docs/HANA_CLOUD_DATABASE/c2cc2e43458d4abda6788049c58143dc/96d3500aff614d878ef919badd2a53fd.html
and Import an SAP HDI Container for Copy Purposes to a Cloud Store: https://help.sap.com/docs/HANA_CLOUD_DATABASE/c2cc2e43458d4abda6788049c58143dc/f11927de04b44bfa9a12bb85850c39d9.html
2.6 导入导出数据 (csv 和 Parquet文件)
可以同时导入导出多个CSV和Parquet格式的数据文件。如果指定的是目录,则整个目录中的文件会被导入导出。可以使用值:ROW GROUP SIZE来限定导出文件的大小。具体内容可参考:https://help.sap.com/docs/hana-cloud-database/sap-hana-cloud-sap-hana-database-administration-guide/importing-and-exporting-with-microsoft-azure-storage
支持IMPORT FROM,数据可以来源于使用开放表格式的开源的数据源。支持HIVE PARTITION和DELTA LAKE格式。参考:
Support for Open Source Formats:https://help.sap.com/docs/hana-cloud-database/sap-hana-cloud-sap-hana-database-administration-guide/importing-open-table-format-delta-lake-data
支持在EXPORT INTO后边使用SELECT语句作为数据源。支持三种格式:CSV、Parquet和json。可以参考:
EXPORT INTO Using a Query as a Data Source :https://help.sap.com/docs/hana-cloud-database/sap-hana-cloud-sap-hana-database-administration-guide/importing-open-table-format-delta-lake-data
2.7 多维service API支持
多维服务是SAP HANA Cloud中处理分析数据的处理引擎。现在可以使用外部API来管理和维护MDS多维数据集。请求由客户端库以JSON格式通过HTTP(S)提交,并由SAP内部协议“InA”(InformationAccess)处理。
参考:Administration of MDS Cubes:https://help.sap.com/docs/hana-cloud-database/sap-hana-cloud-sap-hana-database-administration-guide/managing-and-monitoring-mds-cubes
2.8 安全分区支持
在分区方面,引入了一个“安全”重分区选项,以防止不必要地提交昂贵的语句。这是CHECK NO DATA MOVE子句,可以添加到重分区语句中,如果涉及到昂贵的操作(如移动数据),它将自动取消语句。
2.9 性能
缓存管理
您可以通过删除特定的过时项来提高缓存的有效性。现在可以选择删除单个缓存条目(由CACHE_ID值标识),而不是完全清除缓存。
NSE(本机存储扩展)
现在,您可以使用本机存储扩展(NSE) Advisor,根据访问表、分区或列的频率获得有关它们的加载单元的建议。仅在Azure、AWS和Google Cloud中可用。更多内容可以参考:Understanding the SAP HANA NSE Advisor.:https://help.sap.com/docs/HANA_CLOUD_DATABASE/f9c5015e72e04fffa14d7d4f7267d897/ae95f13e417447f28cdff08cd7ab43f3.html
2.10 往虚拟表中添加复制表
在使用切换特性时,您现在可以选择添加在用户模式中创建的普通列存储表,而不是向虚拟表添加自动生成的复制表。用户拥有的复制表使您能够更好地控制复制表的定义。
可以参考:Replica Tables :https://help.sap.com/docs/hana-cloud-database/sap-hana-cloud-sap-hana-database-data-access-guide/replica-tables
2.11 设置复制的加载单位
通过为每个表设置PAGE_LOADABLE属性,可以确定表的数据加载特征(可加载页或列)。使用表放置,您现在可以通过为TABLE_PLACEMENT设置值来设置副本上表的加载特征(PAGE或COLUMN LOADABLE)。REPLICA_LOAD_UNIT字段。这是针对indexserver副本的,但另外还有一个列可用于横向扩展系统COMPUTE_REPLICA_LOAD_UNIT,它适用于弹性读节点。
2.12 Workload 类监控
工作负载类特性现在包括一个Monitoring页面,其中包含工作负载类的概述,以及一个详细的工作负载类页面,用户可以在其中分析统计数据和单个SQL语句。
2.13 Workload管理
为了防止系统过载,现在将默认值25%应用于配置参数default_statement_concurrency_limit_rel。因此,单个语句的并行执行被限制为系统中逻辑核数的25%。
2.14 APL更新
APL: Automated Predictive Library => 升级至SAP HANA APL 2313. SAP HANA APL 2309, see What's New in SAP HANA APL 2311.:https://help.sap.com/docs/apl/91a027b369cc4d1898806a779a23e206/c57b6f4e4e324fcaa1ece849228e67c7.html?version=2311
2.15 Dev方面的更新
1、处理内部NULL值
HIERARCHY_LEVELED Generator Function: https://help.sap.com/docs/hana-cloud-database/sap-hana-cloud-sap-hana-database-hierarchy-developer-guide/hierarchy-leveled-generator-function
2、PAL (Predictive Analysis Library)
对LTSF增加pal_ltsf_decomposition方法,将预测值分解为TREND、SEASONAL和各外源特征有参考值或无参考值的计算贡献。目前只支持XLinear网络类型。
AutoML的增强:
为(AutoML)管道模型添加了一个新的评分函数。
AutoML时间序列场景支持两个新的回归算子(MLR和HGBT)。
AutoML时间序列场景现在支持一个新的度量SPEC。
文本挖掘以及TF-IDF的增强:
增加了文本挖掘和TF-IDF的一些参数,客户可以通过这些参数对停词功能进行一些控制。
ENABLE_STOPWORDS:是否开启停词功能。只有将该参数设置为“true”时,以下参数才生效。默认为true。
KEEP_NUMERIC:决定是否保留数字。默认为false。
ALLOWED_LIST:由停顿词逻辑保留的逗号分隔的单词列表。
NOTALLOWED_LIST:一个逗号分隔的单词列表,它将被停止词逻辑识别和删除。
分位数变换新算法:
分位数转换算法提供了一种自动转换具有不同数据分布的数值输入变量的方法,然后将其用作预测模型的输入。
参考:Quantile Transform :https://help.sap.com/docs/hana-cloud-database/sap-hana-cloud-sap-hana-database-predictive-analysis-library/quantile_transform.html
HGBT中新的目标函数和新的增强方法支持:
在HGBT中增加了新的目标函数Huber Loss。此外,还增加了一种新的增强方法,增强了伪Huber误差目标函数等现有目标函数的鲁棒性和有效性。
相对参数HUBER_SLOPE也被添加到Huber/Pseudo Huber目标函数的HGBT函数中。
Huber损失统计量类似于平均绝对误差(MAE),这是回归问题中常用的一种损失函数。Huber损失是均方误差(MSE)和MAE的组合,因为它的行为类似于小误差的MSE,而类似于大误差的MAE。与MSE相比,它对异常值的敏感度较低,因此在处理可能包含极值或噪声的数据时,它是一个受欢迎的选择。
参考:Hybrid Gradient Boosting Tree. :https://help.sap.com/docs/hana-cloud-database/sap-hana-cloud-sap-hana-database-predictive-analysis-library/hybrid-gradient-boosting-tree-ca5106c.html
单热编码增强:
在具有高基数的特性上使用单热编码可能会影响算法性能和内存消耗。为了解决这个问题,引入了两个新的参数,用于支持对分类特征进行嵌入式单热编码的算法。
ONEHOT_MIN_FREQUENCY:定义一个类别的最小频率。如果一个类别低于此参数,则将其与其他低频类别分组。
ONEHOT_MAX_CATEGORIES:定义一个特性的最大类别数。如果总类别超过此限制,则将最低类别分组。
受影响的算法包括:
多类逻辑回归
多层感知器
支持向量机
多元线性回归
谱聚类
参考:Multi-Class Logistic Regression, Multilayer Perceptron, Support Vector Machine, Multiple Linear Regression, and Spectral Clustering.:https://help.sap.com/docs/hana-cloud-database/sap-hana-cloud-sap-hana-database-predictive-analysis-library/multi-class-logistic-regression-bc5fe09.html
STL分解法进行季节性检验
通过引入新的参数DECOMPOSE_METHOD,为季节性检验增加了一种新的时间序列分解方法——利用LOESS 进行季节趋势分解(STL)。现在用STL_ROBUST和STL_SEASONAL_AVERAGE作为参数值丰富了SMOOTH_METHOD_NON_SEASONAL分解。
通过STL分解,从LOESS 和移动平均的多步数据中得到趋势分量和季节分量。随机分量可以直接估计。如果时间序列中存在0或负值,STL只能进行加性分解。
参考:Seasonality Test:https://help.sap.com/docs/hana-cloud-database/sap-hana-cloud-sap-hana-database-predictive-analysis-library/seasonality-test-d990dc7.html





