暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Apache Doris 2.1.3

数码百科 2024-05-23
161

Apache Doris 2.1.3版本于2024年5月20日正式亮相。此次更新在功能特性上对数据湖、物化视图和负载管理等方面进行了诸多增强,进一步简化了湖仓一体架构并加速了查询性能。同时,该版本还引入了若干改进项和问题修复,从而进一步提升了系统的性能和稳定性,诚邀各位用户下载体验。

官方网站提供了便捷的下载途径,您可以通过以下链接获取Apache Doris 2.1.3版本:

- 官网下载页面:https://doris.apache.org/download/
- GitHub仓库:https://github.com/apache/doris/releases

### 功能特性更新

1. **支持向Hive表中回写数据**:从2.1.3版开始,Apache Doris新增了对Hive的DDL和DML操作的支持。用户可以直接利用Apache Doris在Hive中创建库表,并通过INSERT INTO语句将数据写入Hive表。此项功能使得Apache Doris能全面处理Hive的数据查询和写入任务,为湖仓一体架构提供强大支撑。参考文档详细描述了相关实现:https://doris.apache.org/docs/lakehouse/datalake-building/hive-build/

2. **支持在异步物化视图之上构建新的异步物化视图**:用户可以在已有的异步物化视图上创建新的异步物化视图,这样做能直接复用之前计算好的中间结果,减少资源消耗及维护成本,进一步提高查询速度和数据可用性。

3. **支持通过物化视图嵌套物化视图进行重写**:Apache Doris现在支持通过物化视图(MV)嵌套的方式重写,优化查询性能。

4. **新增SHOW VIEWS语句**:新添加的SHOW VIEWS语句可以查询数据库中的视图信息,便于更好地管理和了解数据库对象。

5. **Workload Group支持绑定到特定的BE节点**:此功能允许将Workload Group绑定至指定的BE节点,实现查询执行的更精细化控制,优化资源使用,提高性能。

6. **Broker Load支持压缩的JSON格式**:Broker Load现支持导入压缩的JSON格式数据,显著降低数据传输带宽需求,加快数据导入效率。

7. **TRUNCATE函数可以使用列作为scale参数**:TRUNCATE函数现在接受列作为scale参数,提供了更大的灵活性以处理数值数据。

8. **新增函数uuid_to_int和int_to_uuid**:这两个函数实现了UUID与整数间的转换,方便处理需要操作UUID数据的场景。

9. **新增bypass_workload_groupSession Variable以绕过查询队列**:新增的会话变量bypass_workload_group允许某些查询绕过Workload Group队列直接执行,以便快速处理关键查询请求。

10. **新增strcmp函数**:strcmp函数用于比较两个字符串并返回它们的结果,使文本数据的处理更加简便。

11. **支持HLL函数hll_from_base64和hll_to_base64**:提供了HLL(HyperLogLog)数据的编解码功能,有助于存储和传输HLL数据。

### 优化改进

1. **替换SipHash为XXHash改善Shuffle性能**:此优化采用XXHash替代SipHash,旨在提升数据Shuffle过程的性能。

2. **异步物化视图支持OLAP表分区列可以为NULL**:增强了数据处理的灵活性,让异步物化视图支持OLAP表的分区列可以为NULL。

3. **收集列统计信息时限制最大字符串长度为1024以控制BE内存使用**:通过限制字符串的长度,防止大量数据消耗过多BE内存,有利于系统稳定和性能保持。

4. **支持动态删除Bitmap Cache以提高性能**:动态删除不再需要的Bitmap Cache可以释放内存,提高系统性能。

5. **在ALTER操作中减少内存使用**:通过减少ALTER操作中的内存使用量,提高系统资源的利用效率。

6. **支持复杂类型的常量折叠**:包括Array/Map/Struct等复杂类型在内的常量折叠现在得到了支持。

7. **在Aggregate Key聚合模型中增加对Variant类型的支持**:Variant类型数据的聚合操作能力得到增强,半结构化数据分析的灵活性得到提升。

8. **在CCR中支持新的倒排索引格式**:改进了Consistent Checkpoint and Recovery (CCR)机制中的索引格式。

9. **优化嵌套物化视图的重写性能**:提升了嵌套物化视图重写的性能表现。

10. **支持decimal256类型的行存格式**:扩展了系统对高精度数值数据处理的能力,现在支持行存格式中的decimal 256类型。

### 行为变更

1. **授权(Authorization)方面的调整**:Grant_priv权限变更确保了更加严格和一致的权限管理。Workload Group和Resource的Usage_priv权限变得更加具体和有限。未被授权的操作现在有了相应的授权,实现了更细致和全面的操作权限控制。

2. **LOG目录配置统一**:FE和BE的日志目录配置现在通过LOG_DIR环境变量统一设定,而以前的sys_log_dir配置项仍可继续使用,以确保版本间的兼容性。

3. **S3表函数(TVF)的解析逻辑重构**:为了解决在某些情况下无法正确识别或处理S3 URL的问题,对对象存储路径的解析逻辑进行了重构。

### 升级问题

针对关键字作为标识符的使用情况,将一些关键字设置为非保留关键字,允许用户将其用作列名或属性值。具体细节和列表可以在GitHub上找到:https://github.com/apache/doris/pull/34613

### 问题修复

1. **修复在腾讯云COSN上读取Hive表时的无数据错误**:增强了与腾讯云COSN存储服务的兼容性。

2. **修复milliseconds_diff函数返回错误结果的问题**:确保时间差计算的准确性。

3. **确保用户定义变量正确传递到Master节点**:保证变量在整个系统中的一致性和正确的执行逻辑。

4. **修复添加复杂类型列时遇到的Schema Change问题**:保证Schema Change的正确实施。

5. **修复FE master节点更改时Routine Load的数据丢失问题**:解决了数据订阅过程中可能的数据丢失问题。

6. **修复Routine Load在找不到Workload Group时失败的问题**:解决了因找不到指定Workload Group而导致的Routine Load失败问题。

7. **支持column string64避免Join失败问题**:确保字符串JOIN操作的正确执行,特别是在字符串大小超过unit32限制的情况下。

8. **允许Hadoop用户创建Paimon Catalog**:具有相应权限的Hadoop用户可以创建Paimon Catalog。

9. **修复function_ipxx_cidr函数处理常量参数时可能出现的问题**:保证函数执行的正确性。

10. **解决使用HDFS还原时的文件下载错误**:确保数据恢复的正确性和可靠性。

11. **修复隐藏列相关的列权限问题**:确保列权限设置的正确性和安全性。

12. **修复K8s部署中Arrow Flight无法获取正确IP的问题**:解决了在Kubernetes部署环境中Arrow Flight服务无法正确获取IP地址的问题。

文章转载自数码百科,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论