加载数据文件时文件是否分块以及如何分块受下面3个参数的影响。
(1)NOSPLIT:用来指定本次加载任务中是否禁用分块加载功能,指定该参数将禁用分块加载功能。不指定该参数,在集群加载时,将自动启动分块加载功能。
(2)MAX_DATA_PROCESSORS:用来指定本次加载任务中参与数据解析的处理的最大节点数,取值范围[1, 4294967295],默认值16。
(3)MIN_CHUNK_SIZE:用来指定本次加载任务中数据分块的最小粒度,取值范围[1,4294967295],默认值64M。默认值情况下数据分块时限制每个处理节点分到的数据文件都大于64M。
在数据加载分块时,按照数据量、参与运算的加载节点数和MIN_CHUNK_SIZE限制对数据进行均匀分块。MIN_CHUNK_SIZE取默认值64M情况下,对小于128M的数据文件,因为分块后无法保证每一个处理节点分到的数据都大于64M,所以不再分块。对于大于128M的数据文件,在保证每个运算节点分到的数据都大于64M情况下,按照文件大小和参与运算的加载节点数对数据进行均匀切分。
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




