暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

火山引擎LAS基于Lance的PB级智驾数据湖方案

518

随着智能驾驶技术的普及,摄像头拍摄的图像、激光雷达生成的点云、麦克风采集的音频等非结构化数据海量涌现。这些数据规模庞大、形式多样且实时性强,要求底层数据技术具备高效存储与快速处理能力。


火山引擎多模态数据湖解决方案是面向 AI 时代的智能数据新基建,完整覆盖湖计算、湖存储、湖管理、湖分析等场景。


方案中的AI数据湖服务LAS能够实现对文本、图像、音视频等非结构化数据资产的统一精细化管理,同时也能为模型预训练、后训练、AI 应用构建与开发提供端到端的智能数据服务。


近期,火山引擎LAS在智能驾驶场景中实现了应用和落地。


本篇文章将聚焦在“智能驾驶”场景,拆解LAS的核心湖存储格式——Lance,如何实现快速构建新一代 AI 数据湖并高效存储、管理和处理多模态数据(文本、图像、音视频等)。



方案背景


A客户是一家来自中国的知名汽车企业,专注智驾网联(Intelligent Connected Vehicle)场景。


本文针对该客户在智能驾驶场景中海量多模态数据(文本 图像 点云等)的管理与处理挑战,提出基于 Lance 格式的 AI 数据湖解决方案。


核心通过三大技术实现突破:


1. Zero-Cost Data Evolution:动态标注场景下新增数据列无需重写历史数据集,降低 30% 存储成本。


2. 透明压缩:ZSTD 编码压缩点云数据达 70% 压缩率,显著减少网络带宽压力。


3. 点查询优化:列投影与轻量级 shuffle 机制提升训练效率,GPU 利用率达 96%。


方案已落地某车企客户,实现 EB 级数据处理效率提升 3 倍,模型训练交付提速 40%。下文将具体展开客户痛点与技术实现路径。



难点与挑战


在构建智驾系统的过程中,A客户面临以下挑战:


数据爆炸


实时采集车辆多模态数据(摄像头、激光雷达等),单辆测试车每日产生数 TB 数据,量产车规模扩大后可达 EB 级。海量非结构化数据(如驾驶视频)需转化为结构化信息(如目标检测、路径规划)。


核心问题


1. 存储如何在降低数据存储成本的同时,依然能在点查和范围扫描的场景上性能无损失


2. 计算如何高效实现单机实验到生产工程化,按时交付大规模数据。


3. 检索如何快速挖掘海量非结构化数据中的业务价值。


4. 管理如何跟踪数据处理 pipeline,持续优化流程。



方案详情



/ 架构升级:Lance驱动的解决方案




势一:数据挖掘与管理



1. 客户痛点客户原先使用 LMDB 存储格式,每次增加推理标注列时需读取和重写全量数据集,导致数据重复和存储膨胀,GPU 资源浪费严重。


2. Lance方案通过统一元数据管理,支持增量更新,无需重写历史数据。实测减少存储成本 30%,管理效率提升 50%。


优势二:模型训练优化


1. 客户痛点训练任务需高效利用 GPU 资源,确保稳定性和迭代速度。传统方法因 IO 放大和内存膨胀导致 GPU 利用率仅 60%。


2. Lance方案点查询功能(Point Query)实现轻量级数据 shuffle 和列投影,仅读取必要字段,避免 IO 放大。客户实单机 8*A100 GPU 利用率从 60% 提升至 96%,训练任务交付时间缩短 40%。



Lance核心优势


1. Zero-Cost Data Evolution


在智能驾驶场景,数据标注精细度决定模型性能上限。


Lance提供zero-cost data evolution 机制有力的支持了动态标注场景:


- 交通要素自动标注红绿灯、交通标志等。

- 动态参与者标注行人、车辆轨迹。

- 环境条件标注光照、降水、能见度。


在使用对应场景的数据集进行微调模型时,需要基于一些标签筛选出特性场景的数据集,这个时候就需要一些标签数据,例如是否是阴天的图片,是否是有行人的图片,而这些标签的自动标注的过程其实一个增加列的行为。



传统方法(如 LMDB 或 Pickle)在新增列时需重写数据集,耗费大量资源。而Lance 支持通过操作清单(Manifest)元数据实现数据集的快速schema evolution。而不需要重写历史数据,只需要对变更的数据重新更新到元数据中即可。


- 列添加:通过向每个片段添加新列的数据文件(DataFile)来实现。


客户实测效果


- 推理吞吐量提升50%:单机8*A100 GPU利用率从60%提升至90%

- E2E处理效率提升3倍 10PB 数据的标签处理由4Days变成1Day



2. Transparent compression



Lance 支持ZSTD压缩编码,对点云和标签数据具有较高的压缩比,能够很好的实现压缩存储空间占用同时还能够降低网络带宽。


而且Lance本身的压缩是定义在schema中的,对于数据的写入或者读取是无感的,透明的,所以易用性有很大提升。


成本收益



3. Point Query For AI Train



Lance 的点查询机制解决训练场景瓶颈:



/ 总结


Lance 在智能驾驶场景中实现了数据管理、训练效率和成本优化的突破。通过 Zero-Cost Data Evolution、透明压缩和点查询等特性,客户 PB 级数据处理效率提升 3 倍,GPU利用率稳定在90%以上。


欢迎 AI 从业者加入 Lance 社区,共同构建下一代 AI 数据基础设施。



Lance 中文社区正式启航! 欢迎关注:



  👏 Data+AI 推荐阅读:  

 点击阅读原文,
 申请体验【多模态数据湖解决方案】


文章转载自字节跳动数据平台,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论