加入收藏 | 设为首页

首页    /    热点    /    正文

火山引擎:智能辅助驾驶多模态数据湖最佳实践

随着辅助驾驶技术的快速发展,数据在推动算法迭代和场景优化中扮演着核心角色。数据飞轮理念强调高效的数据采集、处理和应用闭环,但在实际应用中,网联数据井喷、智能辅助驾驶多模态数据异构性处理和多团队协同等问题导致效率瓶颈。火山引擎通过全模态数据湖能力基座,旨在提升数据流转效率,降低存储成本,并加速算法训练。

2025年7月22日,火山引擎数据产品解决方案高级经理张伟亮在2025第八届智能辅助驾驶大会上表示:“数据飞轮在辅助驾驶领域至关重要,但面临高工程协同和极致数据处理效率挑战;火山引擎的全模态数据湖能力基座通过开源兼容、AI原生设计,实现数据高效流转,大力发掘潜在价值,让数据真正成为资产而不是隐性负债。”

张伟亮|火山引擎数据产品解决方案高级经理

以下为演讲内容整理:

智能辅助驾驶的数据飞轮趋势

我们尝试从数据视角看一下智能辅助驾驶和网联发展的几个关键变量。首先是智能网联车数据井喷,随着车端数据采集方案的演进,车端数据采集采集频率越来越密集,智能网联车基本迈入了1hz时代,部分信号采集频率可以甚至可以到100hz,同时数采灵活性越来越高,很多时候无需OTA即可实现数据采集的变更,这就导致原始数据的shcema约束越来越弱,数据量的快速攀升、弱schema化、车云数据一致性等问题都导致云端网联大数据架构提出了严峻挑战。

第二个就是智能辅助驾驶的量产,在25年这个时间节点看,智能辅助驾驶量产基本变成行业的共识,但是来势之凶猛,公众关注的热切程度还是有些超乎意料,同时也让人充满敬畏之心。智能辅助驾驶原生是多模态数据处理场景,数据体量动辄到百P的量级。在这个体量的多模态数据处理压力下,对于底层处理引擎提出了极高的要求。同时数据上传、存储、处理、挖掘、应用带来的巨大成本压力,让客户越来越关注数据的直接应用价值,如不能直接证明价值,其实就很难说清已有的数据到底是资产还是隐性负债?

同时我们也在积极探索大模型代表的AI能力在数据全生命周期里面高效嵌入的场景。

图源:演讲嘉宾素材

数据飞轮驱动辅助驾驶发展,但实际运行中存在研发效率低、版本混乱和合规风险等痛点。例如,在我们和客户沟通中,发现算法提出样本补充需求后,数据响应延迟中位数达T+3天,根源在于底层数据组织松散、元数据表达、服务能力的缺失。同时在多团队协作中,大数据技术栈差异,导致在数据翻译成本高,无形中也导致了效率的不必要损耗。

图源:演讲嘉宾素材

全模态数据湖能力基座设计

火山引擎采用“能力基座”而非“交钥匙方案”的核心逻辑,聚焦开放性和可插拔性设计,从根本上避免厂商锁定风险。其数据湖设计理念系统整合六大关键维度:开箱即用特性确保主流大数据组件预集成并持续迭代;开源兼容承诺与开源生态保持100%一致性,保障客户技术栈自由迁移;轻量运维通过Web化交互工具大幅降低管理负担;成本优化融合全托管架构、弹性伸缩及冷存归档策略;极致性能针对AI计算引擎内核深度调优;AI原生性为多模态场景创新设计。

在存储侧,除提供对象存储和高速文件系统等基础能力外,创新引入Lance数据湖格式强化多模态管理——通过Lance支持超大规模元数据描述,结合高级索引实现多模态数据秒级检索,并内置版本管理及Time Travel能力,显著提升非结构化数据的元数据管理效率,为辅助驾驶场景的复杂数据需求提供底层支撑。

图源:演讲嘉宾素材

计算侧深度整合Spark/Flink等大数据处理栈与Python生态框架,通过Ray的分布式并行化能力显著降低算法团队技术栈改造成本,其在自动化标注等场景已验证可提升GPU利用率20%以上。管理能力构建包含元数据Catalog统一治理、跨多云支持体系,并开放API接口服务供客户自研系统对接,实现跨云数据平台的协同。

核心逻辑始终立足存储与计算基座层,通过开源兼容设计拥抱业务差异——例如在多模态场景采用Lance数据湖格式替代传统Parquet,凭借列存压缩优化减少30%存储空间占用,结合多维索引实现百倍级检索加速。能力基座完整覆盖数据资产轮与数据应用轮,在量产分析场景中通过Serverless Flink+实时湖仓架构将数据新鲜度压缩至分钟级,并借助弹性资源调度使响应效率提升50%,真正实现数据飞轮的高效运转。

图源:演讲嘉宾素材

实践案例分享

在某主机厂辅助驾驶项目合作中,火山引擎针对训练阶段样本刷新频繁、算子迭代导致的GPU利用率不足问题,创新实施Remote Dataloader解决方案——将传统耦合架构中的DataLoader处理模块拆分为独立EMR Ray集群,实现训练集群与数据预处理集群的异步解耦。改造后,当算法算子变更引发数据负载波动时,弹性CPU集群可动态承接预处理高峰,使H20训练卡利用率从瓶颈期的40%提升至稳定85%以上,单次训练迭代周期缩短50%。同步推进数据湖格式统一为Lance,依托其压缩算法优化及内置多维索引能力,在保障百PB级多模态数据高效访问的同时,显著降低云端存储成本20%并缓解跨集群数据消费时的带宽压力。

图源:演讲嘉宾素材

在火山引擎与某主机厂辅助驾驶项目的深度合作中,针对预处理阶段的自动化标注和非结构化算子处理瓶颈,创新采用Ray分布式计算框架进行改造——通过EMR Ray集群实现并行化调度,将CPU/GPU异构资源利用率提升20%以上,尤其在自动化标注推理任务中,批量处理非结构化数据的效率整体提升25%,同时降低20%的算力成本。另一量产分析项目则聚焦实时数据湖升级,通过Serverless Flink流处理引擎和Paimon+Bytehouse湖仓架构,高效应对车云网关动态超长列数据挑战,支持每秒百MB级高吞吐写入,并确保数据新鲜度稳定在分钟级别,最终实现整体技术降本20%,为量产阶段的实时分析提供可靠支撑。

图源:演讲嘉宾素材

架构采用Serverless Flink实时链路、Paimon+Bytehouse湖仓改造,数据新鲜度保持分钟级,整体技术降本20%。案例证明,多模态数据湖在样本挖掘、场景发现和成本控制上效果显著,例如长尾场景挖掘效率提升,避免“人力陷阱”。

图源:演讲嘉宾素材

未来展望与挑战

未来需强化智驾+网联多模态湖仓基座性能,推进Ray+Lance在量产分析场景落地,打造多模态实时数据湖。数据消费引领的要素化治理是核心方向,从训练和量产分析出发,确保数据转化为可量化资产,而非负债。

大模型与数据应用结合,如Agents场景,将进一步释放价值,但挑战包括冷数据存储成本压力和合规响应时效性。技术路线迭代中,数据版本与训练版本关联需加强,避免“训练灾难”。持续优化方向是提升数据新鲜度、响应度和AI原生性,让企业数据收益更可观。

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。。
您可能感兴趣的文章
  • 大企担当心系灾情,理想、蔚来、小米紧急捐款

    截至2025年7月29日午后,华东、华北、东北地区等地强降水天气持续,甚至引发严重洪涝及次生灾害,导致我国多地造成重大人员伤亡和财产损失。灾情牵动社会各界之际,理想汽车、蔚来汽车以及小...

    2025-07-29 17:16:06
  • 中成股份:拟购买资产事项涉及的评估等工作尚

    杨洋编|李亦辉 7月28日,中成股份发布了关于发行股份购买资产并募集配套资金暨关联交易的进展公告。公司计划通过发行股份的方式收购中国技术进出口集团有限公司持有的中技江苏清洁能源有限公...

    2025-07-29 16:30:27
  • 新长安汽车集团领导班子落定

    7月29日,在新成立的中国长安汽车集团有限公司于重庆正式挂牌之际,其领导班子成员名单也同步公布,标志着这家由原兵器装备集团分立而来的新央企,正式完成核心组织架构的搭建,为后续发展战略的...

    2025-07-29 16:07:54
  • 国汽智控与Nullmax达成战略合作

    2025年7月29日,国汽智控科技有限公司(以下简称国汽智控)官方宣布,其已与自动驾驶技术企业Nullmax在本月25日正式签署战略合作协议。双方将围绕智能驾驶全链路数据闭环建设、端到...

    2025-07-29 12:49:54
  • “OpenAI劲敌”Cohere与电信公司

    智通财经APP获悉,人工智能初创企业Cohere达成协议,将其人工智能模型整合到加拿大营收最高的电信公司BCE的服务中。 此次合作将使Cohere能够通过BCE的加拿大贝尔公司向企业...

    2025-07-29 11:38:28
  • 32年进化史2025款起亚狮铂拓界诠释燃油

    在全球汽车产业狂飙发展的当下,汽车产品加速迭代出新,当电动化和智能化成为行业语境里的高频词,有一款产品跨越32年沉淀、历经5代车型革新,在喧嚣中以长期主义的坚持写下了属于自己的答案。从...

    2025-07-29 09:21:19
  • “在一起,共守护”奇瑞-榕江公益战略迈入2

    风雨淬炼再聚首,公益新程共启航。7月26日,奇瑞汽车携手榕江县人民政府与贵州“村超”组委会,正式开启“在一起,共守护”系列活动,这不仅是洪灾驰援后深情的延续,更是奇瑞深植榕江沃土、共绘...

    2025-07-29 07:34:12
  • 在中国,绿色“链”接全球丨链博会让供应链不

    一棵用纸浆板搭建起的“生态树”、一辆可同时给4辆电动车充电的醇氢电动移动充电车、一套将电力生产与生态农业相融合的乡村全面振兴方案……前不久,在第三届中国国际供应链促进博览会上,参展企业...

    2025-07-29 07:09:12
  • 博世高管呼吁:高阶智驾必须收费,免费普及将

    在近日举办的2025世界人工智能大会上,博世智能驾控中国区总裁吴永桥援引国家统计局2025年6月数据指出,尽管今年1-5月中国汽车工业营收同比增长7%,乘用车销量增长14%,但行业整体...

    2025-07-29 04:26:38
  • 深夜宣布!故宫、国博闭馆一天

    7月28日晚,故宫博物院发布公告: 按照北京市防汛办最新通知,根据防汛一级应急响应要求,故宫博物院将于2025年7月29日当天闭馆一天,以保障暴雨天气观众安全。给您带来不便,敬请谅解...

    2025-07-29 02:54:42
精彩推荐
热门文章
宝骏云海俊雅版携限定车色亮相8月上市欧股牛气何来?四大主题解码涨势石四药集团02005取得国家药监局有关瑞舒伐他汀依折麦布片I10mg的药汇丰完成30亿美元股份回购计划FUDI,开出北京最贵超市?十部门发布促进农产品消费实施方案楼观察香港未来三年供应降至10.1万个;中海启德合作项目8月推售上海自动驾驶实训场建设成果发布,全新“绝影开悟”世界模型亮相WAIC20爱奇艺王凯航:IP赋能城市文旅——从情感共鸣到长效留量的营销之道AI开源开放创新平台“焕新社区”发布开放40个央企高价值场景2025WAIC见证中国乳业"Al+"创新成果,飞鹤定义乳业智能新标杆“中国智”惠世界2025世界人工智能大会在上海开幕贵州首趟光伏玻璃定制专列首发为青少年埋下科学的种子,2025张江科学会堂科普季启动