汽车头条 - 理想汽车VLA司机大模型动物进化至人类成长破行业难题

当前位置：首页正文

理想汽车VLA司机大模型动物进化至人类成长破行业难题

EV视界 7368浏览 2025-05-08 00:31:07

用手机看

手机扫码看

2025年5月7日，理想汽车开启“理想AI Talk第二季——理想VLA司机大模型，从动物进化到人类”活动，理想汽车董事长兼CEO李想分享了诸多关于人工智能及VLA司机大模型的见解，为智能驾驶领域带来了新的思考与方向。

AI工具三阶进化：从信息到生产

李想将AI工具划分为信息工具、辅助工具和生产工具三个层级。当下，多数人把AI当作信息工具，可它常充斥着大量无效信息，仅能提供参考。而辅助工具虽能提升效率，像现在的辅助驾驶，但仍离不开人类的参与。真正的变革在于AI成为生产工具，那时它将独立完成专业任务，大幅提升效率与质量。

李想认为，判断Agent（智能体）是否智能，关键看其是否成为生产工具。就像人类会雇佣司机，人工智能技术最终也会承担类似职责，成为真正的生产工具。这一观点为AI的发展指明了方向，让我们看到了AI在专业领域发挥巨大潜力的可能。

VLA进化之路：从“昆虫”到“人类”

VLA（Vision-Language-Action Model，视觉语言行动模型）的出现，让AI有望真正成为司机，成为交通领域的专业生产工具。但VLA的实现并非一蹴而就，而是经历了三个阶段的进化，对应着理想汽车辅助驾驶的昨天、今天和明天。

第一阶段，理想汽车自2021年起自研依赖规则算法和高精地图的辅助驾驶，类似“昆虫动物智能”，能力相对有限。第二阶段，从2023年起研究并于2024年正式推送端到端+VLM辅助驾驶，接近“哺乳动物智能”，不过端到端模型处理复杂问题有局限，VLM使用开源模型在交通领域能力有限，且难以与人类沟通。于是，2024年起理想汽车开展VLA研究，在多项顶级学术会议上发表论文，夯实理论基础。

到第三阶段，VLA将开启“人类智能”阶段。它能通过3D和2D视觉组合完整看到物理世界，拥有完整脑系统，具备语言、CoT推理能力，能看、能理解还能执行行动，完全符合人类运作方式。这一进化过程，体现了理想汽车在智能驾驶领域不断探索、逐步突破的决心和能力。

VLA训练与安全保障：模拟人类与超级对齐

VLA的训练过程模拟人类学习驾驶技能，分为预训练、后训练和强化训练三个环节。预训练相当于学习物理世界和交通领域常识，训练出云端的VL基座模型并转化为端侧模型。后训练类似去驾校学开车，加入Action数据后VL基座变为VLA司机大模型，具备实时性和博弈能力。强化训练则类似实际开车练习，通过RLHF和纯强化学习模型放入世界模型中训练，让VLA司机大模型更安全、舒适，对齐人类价值观，甚至超越人类驾驶水平。

除了提升专业能力，VLA司机大模型还需解决安全性和模型黑盒问题。理想汽车在强化训练环节投入大量资源，组建超级对齐团队，为司机Agent注入职业素养。同时，结合重建和生成两种路径打造世界模型，覆盖所有交通参与者和要素，让VLA能在世界模型中低成本、准确验证现实问题，有效应对模型黑盒挑战。判断司机Agent好坏有三个关键标准，VLA司机大模型在专业能力、职业能力和构建信任的能力方面都表现出色。

理想汽车发展启示：基本功与正能量

理想汽车实现技术快速跃迁，离不开从研究、研发到能力表达，再到业务价值的基本功积累。研究是关键，突破后研发效率大幅提升，注重价值转化实现业务落地。理想汽车坚持自研，通过技术赋能用户价值，在辅助驾驶等方面取得显著成果。

李想在创业路上也有着积极乐观的心态，他认为创业虽苦，但没必要苦哈哈的，应保留有价值的美好片段激励自己。成为更有能量的人，关键在于关注自我，用成长替代改变，同时重视亲密关系，家人和同事能相互支撑。

理想汽车在智能驾驶领域的探索和突破令人钦佩。它不仅在技术上不断创新，从AI工具层级划分到VLA司机大模型的进化，再到训练和安全保障，都展现出了强大的研发实力和前瞻性的思维。而且，理想汽车坚持自研、注重基本功积累以及积极乐观的创业心态，都值得其他企业学习。在AI时代，理想汽车有望凭借这些优势，在智能驾驶领域持续引领潮流，为用户带来更安全、更便捷的出行体验。