首页 家电百科 实时讯息 常识

李想的“无人区”豪赌:理想VLA背后的AI征途|钛度车库

0次浏览     发布时间:2025-05-09 09:17:00    

理想汽车

去年年底,李想高调宣布将要All in AI,然而当时的AI战略听起来更像一场宏大叙事的开场白——Mind GPT的对话能力、L3自动驾驶的路线图、以及“硅基家人”的终极构想。至于具体的技术路径,仍隐于迷雾当中。

时隔130天,这位掌舵者再次面向公众,用了将近一半的时间拆解VLA(Vision-Language-Action Model,视觉-语言-行为模型)的技术细节,理想的AI战略也开始露出越来越清晰的轮廓。

VLA的概念并非首次出现。早在2023年7月,谷歌DeepMind推出了全球首个控制机器人的VLA模型。如今这一模型概念正快速扩散到智驾领域。今年3月份在英伟达 GTC 大会上,理想首次发布了自己的VLA架构。

对于VLA 的能力,李想坦言,它是否是一个效率最高的方式,是否有效率更高的架构出现,目前还是打问号的阶段。但至少现阶段VLA是最强架构,只有VLA的能力可以接近人类,甚至超越人类。

增程“红海”鏖战

“做VLA,理想走的是一个无人区。Deepseek 没有走过这条路,OpenAl 没有走过这条路,谷歌、Waymo 也没有走过这条路。”李想直言押注VLA技术是一个"无人区"战略。

李想对VLA的执着,本质上是其在行业剧变中寻求生存与突破的必然选择。

尽管2024年理想汽车以50万辆交付量问鼎新势力销冠,但净利润同比下滑31.9%也暴露出发展隐忧。这种矛盾在价格策略上尤为凸显:虽然李想曾公开质疑"降价提升销量"的常规路径,但面对市场竞争压力,一方面去年4月采取降价策略,另一方面让理想L6以25万元以下的定价抢占市场。

这种"以价换量"的策略虽拉动销量增长,却导致单车利润显著低于高端L系列,整体盈利水平被稀释。数据显示,其单车毛利率从21.5%下滑至19.8%,直接拖累净利润表现。

此外,首款纯电车型MEGA的失利更暴露出技术断档风险——既未建立纯电技术护城河,又面临增程用户向纯电迁移的转化困境,2025年5万辆纯电目标远低于比亚迪、特斯拉的布局速度。增程式用户与纯电用户需求的重叠度低,也可能会导致理想在技术路线切换中面临“左右互搏”的困境。

更为致命的是,竞品们正以更激进的技术路径蚕食其核心战场。

华为问界M8/M9增程版、零跑C系列等车型的推出,使增程式市场从“蓝海”转向“红海”。理想L系列依赖的“冰箱彩电大沙发”差异化配置逐渐被效仿,产品溢价能力下降。

2025年,竞争更加激烈。小鹏汽车将于下半年推出增程车型,以“纯电+增程”双线布局争夺家庭用户;蔚来旗下乐道品牌两款新车直指理想L7/L8,李斌公开宣称“价格将更具杀伤力”;华为赋能的智界R7增程版也挤进了战场。增程市场的边际收益衰退已成定局。

这些问题的本质是企业战略换轨的阵痛。从增程市场机会主义者向智能电动长期主义者转型,理想正支付技术路线切换的沉没成本。

短期看,价格战压力与纯电滞后的矛盾仍将延续;长期而言,VLA模型与AI生态的协同效应或是破局关键——若能借技术代差重构竞争维度,在智能化体验与工程落地间找到平衡点,或可打开第二增长曲线,否则或将陷入"规模陷阱",在销量增长与利润萎缩的剪刀差中丧失主动权。

AI实现战略突围?

在这样的背景下,李想布局VLA这条"无人区"技术路线的深层动因不难理解——试图通过技术破局重构竞争维度。

现阶段,智驾市场竞争焦点已从单纯的功能实现转向了更深层次的技术范式竞争。纵观智能驾驶技术的发展历程,技术路线始终处于不断迭代中。从卷积神经网络(CNN)的引入,循环神经网络(RNN)的应用,到结合鸟瞰图(BEV)与Transformer(自注意力机制的神经网络架构)的创新,再到端到端。

眼下,智能驾驶又来到新的十字路口—— VLA。这种架构创新打破了传统自动驾驶系统“感知-规划-控制”的线性逻辑,转而模拟人类司机的思维模式:看见三维世界(3D/2D视觉融合)、理解交通语义(语言模型解析)、推演行动路径(思维链决策)。

“VLA是一个司机大模型,像人类的司机一样去工作的一个模型。”李想解释说。通俗理解,有 VLA 赋能的车不再只是一个驾驶工具,而是一个能与用户沟通、理解用户意图的智能体;能够听得懂、看得见、找得到,一个真正意义上的司机Agent。

不过,VLA的实现也不是一个突变的过程,在他的技术演进框架中,AI智能被划分为昆虫动物智能、哺乳动物智能和人类智能三个阶段。

第一阶段,理想汽车自2021年起自研依赖规则算法和高精地图的辅助驾驶,类似“昆虫动物智能”。

第二阶段,接近“哺乳动物智能”。理想汽车自2023年起研究,并于2024年正式推送的端到端+VLM(Vision Language Model,视觉语言模型)辅助驾驶,此阶段通过三维图像判断自身 速度和轨迹以及在空间中所处的位置,足以应对大部分泛化场景,但很难解决从未遇到过或特别复杂的问题,需要配合视觉语言VLM 模型,但现有视觉语言模型在应对复杂交通环境时只能起到辅助作用。

在端到端的基础上,到第三阶段,VLA将开启“人类智能”的阶段——能通过3D和2D视觉的组合,完整地看到物理世界,而不像VLM仅能解析2D图像。同时,VLA拥有完整的脑系统,仅能看 到物理世界,更能进一步理解物理世界,具有自己的语言和思维链系统,有推理能力,可以像人类一样去执行一些复杂动作 。

“只有让它变成一个真正的司机,它才是一个生产力工具,不只是一个辅助工具。”李想将AI工具分为信息工具、辅助工具和生产工具,在他看来,现阶段人们大多还是把AI当作一个信息工具来用,这是不完美的。L2,L2+也只是把AI当成辅助工具在用,只有当AI成为生产工具时,人工智能才会真正爆发。

超级对齐,防止AI失控

在AI能力跃升的同时,行业也迎来关于“安全性”的拷问。

最近智能驾驶技术安全性被质疑,整个行业被推至舆论风口浪尖,行业普遍面临"能力提升悖论":随着自动驾驶能力的提升,其上限高,下限低的弊端也随之暴露,例如有用户会抱怨在部分路段开的不好,甚至出现危险变道。

这一困局恰与AI的核心命题碰撞在一起——超级对齐的概念由OpenAI在2023年提出,当时是用来解决超级智能AI系统可能带来的风险和挑战。

超级智能是指那些在认知和能力上远超人类的 AI 系统,其潜在应用令人期待,但也带来了前所未有的治理与安全挑战。

超级对齐的目标就是通过设计有效且高效的对齐算法,确保这些超人类智能系统仍然安全、可靠并与人类价值观保持一致。 例如在弯道限速 60 时,其他车辆保持 60kph,而自车保持 30kph,此时自车就成了最危险的车辆,因此为了保证安全性,需要与其他车辆进行速度对齐,以60kph的速度行驶,更符合法规常识。

对此,理想汽车选择双线突破:在技术端,在强化训练环节理想汽车投入大量资源,并于2024年底组建超过100人的超级对齐团队;在系统端,理想还搭建了安全对齐的监控系统,借此确认安全对齐的动作是否有效,同时也能发 现未覆盖到的动作,并通过云端系统来观察现有规则是否帮助到用户,进而确认 有哪些场景需要纳入安全对齐,实现闭环。

李想给出了判断司机Agent是不是个好司机的三个关键标准:专业能力、职业能力和构建信任的能力。

此次AI Talk最深刻的隐喻,是理想汽车身份的重构。当李想已经宣布“我们不是汽车公司,而是人工智能企业”时,其目标已不止于销量竞争,而是争夺智能汽车时代的定义权。这种野心的底气一部分就源自VLA的泛化能力——该模型不仅用于自动驾驶,还可赋能家庭机器人、工业设备等多元场景。

然而,这场豪赌的风险同样清晰可见:元戎启行、吉利汽车都已布局,行业正展开“军备竞赛”,加之用户对AI伦理的信任危机,都在考验理想的工程化能力。但至少在此刻,李想用一场充满技术密度的直播证明:理想已突破传统车企的思维窠臼,在竞争的战场上率先树立起技术坐标。

(本文首发于钛媒体App 作者|韩敬娴 编辑|李玉鹏)