DriveAGI可解释、可交互,多模态让端到端智驾安全可信赖
2022年底,商汤及其联合实验室提出了行业首个感知决策一体化自动驾驶通用模型UniAD,并在次年荣获2023年国际计算机视觉与模式识别会议(CVPR)最佳论文,今年北京车展,商汤绝影展示了UniAD的实车上路成果,持续引领端到端自动驾驶的创新潮流。
北京车展以来
,UniAD稳步前行,通过持续的数据采集、真值生产、模型训练、实车测试,UniAD系统稳定性大幅增强,体验连续性和舒适性不断提升。在本届WAIC上,商汤绝影展示了只搭载7个摄像头的UniAD,在无图情况下实现城区复杂道路、乡村小路等场景一镜到底的实车演示,端到端智驾模型持续迭代进化。
UniAD显著提升了智驾系统的驾驶能力,但纯粹的端到端自动驾驶模型不是自动驾驶的最终答案,进一步具备对开放世界的感知、推理、决策及交互能力,将是智能汽车走向超级智能体的重要标志。因此,商汤绝影开创性地研发了首个应用于驾驶决策规划的智驾大模型,即基于多模态大模型打造的DriveAGI,让端到端智驾可解释、可交互。
DriveAGI增强了端到端系统的可解释性,不仅让车辆能够更像人一样理解复杂的现实世界,洞察各类交通参与者的行为动机,快速学习各种交通规则,掌握瞬息万变的道路信息,还能向用户解释驾驶决策的推理过程。
目前
,商汤绝影DriveAGI智驾大模型能在无限宽标识的道路上,安全顺利穿过两个石墩形成的狭窄通道;它还能准确辨识并理解包括公交车道、潮汐车道及施工车道等各类交通标识,并自主进行变道或规避,甚至当后方有救护车接近时,DriveAGI会进行思考推理,最终进行及时变道避让。
DriveAGI不仅能识别救护车,还能做到主动让行执勤救护车
多模态大模型还赋予了
DriveAGI强大的可交互性,用户不仅可以通过问询让DriveAGI解释自己的决策过程,还能通过语音或手势指令来控制自动驾驶行为。例如,未来在自动驾驶状态下,导航指示车辆需在下个路口调头以抵达目的地,但驾驶员知晓可在前方有近路可以直接转弯,那么他只需对系统说出「直接左拐」,系统便会根据当前路况来执行这一指令。
UniAD和DriveAGI智驾大模型的惊艳表现依赖于商汤绝影强大的模型能力,同时也需要大量的高质量数据支持学习和训练。作为「新质生产力」,以多模态为代表的大模型极大提高了端到端智驾训练、迭代的生产效率。
以真实的多模态数据为基础
,商汤绝影的世界模型、交通流仿真大模型等一系列云端大模型源源不断生产出高质量数据,同时通过各个大模型之间相互协同,实现场景生产、交通流仿真、真值生产、系统诊断等能力,打造出智驾大模型时代的端到端数据闭环,为端到端自动驾驶方案的落地与进化提供有力的保障。
多模态融入智能座舱
,让智能汽车成为你的专属「贾维斯」
今天的智能汽车配备了丰富且强大的硬件
,能够为用户打造一个独立的交互环境,它是AGI落地的最佳场景。面向智能座舱,商汤绝影充分释放多模态大模型强大感知和交互能力,激发更多想象空间。
依靠行业领先的多模态能力
,商汤绝影正在打造多模态大模型引擎产品「座舱大脑」(CockpitBrain),构建一系列AI大模型座舱产品矩阵,让钢铁侠的人工智能帮手「贾维斯」走进智能汽车,成为每一个用户的AI出行伙伴。
在本届
WAIC上,商汤绝影正式发布行业首个生成式交互界面产品「随心界面」(FlexInterface)以及「随意操控」(AgentFlow)等多个车载 AI Agent,旨在通过AI技术,彻底改变用户与车载系统的交互方式。
依托于
AI 大模型的即时生成和修改交互界面的能力,FlexInterface在大模型解析用户需求的基础上,结合设计系统的框架和范式,实现高度动态和个性化的界面生成。无论是天气、时间、节日、纪念日,还是周围环境变化,FlexInterface 都能自动变换界面风格,提供最佳用户体验。
AgentFlow 通过大模型的推理能力,模拟人类点击操作,实现对APP和网站的直接操作。用户只需使用自然语言,就能让AI自主选择多个工具完成复杂任务,无需主机厂进行额外的研发适配。这种能力不仅提升了操作的便捷性,还极大地扩展了车载系统的功能范围。例如,用户能让AgentFlow自动搜索并预约适合看球的酒吧,提供从搜索到预订的一站式服务。
在商汤绝影的现场演示中
,用户通过FlexInterface生成了一个「欧洲杯」风格的主题,大模型自动生成具备欧洲杯元素的中控屏幕桌面和图标;同时,用户还能通过AgentFlow随时播放欧洲杯或足球相关的音乐,展示了这些创新产品在实际应用中的强大能力和灵活性。
FlexInterface通过大模型生成的「欧洲杯」主题的车载界面
除此之外
,本届WAIC上,商汤绝影在传统智能汽车「哨兵模式」的基础上打造了「多模态哨兵」, 能够全面理解并应对开放世界中可能对车辆造成损害的各种潜在随机危险行为,诸如划车、喷涂车身、拍打砸车、拉拽门把手、撬门以及踹车等,确保车辆安全无死角。
在多模态大模型的助力下
,商汤绝影将让智能汽车成为用户的专属「贾维斯」,让智能汽车向着超级智能体的形态又迈进了一步。
量产全面开花
,开辟出行新范式,加速驶入AGI时代
作为加速智能汽车驶入
AGI时代的战略合作伙伴,商汤绝影不只是在大模型技术上领航新时代,产品化量产落地也已经全面开花。
在智能座舱领域
,商汤绝影的大模型产品已经在多家主流汽车制造企业的量产车型中得到广泛应用。例如,商汤的大模型已全面助力小米SU7的小爱语音助手车载语音场景应用。
6月25日,翼真 L380正式上市,行业领先的最新版本商汤「日日新」大模型实现量产上车,基于「商量」大语言模型和「秒画」文生图模型,商汤绝影为翼真 L380定制化打造了「AI闲聊」、「美图壁纸」、「童话绘本」、「AI问诊」等AI大模型座舱产品和功能,助力「陆地空客」升维智能座舱体验。
在智能驾驶领域
,商汤绝影的量产智驾产品已落地包括广汽埃安LX Plus、合众哪吒S、广汽昊铂GT、红旗等品牌及车型,高速NOA等功能也开始落地,同时绝影还在推进更多车型交付,已具备了从感知到规控的全栈智驾技术量产交付能力。6月初,广汽和一汽入选国内首批L3试点项目,商汤绝影为他们提供面向L3的感知算法。不止如此,商汤绝影目前的多个量产智驾方案在未来均可升级为端到端架构。
更高阶的
L4自动驾驶领域,商汤绝影自动驾驶小巴成为WAIC 2024唯一承担接驳任务的L4级别自动驾驶小巴,提供多个地点之间的需求响应式自动驾驶巴士出行体验。
这背后是商汤绝影硬核的技术实力和强大的落地运营能力。目前
,绝影L4级别的自动驾驶小巴的测试与运营总里程累计已超3,000,000公里,并在江苏无锡、陕西西咸新区等多地开展自动驾驶接驳服务。
在上海临港
,绝影L4级自动驾驶小巴已经面向公众进行日常运营。商汤绝影与上海临港新片区公共交通有限公司共同打造的智能网联公交场景,采用“响应式公交”模式按需响应,已实际投入的医疗专线和上海海洋大学专线,预约乘坐人数累计已超过16,000人次。
商汤绝影的大模型产品正在融入智能汽车和智慧出行的方方面面
,开辟全新的出行范式,加速智能汽车驶入AGI时代。
商业
门户;
|