【EV视界综合报道】2024年7月5日,2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)于7月4日-7月7日在上海举行。商汤绝影携多款基于全新发布的商汤「日日新5.5」原生多模态大模型打造的智能驾驶和智能座舱产品亮相本届WAIC,引领「以人为本」的智能汽车交互革新。
作为加速智能汽车驶入AGI时代的战略合作伙伴,商汤绝影展示了可解释、可交互的自动驾驶大模型DriveAGI,同时还发布了行业首个车载生成式交互界面 「随心界面」(FlexInterface)、「随意操控」(AgentFlow)等车载AI Agent应用。此外,商汤绝影自动驾驶小巴也亮相本届WAIC,并成为大会唯一承担接驳任务的L4级别自动驾驶小巴。
在7月5日由WAIC 2024战?略合作伙伴商汤科技召开的「大爱无疆·向新力」人工智能论坛上,商汤科技发布国内首个所见即所得模型「日日新5o」,实时流式多模态交互体验对标GPT-4o,展现采用混合端云协同专家架构的商汤「日日新5.5」大模型的强大实力。商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚表示,“原生多模态大模型是打开AGI大门的钥匙,商汤绝影正在激发AGI创造力,推动多模态大模型与智能汽车的深度融合,打造一系列全新的车载智能化产品,加速智能汽车向超级智能体进化,引领一场「以人为本」的智能汽车交互的变革。”
王晓刚在「大爱无疆·向新力」论坛分享商汤绝影最新的技术和产品进展
真·「以人为本」,商汤绝影多模态大模型引领智能汽车交互革新
多模态大模型能够将语音、文字、图像、手势、视频等各种模态进行高效且深度地融合,提供更加丰富且自然的人机交互体验。
过去许多模型处理不同模态信息是先把语音等输入转化为文字,文字和图像结合进行分析,输出反馈也是先生成文字,根据文字再生成语音输出,会有大量信息丢失和很高的延迟。
由「日日新5.5」体系支持的全新商汤多模态大模型是一种端到端的模型,也就是文字、语音、视频等模态一同输入,模型统一处理后输出相应模态的信息,相较于过去的方案,多模态融合的技术难度是几何倍数的提升。
技术上的高难度是商汤行业领先的原生多模态能力的直接体现。今年4月发布的「日日新5.0」是国内首个对标GPT-4 Turbo的国产大模型,「日日新5.5」体系更是全面升级,数学推理、英文能力和指令跟随等能力明显增强,交互效果和多项核心指标实现对标GPT-4o。
此前GPT-4o的发布为消费者展示了多模态实时交互的方式,让更多人领略多模态感知和交互的魅力,也开始帮助释放多模态大模型的商业落地想象空间。
相较于手机,智能汽车才是更适合承载多模态大模型的落地场景。因为智能汽车内外的各种摄像头是常开的,用户可以实时跟汽车通过多模态的方式进行交互。同时,智能汽车的保有量不断增加,能够产生丰富的终端用户反馈和数据信息,让模型不断迭代成长。
这些因素综合展现了一个令人激动的未来智能汽车发展方向:从智能汽车正在进化为超级智能体,多模态大模型则是这一进程的核心驱动力。
和OpenAI等公司相比,商汤绝影是智能汽车的核心供应商,在智能驾驶和智能座舱领域具备丰富的量产经验,将以多模态大模型为核心加速「以人为本」的智能汽车交互革新。
智能汽车的人机交互正在从「以车为中心」向「以人为中心」转型。在这个转型中,现阶段用户仍需用文本或语音给智能汽车提供信息和数据以获取被动式的服务,其他的信息都丢失了,尚未真正做到主动服务用户。商汤绝?影正在用多模态大模型打造真·「以人为中心」的智能汽车交互方式,这种交互覆盖了座舱、汽车周边的环境,让有关于“人”的信息不会被忽视,甚至它还突破了空间的限制,实现舱内用户与更广阔的物理和数字世界的联接。
商汤绝影在行业率先实现原生多模态大模型的车端部署
商汤绝影车载端侧8B多模态模型性能行业领先
车端模型部署能力是智能汽车交互革新不可或缺的技术保障,商汤绝影能够以云侧、端云结合、端侧等全栈方式灵活部署多模态大模型,让商汤原生多模态能力能够快速落地智能汽车。
在本届WAIC上,商汤绝影在行业率先实现原生多模态大模型的车端部署,并对外展示了在3个不同算力平台上运行2.1B或8B端侧多模态大模型的适配能力。相较于动辄就有几秒钟延迟的云上部署方案,商汤绝影车载端侧8B多模态模型可以实现首包延迟低至300毫秒以内,推理速度40Tokens/秒,为「以人为本」的智能汽车交互革新保驾护航。
DriveAGI可解释、可交互,多模态让端到端智驾安全可信赖
2022年底,商汤及其联合实验室提出了行业首个感知决策一体化自动驾驶通用模型UniAD,并在次年荣获2023年国际计算机视觉与模式识别会议(CVPR)最佳论文,今年北京车展,商汤绝影展示了UniAD的实车上路成果,持续引领端到端自动驾驶的创新潮流。
北京车展以来,UniAD稳步前行,通过持续的数据采集、真值生产、模型训练、实车测试,UniAD系统稳定性大幅增强,体验连续性和舒适性不断提升。在本届WAIC上,商汤绝影展示了只搭载7个摄像头的UniAD,在无图情况下实现城区复杂道路、乡村小路等场景一镜到底的实车演示,端到端智驾模型持续迭代进化。
UniAD显著提升了智驾系统的驾驶能力,但纯粹的端到端自动驾驶模型不是自动驾驶的最终答案,进一步具备对开放世界的感知、推理、决策及交互能力,将是智能汽车走向超级智能体的重要标志。因此,商汤绝影开创性地研发了首个应用于驾驶决策规划的智驾大模型,即基于多模态大模型打造的DriveAGI,让端到端智驾可解释、可交互。
DriveAGI增强了端到端系统的可解释性,不仅让车辆能够更像人一样理解复杂的现实世界,洞察各类交通参与者的行为动机,快速学习各种交通规则,掌握瞬息万变的道路信息,还能向用户解释驾驶决策的推理过程。
目前,商汤绝影DriveAGI智驾大模型能在无限宽标识的道路上,安全顺利穿过两个石墩形成的狭窄通道;它还能准确辨识并理解包括公交车道、潮汐车道及施工车道等各类交通标识,并自主进行变道或规避,甚至当后方有救护车接近时,DriveAGI会进行思考推理,最终进行及时变道避让。
DriveAGI不仅能识别救护车,还能做到主动让行执勤救护车
多模态大模型还赋予了DriveAGI强大的可交互性,用户不仅可以通过问询让DriveAGI解释自己的决策过程,还能通过语音或手势指令来控制自动驾驶行为。例如,未来在自动驾驶状态下,导航指示车辆需在下个路口调头以抵达目的地,但驾驶员知晓可在前方有近路可以直接转弯,那么他只需对系统说出「直接左拐」,系统便会根据当前路况来执行这一指令。
UniAD和DriveAGI智驾大模型的惊艳表现依赖于商汤绝影强大的模型能力,同时也需要大量的高质量数据支持学习和训练。作为「新质生产力」,以多模态为代表的大模型极大提高了端到端智驾训练、迭代的生产效率。
以真实的多模态数据为基础,商汤绝影的世界模型、交通流仿真大模型等一系列云端大模型源源不断生产出高质量数据,同时通过各个大模型之间相互协同,实现场景生产、交通流仿真、真值生产、系统诊断等能力,打造出智驾大模型时代的端到端数据闭环,为端到端自动驾驶方案的落地与进化提供有力的保障。
多模态融入智能座舱,让智能汽车成为你的专属「贾维斯」
今天的智能汽车配备了丰富且强大的硬件,能够为用户打造一个独立的交互环境,它是AGI落地的最佳场景。面向智能座舱,商汤绝影充分释放多模态大模型强大感知和交互能力,激发更多想象空间。
依靠行业领先的多模态能力,商汤绝影正在打造多模态大模型引擎产品「座舱大脑」(CockpitBrain),构建一系列AI大模型座舱产品矩阵,让钢铁侠的人工智能帮手「贾维斯」走进智能汽车,成为每一个用户的AI出行伙伴。
在本届 WAIC上,商汤绝影正式发布行业首个生成式交互界面产品「随心界面」(FlexInterface)以及「随意操控」(AgentFlow)等多个车载 AI Agent,旨在通过AI技术,彻底改变用户与车载系统的交互方式。
依托于 AI 大模型的即时生成和修改交互界面的能力,FlexInterface在大模型解析用户需求的基础上,结合设计系统的框架和范式,实现高度动态和个性化的界面生成。无论是天气、时间、节日、纪念日,还是周围环境变化,FlexInterface 都能自动变换界面风格,提供最佳用户体验。
AgentFlow 通过大模型的推理能力,模拟人类点击操作,实现对APP和网站的直接操作。用户只需使用自然语言,就能让AI自主选择多个工具完成复杂任务,无需主机厂进行额外的研发适配。这种能力不仅提升了操作的便捷性,还极大地扩展了车载系统的功能范围。例如,用户能让AgentFlow自动搜索并预约适合看球的酒吧,提供从搜索到预订的一站式服务。
在商汤绝影的现场演示中,用户通过FlexInterface生成了一个「欧洲杯」风格的主题,大模型自动生成具备欧洲杯元素的中控屏幕桌面和图标;同时,用户还能通过AgentFlow随时播放欧洲杯或足球相关的音乐,展示了这些创新产品在实际应用中的强大能力和灵活性。
FlexInterface通过大模型生成的「欧洲杯」主题的车载界面
除此之外,本届WAIC上,商汤绝影在传统智能汽车「哨兵模式」的基础上打造了「多模态哨兵」, 能够全面理解并应对开放世界中可能对车辆造成损害的各种潜在随机危险行为,诸如划车、喷涂车身、拍打砸车、拉拽门把手、撬门以及踹车等,确保车辆安全无死角。
在多模态大模型的助力下,商汤绝影将让智能汽车成为用户的专属「贾维斯」,让智能汽车向着超级智能体的形态又迈进了一步。
量产全面开花,开辟出行新范式,加速驶入AGI时代
作为加速智能汽车驶入AGI时代的战略合作伙伴,商汤绝影不只是在大模型技术上领航新时代,产品化量产落地也已经全面开花。
在智能座舱领域,商汤绝影的大模型产品已经在多家主流汽车制造企业的量产车型中得到广泛应用。例如,商汤的大模型已全面助力小米SU7的小爱语音助手车载语音场景应用。
6月25日,翼真 L380正式上市,行业领先的最新版本商汤「日日新」大模型实现量产上车,基于「商量」大语言模型和「秒画」文生图模型,商汤绝影为翼真 L380定制化打造了「AI闲聊」、「美图壁纸」、「童话绘本」、「AI问诊」等AI大模型座舱产品和功能,助力「陆地空客」升维智能座舱体验。
在智能驾驶领域,商汤绝影的量产智驾产品已落地包括广汽埃安LX Plus、合众哪吒S、广汽昊铂GT、红旗等品牌及车型,高速NOA等功能也开始落地,同时绝影还在推进更多车型交付,已具备了从感知到规控的全栈智驾技术量产交付能力。6月初,广汽和一汽入选国内首批L3试点项目,商汤绝影为他们提供面向L3的感知算法。不止如此,商汤绝影目前的多个量产智驾方案在未来均可升级为端到端架构。
更高阶的L4自动驾驶领域,商汤绝影自动驾驶小巴成为WAIC 2024唯一承担接驳任务的L4级别自动驾驶小巴,提供多个地点之间的需求响应式自动驾驶巴士出行体验。
这背后是商汤绝影硬核的技术实力和强大的落地运营能力。目前,绝影L4级别的自动驾驶小巴的测试与运营总里程累计已超3,000,000公里,并在江苏无锡、陕西西咸新区等多地开展自动驾驶接驳服务。
在上海临港,绝影L4级自动驾驶小巴已经面向公众进行日常运营。商汤绝影与上海临港新片区公共交通有限公司共同打造的智能网联公交场景,采用“响应式公交”模式按需响应,已实际投入的医疗专线和上海海洋大学专线,预约乘坐人数累计已超过16,000人次。
商汤绝影的大模型产品正在融入智能汽车和智慧出行的方方面面,开辟全新的出行范式,加速智能汽车驶入AGI时代。