根据马斯克的说法,他的新项目“TruthGPT”带来的人工智能有望拯救世界。但不可否认,这项技术对特斯拉的自动驾驶仪以及汽车行业的未来至关重要。
凭借初创公司X.AI,马斯克希望开发一种新的人工智能(AI)。他称之为“TruthGPT”,暗指微软支持的OpenAI开发的ChatGPT只是语言人工智能。自秋季推出以来,人们一直在讨论这种新型生成式人工智能模型的机遇和可能的风险。像ChatGPT这样的AI模型可以在所有全自动驾驶系统中发挥重要作用。
马斯克采用基于摄像头的自动驾驶方案,全球尚无其他汽车制造商采取同样策略。
特斯拉几年前就停止采用其他支持传感器,如雷达,包括更现代的激光雷达传感器,与此同时,梅赛德斯和谷歌的Waymo机器人出租车服务等都依赖这些传感器。
因此,特斯拉仅通过摄像头图像进行导航。而这个方案可能导致错误的驾驶和事故,甚至致命的严重事故。多年来,马斯克多次承诺在当年年底前推出全自动驾驶汽车,却始终未能实现。特斯拉最终会在新的人工智能模型的支持下取得突破吗?

一种说法认为,人工智能有望显著改善摄像头图像的理解能力,咨询公司凯捷(Capgemini)汽车专家Peter Fintl表示,“在未来,这项技术有望为自动驾驶带来巨大飞跃”。
其中最关键的是transformer。该新颖的算法是ChatGPT等语言模型的核心,也可能是未来自动驾驶计算机的核心。与以往模型相比,具备许多优势。
“transformer能够从未标记的数据中重建有意义的内容,”技术资深人士IBM的AI主管Rob Thomas说。这意味着transformer不仅可以正确解释过去十年人工智能发展中由人类分类的数据。它们还可以处理抽象数据,例如交通标志或车辆轮廓。
只有transformer才能为模型提供所需的环境,使当今的应用成为可能。“transformer是下一代人工智能基本模型的基本组成部分,”托马斯认为。
ChatGPT的例子展示了新算法在实践中可以做什么。人工智能可以更快地分析和理解大量文本。甚至写出听起来像人类的文章或诗歌。
不仅Transformer算法的新分析功能有望取得突破。其生成能力也有助于自动驾驶。换句话说,transformer可以在自动驾驶系统正式上路之前对其进行训练。此时,GPT 也是比较器(comparator)。
GPT 中的 P 代表“预训练”,G 代表“生成”:transformer可以生成文本、声音或图像,因而能够生成“合成”交通数据,例如雪或雨中的停车标志。这些图像可用于训练和改进自动驾驶仪AI。合成图像在自动驾驶系统中变得越来越重要。
每辆特斯拉汽车都有八个摄像头来拍摄交通。它们每秒提供数十张图像,特斯拉的广义视觉系统必须基于这些图片进行评估。因此,该系统产生了令人难以置信的数据量。即使是邮票大小的照片也可以有超过 65,000 像素。
特斯拉自2015年推出Autopilot,并通过其收集图像数据。此外还有2016年推出的FSD系统。仅在FSD部署方面,特斯拉拥有大约2亿英里行驶的数据。特斯拉表示,已经存储超过1600亿张图像。“特斯拉的数据优势无可替代,”马斯克说。“任何了解人工智能的人都明白数据的重要性。马斯克多年来一直在为特斯拉投资人工智能,建造了世界上最强大的计算机之一Dojo。在X.AI方面,他聘请了人工智能名人Igor Babushkin,并从英伟达采购了大量必要的芯片。

来自AI芯片开发商Hailo的Sulkes表示,新的GPT模型将带来重大进步,整个汽车行业都在关注它们。“有了其中一些transformer和足够的数据,它们将达到相当于人类的图像识别水平。但这并不意味着它们将成为全自动驾驶挑战的最终解决方案。
Sulkes怀疑transformer能否解决最困难的问题:“长尾”,许多“边缘情况”,或者复杂交通情况下,以及恶劣天气条件下,例如大雪,雨或雾等。Sulkes警告说,在这些情况下,未来仍然需要额外的传感器,而不仅仅是摄像头。
人工智能的运算和方法是自动驾驶的关键。然而,到目前为止,自动驾驶汽车仍然必须避开城市街道上交通复杂情况。因为迄今为止使用的自动驾驶方法仍然缺乏鲁棒性。希望尤其寄托在计算机视觉领域的进展上。为了使自动驾驶汽车能够全面理解视觉呈现的场景并相应“智能”地采取行动,它必须学会在语义上对场景的各个组成进行加权计算。图像中的哪些像素属于自动驾驶汽车环境前景中的人或物体?哪些像素代表城市景观?

与全景分割(中)相比,非模态全景分割(右)可检测整个物体,包括其在原始图像中的遮挡区域(左)。
“场景理解”任务可以使用深度学习(DL)来解决,深度学习是机器学习(ML)的一个子学科。在大多数机器学习方法(包括深度神经网络)中,学习过程遵循三个步骤的方案:预测、失败和优化。此工具可用于处理图像或文本等复杂数据。基于现有信息和神经网络,深度学习方法可以反复将所学内容与新内容联系起来,从而机器学会独立做出预测或决策,并质疑它们。
与此同时,Abhinav Valada和Rohit Mohan(Berkeley DeepDrive)通过提出所谓的非模态全景分割任务并展示其原则上的可解决性,在自动驾驶汽车类人感知的道路上实现了另一个里程碑。我们人类具有非凡的能力,可以将物体作为一个整体来感知,即使它们的一部分被遮挡。这种能力被称为非模态感知,是我们对世界的感知与其认知理解之间的联系,使我们能够应对日常生活。
ChatGPT在中国被禁止。然而,当地的IT公司正在研究旨在特别推动当地汽车行业的替代方案。
中国公司科大讯飞于5月6日推出了ChatGPT AI的对应产品。从一开始,开发人员就明确表示,他们的产品不仅旨在改善驾驶舱中的语音识别,还可用于汽车行业的工业任务。科大讯飞不仅希望通过其“Spark Desk”改善驾驶体验,还希望彻底改变汽车的研发、设计和制造。

中国汽车门户网站盖世评论道,这些人工智能形式的使用“将很快给汽车行业的研发和生产模式带来根本性的变化”。
例如,LLM(大型语言模型)工具的学习能力及其与现有数据库联网的能力将加强和加速汽车行业的研发,比如在开发阶段以更短的时间测试更多场景。
据多个中国贸易媒体报道,有人认为汽车行业工程师在软件定义汽车的设计、开发和生产中应该试试与LLM工具的合作。LLM将再次从根本上改变人与机器之间交互的深度-在这种情况下,驾驶舱中的汽车。换句话说,多亏了LLM,驾驶舱内的语音助手变成了感知环境的智能副驾驶,并与人类驾驶员和自动驾驶辅助一起做出决定。
一些专家预测,该技术也将越来越多地像自己的操作系统一样运行,从长远来看,这可能会使目前集成在驾驶舱中的许多应用程序变得多余。一些触摸功能可能会过时,HMI交付将发生变化。届时,驾驶员对驾驶功能的需求将越来越少,并且将能够更多地投入到未来“移动起居室”的娱乐功能中。
由于LLM还可以更好地访问和更快地处理“大数据”,因此各种“V2X”应用程序的可能性将同时增加。这意味着单个车辆可以更好地与智能城市及其交通控制中心联网,这在理论上可以改善道路安全及其有效管理。
“特别是在智能驾驶舱、自动驾驶或ADAS以及车路联网这三个领域,LLM将带来更多大动作,”这是对中国人工智能专家看法的总结。