技術與資本的競爭:大車型的出現對自動駕駛意味著什么?
日期:2023-07-08 17:51:59 / 人氣:498
| |WAIC觀察編輯|吳陽宇ChatGPT的出現后,大模型在人工智能領域的地位進一步提升。很多AI應用方向已經開始尋求與大模型的結合,以爭取更高效的產品落地流程,自動駕駛也不例外。7月6日至8日,2023世界人工智能大會在上海舉行。在“AI與車內新一代智能感知創新論壇”上,大模型成為學術界和業界的共同話題。清華大學計算機系教授、清華大學人工智能研究院視覺智能研究中心主任鄧志東從底層技術的角度提出了大模型“云-邊-端”的自動駕駛部署框架,以“ChatGPT/GPT”為云,以垂直BEV(鳥瞰圖)中的多模態GPT為邊,以局部自主和傳感器執行為移動端。其中,云被理解為具有知識理解、預測和決策能力的“大腦”,邊緣被理解為進行動態感知和理解的視覺智能。鄧志東認為,整個過程中最大的挑戰是如何建立一個垂直的多模式GPT。對此,他表示,自動駕駛算法可以設置為一系列任務,包括感知、預測、決策/調節三個主要任務,以及環境監測、在線地圖繪制、多軌跡預測、網格占用預測等一級任務(序列模塊)。解決這些任務有三條路徑:第一條路徑是設置多任務,進行聯合預訓練,但如果這條路徑是以弱人工智能的方式操作,比如不通過語言建模將這一系列數據模塊串聯起來,就可能缺乏語言智能;第二條路徑是建立自己的多模態通用模型?!暗矣X得這件事很有挑戰性,因為我覺得我們現在在中國最大的任務是如何趕上ChatGPT,做出我們自己的GPT 4.0?!彼f,“這已經很棒了,但也很難,目標也很遠大?!钡谌N方法是使用現有的ChatGPT/GPT 4.0構建您自己的垂直多模態GPT。鄧志東說,這種“不完美”的通用語言模型可以作為“骨頭”,能力作為“云”,通過對通用語言模型的微調(知識轉移),在云上做一個操作系統——這也是比較現實的方式。鄧志東認為,后兩種路徑利用了大模型和人類共同的語言智能,而正是這種語言智能可以將順序模塊串聯起來。"沒有多模態語言智能,就沒有靈魂."他說。同時,他列舉了大模型語言智能可以貫穿的各個環節,包括多攝像頭多幀輸入到矢量空間的3D感知等等。此外,鄧志東還列舉了大模型將給自動駕駛帶來的其他影響,包括人車語音的自然交互和基于大模型的長距離安全接管預測,以及自動駕駛產生的閉環數據和云端的AI計算能力需求?!昂喍灾瑢τ诳缃缱詣玉{駛,我們更應該重視大車型的使用?!编囍緰|說,“在進化史上,語言智能是人類和動物的根本區別。因此,通過使用機器模擬和語言智能,我們可以獲得與人類觀察和思維一致的感知、預測、決策和調節能力。同時,我們也可以利用人類的駕駛經驗來完成相應的行為對齊和反饋修正。”事實上,在ChatGPT爆炸之前,大模型已經開始影響自動駕駛領域。極飛科技創始人兼CEO李東旻表示,智能駕駛解決方案第一階段是小模型的疊加,第二階段以特斯拉為代表的大模型+大數據解決方案開始受到關注。特斯拉在自己的AI日發布了transformer+BEV解決方案,引領了行業潮流。“那時候大家都在說BEV+transformer,行業從來沒有達成過這樣的共識?!彼f。但是,從企業的角度來看,李東旻給出了非常實際的想法和建議?!按竽P偷穆涞胤浅7浅@щy。你真的不要低估這件事的技術難度和資金難度?!彼故玖藚⒖继厮估龅臄祿Ρ龋贸觥按笥嬎隳芰κ腔A,大數據是前提”的結論。“如果一個車輛不能收集大量的數據,或者你要花很多錢去收集大數據,(那)就不要做了,把城市的NOA/NGP功能做好其實也是一件好事?!彼岬酱笮吞柕拈g接投入比小型號大幾百倍。這里的間接投入是指購買云服務、計算能力、數據、標簽等很難像硬件成本那樣明確的支出?!耙粡埣す饫走_的照片需要200元,但是各位,訓練一個大模型至少要1億幀起。沒有一億幀,你連打牌的資格都沒有。”李東旻說,“所以不要低估這件事——大模式的確是未來,它一定配得上我們所有人,但我們必須以謙卑的態度去迎接和處理它?!?br />


作者:杏耀注冊登錄測速平臺
新聞資訊 News
- 科學是如何淪為了大國博弈的棋子...11-23
- 大疆“密會”投資機構:不提上市...11-23
- 奧特曼都點贊,谷歌Gemini 3 P...11-23
- 吉爾莫·德爾·托羅《弗蘭肯斯坦...11-23

