av中文字幕观看,亚洲一级一级,91国视频,日本一二三区在线观看,夜夜操女人,亚洲一区二区二区久久成人婷婷,91色九色

清華、北信科、復(fù)旦團(tuán)隊解讀具身智能!大語言模型與世界模型如何讓機(jī)器人懂物理、會思考?

來源:機(jī)器人大講堂

點擊:1497

A+ A-

所屬頻道:新聞中心

關(guān)鍵詞:具身智能 機(jī)器人

    當(dāng)機(jī)器人能像人類一樣理解自然語言指令,還能預(yù)判環(huán)境變化、自主規(guī)避物理風(fēng)險時,通用人工智能的落地似乎不再遙遠(yuǎn)。近日,清華大學(xué)計算機(jī)科學(xué)與技術(shù)系,北京信息科學(xué)與技術(shù)國家研究中心,復(fù)旦大學(xué)可信具身智能研究所聯(lián)合發(fā)布《Embodied AI: From LLMs to World Models》。系統(tǒng)性梳理了具身智能的技術(shù)脈絡(luò),尤其聚焦大語言模型與世界模型的協(xié)同。


    先搞懂什么是具身智能?它和普通AI 有啥不一樣?

    提起AI,很多人會想到只在數(shù)字世界對話的系統(tǒng),或是圖像識別這類被動處理數(shù)據(jù)的工具,這些都屬于離身智能,它們不直接和物理世界互動。



    而具身智能的核心是活在物理世界里:它需要像人一樣,通過傳感器主動感知環(huán)境,用認(rèn)知系統(tǒng)處理經(jīng)驗,再用執(zhí)行器做出動作,形成感知- 認(rèn)知 - 互動的閉環(huán)。就像家里的掃地機(jī)器人能避開桌椅、規(guī)劃清掃路徑、調(diào)整刷子轉(zhuǎn)速,就是一種簡單的具身智能;更復(fù)雜的像救災(zāi)無人機(jī)自主避開障礙物、工業(yè)機(jī)械臂靈活抓取不同零件,都屬于這一范疇。


    該研究團(tuán)隊強(qiáng)調(diào),具身智能的終極目標(biāo)是接近人類級別的通用智能,它不是只解決單一任務(wù),而是能在動態(tài)、不確定的物理世界里自主適應(yīng)。舉個例子,一個具身智能機(jī)器人,既該聽懂把客廳的杯子放到廚房,又該知道杯子是易碎品,還能避開路上的寵物。


    從單感官到多感官,具身智能如何突破局限?

    早期的具身智能更像偏科生,有的只靠視覺導(dǎo)航,有的只靠語言做任務(wù)規(guī)劃,這種單模態(tài)模式有明顯短板。


    單模態(tài)與多模態(tài)具身智能


    純視覺的機(jī)器人,在昏暗環(huán)境或動態(tài)場景里很容易迷路;純語言控制的機(jī)器人,可能會因為沒考慮物理規(guī)律提出離譜指令。



    后來技術(shù)轉(zhuǎn)向多模態(tài)融合:把視覺、語言、觸覺、聽覺等信息整合起來。就像現(xiàn)在的服務(wù)機(jī)器人,既能通過攝像頭看到物體位置,又能通過語言理解用戶需求,還能通過觸覺感知物體重量,這種多模態(tài)能力讓它能更靈活地處理復(fù)雜任務(wù),能夠輕輕拿起裝滿水的玻璃杯。


    研究團(tuán)隊用一張圖形象對比兩者:單模態(tài)是感知、認(rèn)知、互動各管一攤,多模態(tài)則是三者互相配合、信息互通。而推動這一轉(zhuǎn)變的關(guān)鍵,正是大語言模型和世界模型的突破。


    兩大核心技術(shù):大語言模型負(fù)責(zé)懂,世界模型負(fù)責(zé)做

    具身智能要在物理世界生存,需要解決兩個核心問題:理解任務(wù)和符合物理規(guī)律。而大語言模型和世界模型,恰好分別補(bǔ)上這兩個短板。


    1.大語言模型:讓機(jī)器人能聽懂、會規(guī)劃

    大語言模型的核心作用是賦予語義智能,它讓機(jī)器人從只能執(zhí)行固定指令,升級為能理解模糊、復(fù)雜的人類語言,并拆解任務(wù)。


    舉個例子,你跟機(jī)器人說準(zhǔn)備下午茶,大語言模型會先做語義推理,理解下午茶通常包括泡茶、拿點心、擺盤子;再做任務(wù)分解,把大目標(biāo)拆成去廚房拿茶壺、接水、加熱、去冰箱拿蛋糕、放到茶幾等具體步驟。


    該研究團(tuán)隊提到Google 的 SayCan 案例:它給大語言模型搭配真實世界動作庫,避免大語言模型提出不切實際的動作,同時用價值函數(shù)驗證每個動作的可行性。不過早期大語言模型的局限也很明顯,它依賴固定的動作庫,換個新機(jī)器人或新環(huán)境,就可能水土不服。



    多模態(tài)大語言模型


    后來出現(xiàn)的多模態(tài)大語言模型進(jìn)一步突破這個問題。就像PaLM-E、RT-2 這些模型,能直接處理圖像、語言、觸覺等多模態(tài)信息,看到杯子、聽到拿杯子、感知杯子重量,直接輸出控制機(jī)械臂的動作序列,不用再依賴固定動作庫。


    2.世界模型:讓機(jī)器人懂物理、能預(yù)判

    如果說大語言模型負(fù)責(zé)想明白要做什么,世界模型就負(fù)責(zé)想明白這么做會有什么后果,它相當(dāng)于給機(jī)器人建立大腦里的物理世界模擬器。


    具身世界模型發(fā)展路線


    世界模型主要做兩件事:

    構(gòu)建內(nèi)部表征:把傳感器收集的復(fù)雜信息壓縮成結(jié)構(gòu)化的內(nèi)部地圖,包含物體位置、物理屬性、空間關(guān)系。這樣機(jī)器人不用每次都重新觀察世界,就能快速調(diào)用關(guān)鍵信息。


    預(yù)測未來變化:根據(jù)物理規(guī)律預(yù)判動作的后果。比如機(jī)器人想推桌子,世界模型會先模擬推桌子時會不會把上面的杯子碰倒;救災(zāi)無人機(jī)想穿過峽谷,世界模型會預(yù)判氣流會不會讓機(jī)身不穩(wěn)。這種預(yù)判能力,能幫機(jī)器人避開風(fēng)險、提高效率。


    具身智能關(guān)鍵技術(shù)模型


    研究團(tuán)隊提到幾種主流的世界模型架構(gòu):RSSM 擅長處理時序信息,適合做短期動作預(yù)測;JEPA 擅長提取語義特征,適合理解物體屬性;Transformer-based 模型則擅長處理長序列信息,適合復(fù)雜環(huán)境的長期規(guī)劃。


    不過世界模型也有短板,它擅長模擬物理,但不擅長理解抽象語義。它能預(yù)判推杯子會讓杯子移動,但可能聽不懂把杯子送給媽媽里的媽媽是什么意思,這就需要和大語言模型配合。


    大語言模型+ 世界模型,1+1>2 的協(xié)同架構(gòu)

    該研究團(tuán)隊的核心觀點之一是,單獨用大語言模型或世界模型,都無法實現(xiàn)高級具身智能;只有讓兩者結(jié)合,才能打通語義理解和物理執(zhí)行的鴻溝。


    搭載多模態(tài)大語言模型與世界模型的具身智能


    為什么這么說?看兩者的互補(bǔ)性就知道,大語言模型懂語義,但不懂物理。它可能規(guī)劃出讓機(jī)械臂穿過桌子拿東西的步驟,卻不知道這違反物理規(guī)律。世界模型的問題懂物理,但不懂語義。它能預(yù)判推桌子會碰倒杯子,卻不知道為什么要推桌子。


    而兩者結(jié)合后,就能形成語義指導(dǎo)物理,物理約束語義的閉環(huán),大語言模型先根據(jù)用戶需求拆解任務(wù),生成初步動作計劃。世界模型驗證這個計劃是否符合物理規(guī)律,并預(yù)測每個動作的后果。如果計劃有問題,世界模型反饋給大語言模型,大語言模型再調(diào)整計劃。最終生成既符合用戶需求、又符合物理規(guī)律的動作序列,讓執(zhí)行器落地。


    該研究團(tuán)隊舉了EvoAgent 的例子:這個具身智能體用大語言模型做任務(wù)規(guī)劃和自我反思,用世界模型做環(huán)境建模和動作預(yù)測,結(jié)果能在不同環(huán)境里自主完成長期任務(wù),全程不用人類干預(yù)。


    簡單說,大語言模型讓機(jī)器人不糊涂,世界模型讓機(jī)器人不莽撞,兩者結(jié)合,才是具身智能走向?qū)嵱玫年P(guān)鍵。


    從家庭到工業(yè),具身智能已經(jīng)在改變什么?

    以前的服務(wù)機(jī)器人,比如酒店送物機(jī)器人,只能走預(yù)設(shè)路線,遇到客人擋住就會卡殼;現(xiàn)在結(jié)合大語言模型和世界模型的服務(wù)機(jī)器人,能聽懂把水送到302 房間,順便問客人需不需要續(xù)杯,還能實時調(diào)整路線避開行人,甚至能根據(jù)客人的語氣判斷是否需要多送一瓶水。


    研究團(tuán)隊提到的RT-2 機(jī)器人,能根據(jù)視覺信息自主識別杯子、桌子,再結(jié)合語言指令規(guī)劃動作,哪怕杯子的位置和之前訓(xùn)練時不一樣,也能靈活應(yīng)對。


    傳統(tǒng)救災(zāi)無人機(jī)需要人類遠(yuǎn)程操控,在復(fù)雜環(huán)境里很容易失聯(lián),而具身智能無人機(jī),能通過世界模型模擬環(huán)境風(fēng)險,通過大語言模型理解救援指令,自主規(guī)劃安全路徑并傳回受災(zāi)情況。


    在工業(yè)領(lǐng)域,以前的機(jī)械臂,大多是專機(jī)專崗,換個生產(chǎn)線就不能用了,現(xiàn)在結(jié)合大語言模型和世界模型的機(jī)械臂,能通過大語言模型理解生產(chǎn)指令,通過世界模型預(yù)判抓取力度,不用重新編程就能切換任務(wù)。


    具身智能還需要突破哪些難關(guān)?

    現(xiàn)在的具身智能,還需要大量人類標(biāo)注的數(shù)據(jù)或預(yù)訓(xùn)練,未來要實現(xiàn)自主進(jìn)化,機(jī)器人能在新環(huán)境里自主探索,從失敗中學(xué)習(xí),甚至不用人類干預(yù)就能完成長期任務(wù)。


    具身智能對硬件要求很高,機(jī)器人要實時處理多模態(tài)數(shù)據(jù),還要快速做出反應(yīng),這需要更高效的芯片、更低延遲的傳感器。未來的硬件優(yōu)化,會更注重算法-硬件協(xié)同,針對大語言模型和世界模型的計算特點,設(shè)計專用加速器;或者通過模型壓縮,讓復(fù)雜的具身智能算法能在邊緣設(shè)備上運行。


    此外,單一機(jī)器人的能力有限,未來更需要群體具身智能,可以預(yù)見的是,未來場景下會出現(xiàn)多個救災(zāi)無人機(jī)協(xié)同搜索,多個工業(yè)機(jī)械臂配合組裝,甚至機(jī)器人和人類協(xié)同完成任務(wù)。這需要解決群體認(rèn)知問題,讓機(jī)器人知道如何共享環(huán)境信息,如何分配任務(wù),如何應(yīng)對個別機(jī)器人故障。


    具身智能機(jī)器人會直接和人類互動,安全性和可解釋性至關(guān)重要。未來需要讓機(jī)器人的動作可追溯,它為什么要這么做,萬一出錯了如何快速調(diào)整,還要確保它符合人類倫理,比如遇到危險時優(yōu)先保護(hù)人類,而不是完成任務(wù)。


    未來,當(dāng)機(jī)器人能更自主、更安全、更靈活地在物理世界生存時,通用人工智能的夢想,或許就不再遙遠(yuǎn)。而大語言模型和世界模型的結(jié)合,正是這條路上最關(guān)鍵的一步。


    論文地址:https://arxiv.org/pdf/2509.20021v1

    (審核編輯: 光光)

    聲明:除特別說明之外,新聞內(nèi)容及圖片均來自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán),請聯(lián)系我們刪除。