梳理了國(guó)外具身智能產(chǎn)業(yè)發(fā)展情況,總結(jié)了我國(guó)具身智能產(chǎn)業(yè)發(fā)展情況、 面臨的問題,分析了全球具身智能產(chǎn)業(yè)發(fā)展趨勢(shì),以及具身智能應(yīng)用發(fā)展面臨的安全威脅
工業(yè)制造領(lǐng)域,具身智能憑借其獨(dú)特優(yōu)勢(shì)提高了生產(chǎn)效率、保障產(chǎn)品質(zhì)量;醫(yī)療服務(wù)領(lǐng)域,具身智能產(chǎn)品能從精準(zhǔn)醫(yī)療和高效護(hù)理兩方面發(fā)揮獨(dú)特優(yōu)勢(shì);智能家居領(lǐng)域帶來智能化變革
機(jī)器人大模型的進(jìn)展從RT-1實(shí)現(xiàn)端到端動(dòng)作輸出,再到PaLM-E 、RT2將多模態(tài)感知能力融合至統(tǒng)一模型空間,大模型已逐步具備“看圖識(shí)意、理解任務(wù)、生成動(dòng)作”的完整 鏈條
多模態(tài)具身語言模型PaLM-E展現(xiàn)出優(yōu)秀的泛化能力和任務(wù)遷移性能;RT2采用經(jīng)動(dòng)作信息訓(xùn)練的VLA 模型,輸出1-5Hz 的動(dòng)作序列;π0/π0-Fast/π0.5: 引入動(dòng)作專家,輸出50Hz 動(dòng)作軌跡
多模態(tài)大模型的突破,機(jī)器人首次具備了“感知—理解—決策”的潛力,通過融合圖像/視頻與語言等模態(tài)信息構(gòu)建起跨模態(tài)的統(tǒng)一表征體系,機(jī)器人模型的核心迭代方向,是將動(dòng)作模態(tài)融入現(xiàn)有的視覺語言模型
梳理了部分布局者的大模型及本體進(jìn)展,對(duì)比本體廠、大廠和獨(dú)角獸公司的大模型技術(shù)路徑及進(jìn)展;各公司對(duì)垂直行業(yè)的深度理解、豐富場(chǎng)景和海量數(shù)據(jù),實(shí)現(xiàn)具身智能在垂直場(chǎng)景的率先落地
異構(gòu)數(shù)據(jù)協(xié)同訓(xùn)練是如何讓機(jī)器人從別人的經(jīng)驗(yàn)中學(xué)習(xí);兩階段訓(xùn)練為機(jī)器人打造通用大腦與專業(yè)小腦;真實(shí)家庭環(huán)境驗(yàn)證在“整理抽屜”、“收集衣物”、“洗碗”等任務(wù)中表現(xiàn)
商超大模型機(jī)器人在仿真器中復(fù)現(xiàn)一個(gè)極度擁擠且充滿變數(shù)的零售商超環(huán)境。其實(shí)現(xiàn)聚焦三個(gè)關(guān)鍵模塊:程序化商店與動(dòng)態(tài)消耗模擬(環(huán)境構(gòu)建)、海量資產(chǎn)與幾何物理優(yōu)化(底層加速)、長(zhǎng)程任務(wù)與基準(zhǔn)評(píng)測(cè)體系(驗(yàn)證閉環(huán))
軟體具身適配與多視角構(gòu)建,設(shè)置了傳統(tǒng)的剛性機(jī)械臂和軟體機(jī)器人;大模型的部署與性能對(duì)抗;模型控制軟體機(jī)器人執(zhí)行極高風(fēng)險(xiǎn)的“給人類嘴里喂棉花糖”任務(wù)
大模型機(jī)器人通過準(zhǔn)確識(shí)別-三維定位-輕柔采摘大幅提升采摘效率與品質(zhì);大模型機(jī)器人通過實(shí)時(shí)感知與動(dòng)態(tài)決策,實(shí)現(xiàn)按需調(diào)控、準(zhǔn)確供給;大模型機(jī)器人通過早期監(jiān)測(cè)與準(zhǔn)確防控,有效降低病蟲害損失
大模型機(jī)器人能理解復(fù)雜、口語化的指令,支持多輪對(duì)話和上下文記憶;實(shí)現(xiàn)跨模態(tài)信息整合;大模型機(jī)器人可將指令拆解為可執(zhí)行步驟;具備在線學(xué)習(xí)能力,能不斷優(yōu)化行為策略
中南大學(xué)湘雅江西醫(yī)院 常州市第一人民醫(yī)院 咸寧市中心醫(yī)院 蘇州大學(xué)理想眼科醫(yī)院 山西省眼科醫(yī)院 靖江市人民醫(yī)院 珠海市人民醫(yī)院高新醫(yī)院 北京兒童醫(yī)院保定醫(yī)院 北京協(xié)和醫(yī)院/武漢同濟(jì)醫(yī)院 北京301醫(yī)院