精品乱码一区内射人妻无码-亚洲中文AⅤ中文字幕在线-免费不卡国产福利在线观看-国产综合无码一区二区色蜜蜜

          正在閱讀:重磅!谷歌的這項(xiàng)技術(shù),或顛覆機(jī)器人行業(yè)

          重磅!谷歌的這項(xiàng)技術(shù),或顛覆機(jī)器人行業(yè)

          2023-03-13 09:49:08來源:OFweek機(jī)器人網(wǎng) 關(guān)鍵詞:機(jī)器人智能制造工業(yè)機(jī)器人閱讀量:23818

          導(dǎo)讀:前幾天,谷歌和柏林工業(yè)大學(xué)的團(tuán)隊(duì)推出了史上最大的視覺語言模型——PaLM-E,該模型包含了5620億個(gè)參數(shù),相之前最大模型GPT-3的1750億個(gè)參數(shù),參數(shù)量翻了兩倍多。
            我們的世界正向著科幻大踏步前進(jìn)。
           
            過去幾個(gè)月,ChatGPT的出現(xiàn),引爆了一波人工智能熱潮,這個(gè)強(qiáng)大的聊天機(jī)器人讓我們看到了通用語言模型的生產(chǎn)力前景,只要繼續(xù)迭代下去,有望大大提高人類社會(huì)的生產(chǎn)效率,在諸多行業(yè)產(chǎn)生變革。
           
            而就在我們還在適應(yīng)ChatGPT帶來的變化時(shí),一個(gè)更加重磅的炸彈被引爆了,前幾天,谷歌和柏林工業(yè)大學(xué)的團(tuán)隊(duì)推出了史上最大的視覺語言模型——PaLM-E,該模型包含了5620億個(gè)參數(shù),相之前最大模型GPT-3的1750億個(gè)參數(shù),參數(shù)量翻了兩倍多。
           
            更加重要的是,PaLM-E作為一種多模態(tài)具身視覺語言模型,成功實(shí)現(xiàn)了讓人工智能同時(shí)具備“理解文字”和“讀懂圖片”的能力,它不僅可以理解圖像,還能理解、生成語言,執(zhí)行各種復(fù)雜的機(jī)器人指令而無需重新訓(xùn)練。
           
            可以說,PaLM-E的發(fā)布標(biāo)志著人工智能領(lǐng)域的又一個(gè)重要里程碑,極大地推動(dòng)人工智能技術(shù)的發(fā)展和應(yīng)用,它不僅在技術(shù)上提高了人工智能的水平,在應(yīng)用上,也能為更多領(lǐng)域提供更加智能、更加自主的工具和服務(wù),比如能輕易理解人類指令的智能機(jī)器人或許并不遙遠(yuǎn)了。
           
            視覺-語言多模態(tài)的通才模型
           
            PaLM-E,全稱Pathways Language Model with Embodied,是一種具身視覺語言模型,是PaLM-540B語言模型與ViT-22B視覺Transformer模型的結(jié)合,它的強(qiáng)大之處在于,能夠利用視覺數(shù)據(jù)來增強(qiáng)其語言處理能力。
           
            “PaLM-E是迄今為止已知的最大VLM(視覺語言模型)。我們觀察到諸如多模態(tài)思維鏈推理(允許模型分析包括語言和視覺信息的一系列輸入),只接受單圖像提示訓(xùn)練的多圖像推理(使用多個(gè)圖像作為輸入來做出推理或預(yù)測)等涌現(xiàn)能力。”論文的第一作者、谷歌AI研究員Danny Driess表示。
           
            PaLM-E中的E,即embodied(具身化),是指基于語言模型,PaLM-E能夠直接觀察、利用真實(shí)世界中的信息,比如視覺圖像或傳感器數(shù)據(jù),將它們編碼為一系列與語言標(biāo)記大小相同的向量,不再僅僅依賴于文本輸入,使得機(jī)器人的智能化躍上一個(gè)新的臺(tái)階。
           
            通過具身化功能,PaLM-E能完成即具身推理任務(wù),即讓機(jī)器人在虛擬或真實(shí)的環(huán)境中,通過多模態(tài)的輸入(如語言、視覺、觸覺以及機(jī)器人的3D空間狀態(tài)信息等),完成一些需要常識(shí)和邏輯推理的任務(wù)。
           
            比如你跟機(jī)器人說“幫我把桌上的薯片拿過來”,這就是一個(gè)具身推理任務(wù),不僅需要機(jī)器人理解人類的語言和意圖,還需要機(jī)器人觀察和操作環(huán)境中的物體,以及規(guī)劃一系列的子目標(biāo)和動(dòng)作,具身推理任務(wù)是一個(gè)非常復(fù)雜的領(lǐng)域,涉及到與多模態(tài)語言模型、神經(jīng)符號(hào)系統(tǒng)、對話系統(tǒng)等各方面的技術(shù),PaLM-E也只是初步涉及而已,不過這也已經(jīng)是非常大的進(jìn)步了。
           
            除此之外,PaLM-E還表現(xiàn)出了強(qiáng)大的正遷移能力,即它可以將從一項(xiàng)任務(wù)中學(xué)到的知識(shí)和技能遷移到另一項(xiàng)任務(wù)中,從而與單任務(wù)機(jī)器人模型相比性能明顯提高。
           
            賦機(jī)器人以智能的PaLM-E
           
            PaLM-E不僅可以指導(dǎo)機(jī)器人完成各種復(fù)雜的任務(wù),還可以生成描述圖像的語言,展示了前所未有的靈活性和適應(yīng)性,代表著一次重大飛躍,特別是人機(jī)交互領(lǐng)域。
           
            在測試中,機(jī)器人被要求去抽屜里拿薯片。根據(jù)谷歌的說法,當(dāng)給出一個(gè)高級命令時(shí),比如“把抽屜里的薯片拿給我”,PaLM-E可以為一個(gè)有手臂的移動(dòng)機(jī)器人平臺(tái)生成一個(gè)行動(dòng)計(jì)劃并執(zhí)行自己的行動(dòng)。PaLM-E通過分析來自機(jī)器人相機(jī)的數(shù)據(jù)來實(shí)現(xiàn)這一點(diǎn),而無需對場景進(jìn)行預(yù)處理,這消除了人類預(yù)處理或注釋數(shù)據(jù)的需要,并允許更自主的機(jī)器人控制。
           
            同時(shí)它還具有彈性,可以對環(huán)境做出反應(yīng)。例如,PaLM-E模型可以引導(dǎo)機(jī)器人從廚房取薯片袋,而且,通過將PaLM-E集成到控制回路中,它可以抵抗任務(wù)期間可能發(fā)生的中斷。在一個(gè)視頻示例中,研究人員從機(jī)器人手中抓取薯片并移動(dòng)它們,但機(jī)器人找到薯片并再次抓取它們。
           
            PaLM-E還能識(shí)別圖像,并生成關(guān)于它的文本信息。研究人員寫道,PaLM-E也是一種“有效的視覺語言模型”。例如,它可以識(shí)別圖像中的籃球明星科比·布萊恩特,并可以生成關(guān)于他的文本信息,比如他贏得了多少次冠軍,在另一個(gè)例子中,PaLM-E看到一個(gè)交通標(biāo)志并解釋與之相關(guān)的規(guī)則。
           
            PaLM-E的出現(xiàn)為機(jī)器人領(lǐng)域提供了更強(qiáng)大的工具,機(jī)器人可以更好地理解環(huán)境和交互,從而更加自主地執(zhí)行任務(wù)。例如,在工廠、醫(yī)院、物流中心等場景下,機(jī)器人可以通過PaLM-E更好地識(shí)別目標(biāo)物體、理解工作流程、執(zhí)行任務(wù)等。
           
            結(jié)語
           
            PaLM-E的出現(xiàn)可以說一個(gè)新的拐點(diǎn)已經(jīng)到來,多模態(tài)的融合將成為未來必然的發(fā)展方向,不管是文字,還是圖片,亦或者語音,都耦合到一個(gè)模型中,制造出通用的全能模型。
           
            就如PaLM-E里面提到的,LLM(大語言模型)有個(gè)天然的局限性,就是它只在文本語料中訓(xùn)練,雖然積累了大量的內(nèi)在知識(shí),但無法與真實(shí)世界接觸,文本世界的抽象需要用真實(shí)世界的各種信息去標(biāo)定,因此若想實(shí)現(xiàn)AGI(通用人工智能),必須多模態(tài)。
           
            PaLM-E這種多模態(tài)具身視覺語言模型的出現(xiàn),也將讓人機(jī)交互方式產(chǎn)生變化,以對話方式控制的產(chǎn)品將越來越多,畢竟誰也不想買個(gè)電子產(chǎn)品,就要在手機(jī)里裝個(gè)App,使用時(shí)還要進(jìn)行繁瑣的操作,說一句話就能完成所有的操作,恐怕沒有人會(huì)拒絕。
           
            原標(biāo)題:重磅!谷歌的這項(xiàng)技術(shù),真的要顛覆機(jī)器人行業(yè)
          我要評論
          文明上網(wǎng),理性發(fā)言。(您還可以輸入200個(gè)字符)

          所有評論僅代表網(wǎng)友意見,與本站立場無關(guān)。

          版權(quán)與免責(zé)聲明:

          凡本站注明“來源:智能制造網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智能制造網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本站授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來源:智能制造網(wǎng)”。違反上述聲明者,本站將追究其相關(guān)法律責(zé)任。

          本站轉(zhuǎn)載并注明自其它來源(非智能制造網(wǎng))的作品,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn)或和對其真實(shí)性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如其他媒體、平臺(tái)或個(gè)人從本站轉(zhuǎn)載時(shí),必須保留本站注明的作品第一來源,并自負(fù)版權(quán)等法律責(zé)任。如擅自篡改為“稿件來源:智能制造網(wǎng)”,本站將依法追究責(zé)任。

          鑒于本站稿件來源廣泛、數(shù)量較多,如涉及作品內(nèi)容、版權(quán)等問題,請與本站聯(lián)系并提供相關(guān)證明材料:聯(lián)系電話:0571-89719789;郵箱:1271141964@qq.com。

          不想錯(cuò)過行業(yè)資訊?

          訂閱 智能制造網(wǎng)APP

          一鍵篩選來訂閱

          信息更豐富

          推薦產(chǎn)品/PRODUCT 更多
          智造商城:

          PLC工控機(jī)嵌入式系統(tǒng)工業(yè)以太網(wǎng)工業(yè)軟件金屬加工機(jī)械包裝機(jī)械工程機(jī)械倉儲(chǔ)物流環(huán)保設(shè)備化工設(shè)備分析儀器工業(yè)機(jī)器人3D打印設(shè)備生物識(shí)別傳感器電機(jī)電線電纜輸配電設(shè)備電子元器件更多

          我要投稿
          • 投稿請發(fā)送郵件至:(郵件標(biāo)題請備注“投稿”)1271141964.qq.com
          • 聯(lián)系電話0571-89719789
          工業(yè)4.0時(shí)代智能制造領(lǐng)域“互聯(lián)網(wǎng)+”服務(wù)平臺(tái)
          智能制造網(wǎng)APP

          功能豐富 實(shí)時(shí)交流

          智能制造網(wǎng)小程序

          訂閱獲取更多服務(wù)

          微信公眾號(hào)

          關(guān)注我們

          抖音

          智能制造網(wǎng)

          抖音號(hào):gkzhan

          打開抖音 搜索頁掃一掃

          視頻號(hào)

          智能制造網(wǎng)

          公眾號(hào):智能制造網(wǎng)

          打開微信掃碼關(guān)注視頻號(hào)

          快手

          智能制造網(wǎng)

          快手ID:gkzhan2006

          打開快手 掃一掃關(guān)注
          意見反饋
          我要投稿
          我知道了