您的位置：首頁(yè) > 熱點(diǎn) > 正文

當(dāng)前關(guān)注：AI見(jiàn)聞日?qǐng)?bào)：將上下文學(xué)習(xí)能力從語(yǔ)言遷移到視覺(jué)，MetaVL開(kāi)啟下一個(gè)多模態(tài)時(shí)代 | 見(jiàn)智研究

來(lái)源：華爾街見(jiàn)聞時(shí)間：2023-06-06 21:21:48

今日要點(diǎn)：

1、蘋果在 iOS17 中加入transformer語(yǔ)言模型，用于提高文字和語(yǔ)音轉(zhuǎn)文字時(shí)的準(zhǔn)確性。

2、蘋果開(kāi)發(fā)人員：Vision Pro里用了“腦機(jī)接口”，通過(guò)檢測(cè)眼睛等準(zhǔn)確預(yù)測(cè)用戶下一步要做什么

【資料圖】

3、MetaVL: 將上下文學(xué)習(xí)能力從語(yǔ)言模型遷移到視覺(jué)，開(kāi)啟下一個(gè)多模態(tài)時(shí)代

4、Runway獲得1億美元D輪融資，谷歌領(lǐng)投

見(jiàn)聞視角

海外AI

1、蘋果在ios17中加入transformer語(yǔ)言模型，用于提高文字和語(yǔ)音轉(zhuǎn)文字時(shí)的準(zhǔn)確性。

蘋果在今日更新的ios系統(tǒng)介紹中，闡述了使用transformer語(yǔ)言模型，用于提高文字和語(yǔ)音轉(zhuǎn)文字時(shí)的準(zhǔn)確性，通過(guò)用于單詞預(yù)測(cè)——提高了用戶每次鍵入時(shí)的體驗(yàn)和準(zhǔn)確性。而這個(gè)模型如同蘋果一直以來(lái)強(qiáng)調(diào)對(duì)用戶的隱私保護(hù)一樣，是在手機(jī)端的模型。

見(jiàn)智研究認(rèn)為，蘋果使用transformer模型用于一些基礎(chǔ)應(yīng)用符合蘋果一直以來(lái)的務(wù)實(shí)精神，蘋果從不強(qiáng)調(diào)某項(xiàng)技術(shù)是否先進(jìn)，而是要在用戶體驗(yàn)上做到極致。這也是蘋果一直強(qiáng)調(diào)技術(shù)落地到應(yīng)用的體現(xiàn)。

見(jiàn)智研究相信蘋果設(shè)備在明年將會(huì)擁有自己的llm模型，而這個(gè)模型按照蘋果一貫的隱私保護(hù)模式，應(yīng)為純本地化的模型。

2、蘋果開(kāi)發(fā)人員：Vision Pro里用了“腦機(jī)”，通過(guò)檢測(cè)眼睛準(zhǔn)確預(yù)測(cè)用戶下一步要做什么

一位在AR/VR領(lǐng)域工作十年、擔(dān)任蘋果AR神經(jīng)技術(shù)研究員的網(wǎng)友Sterling Crispin發(fā)推文，介紹了蘋果AR的神經(jīng)技術(shù)研發(fā)

根據(jù)Crispin的介紹和蘋果的專利說(shuō)明，蘋果的神經(jīng)技術(shù)可以做到預(yù)測(cè)用戶行為、根據(jù)用戶狀態(tài)調(diào)整虛擬環(huán)境。

最酷的結(jié)果是在用戶實(shí)際點(diǎn)擊之前預(yù)測(cè)他們會(huì)點(diǎn)擊什么，人們的瞳孔在點(diǎn)擊之前往往有反應(yīng)，原因是人們會(huì)期望在點(diǎn)擊之后會(huì)發(fā)生什么。

這時(shí)可以通過(guò)監(jiān)測(cè)用戶的眼睛行為來(lái)創(chuàng)造生物反饋，并實(shí)時(shí)重新設(shè)計(jì)用戶界面，以創(chuàng)造更多預(yù)期的瞳孔反應(yīng)。這是一個(gè)通過(guò)眼睛實(shí)現(xiàn)的粗略“腦機(jī)接口”，用戶不用接受侵入性的腦部外科手術(shù)。

推斷認(rèn)知狀態(tài)的其他技術(shù)，包括以用戶可能無(wú)法察覺(jué)的方式向他們快速閃現(xiàn)視覺(jué)或聲音，然后測(cè)量他們的反應(yīng)。

見(jiàn)智研究認(rèn)為，蘋果通過(guò)全新的神經(jīng)技術(shù)對(duì)人的行為進(jìn)行預(yù)測(cè)，從而大幅減小了vision產(chǎn)品整個(gè)UI操作的延遲，大幅提升用戶體驗(yàn)。從無(wú)數(shù)細(xì)節(jié)中可以看到，蘋果在用搬山能力處理每一個(gè)細(xì)節(jié)，這個(gè)軟硬整合能力，不是誰(shuí)能可以隨便模仿的，它所體現(xiàn)的每一個(gè)細(xì)節(jié)，都看出蘋果花費(fèi)巨大的功夫在解決交互體驗(yàn)。這也是蘋果之所以偉大的地方。

3、MetaVL: 將上下文學(xué)習(xí)能力從語(yǔ)言模型遷移到視覺(jué)，開(kāi)啟下一個(gè)多模態(tài)時(shí)代

動(dòng)機(jī)：研究如何在視覺(jué)-語(yǔ)言領(lǐng)域?qū)崿F(xiàn)上下文學(xué)習(xí)，將單模態(tài)的元學(xué)習(xí)知識(shí)轉(zhuǎn)移到多模態(tài)中，以提高大規(guī)模預(yù)訓(xùn)練視覺(jué)-語(yǔ)言(VL)模型的能力。方法：首先在自然語(yǔ)言處理(NLP)任務(wù)上元訓(xùn)練一個(gè)語(yǔ)言模型，實(shí)現(xiàn)上下文學(xué)習(xí)，然后通過(guò)連接一個(gè)視覺(jué)編碼器將該模型轉(zhuǎn)移到視覺(jué)-語(yǔ)言任務(wù)上，以實(shí)現(xiàn)跨模態(tài)的上下文學(xué)習(xí)能力的轉(zhuǎn)移。優(yōu)勢(shì)：實(shí)驗(yàn)證明，跨模態(tài)的上下文學(xué)習(xí)能力可以轉(zhuǎn)移，該模型顯著提高了視覺(jué)-語(yǔ)言任務(wù)上的上下文學(xué)習(xí)能力，并且在模型大小方面能夠有顯著的優(yōu)化，例如在VQA、OK-VQA和GQA上，所提出方法在參數(shù)數(shù)量減少約20倍的情況下超過(guò)了基準(zhǔn)模型。

見(jiàn)智研究一句話總結(jié):

M Monajatipoor, L H Li, M Rouhsedaghat, L F. Yang, K Chang探索了將元學(xué)習(xí)的上下文學(xué)習(xí)能力從單模態(tài)遷移到多模態(tài)的可能性，證明了在視覺(jué)-語(yǔ)言任務(wù)中通過(guò)遷移可以顯著提升上下文學(xué)習(xí)能力，甚至在模型大小方面實(shí)現(xiàn)優(yōu)化。

這意味著多模態(tài)情況下的對(duì)話能力將得到加強(qiáng)，對(duì)于現(xiàn)有的文生圖來(lái)說(shuō)可能會(huì)帶來(lái)新的變化，生成模式對(duì)用戶將更友好。

4、Runway獲得1億美元D輪融資，谷歌領(lǐng)投

生成式AI平臺(tái)Runway獲得1億美元D輪融資（約7億元），估值15億美元，本次由谷歌領(lǐng)投。谷歌投資Runway的最大原因之一是為了爭(zhēng)奪云計(jì)算客戶。

Runway曾在4月底與谷歌簽訂了7500萬(wàn)美元的3年商業(yè)協(xié)議，同時(shí)Runway已從谷歌獲得了價(jià)值2000萬(wàn)美元的云計(jì)算資源用于產(chǎn)品運(yùn)營(yíng)和研發(fā)。

見(jiàn)智研究曾使用過(guò)GEN-1生成相應(yīng)視頻特效，但目前可玩性不算高。Gen-2是Runway在今年3月最新發(fā)布的，但目前手機(jī)客戶端還未提供使用。Gen-2可以通過(guò)文本、圖片、文本+圖片直接生成視頻，同時(shí)支持風(fēng)格化和渲染添加好萊塢式大片特效，僅需要幾分鐘即可完成所有操作。

風(fēng)險(xiǎn)提示及免責(zé)條款市場(chǎng)有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議，也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見(jiàn)、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資，責(zé)任自負(fù)。

關(guān)鍵詞：

成人做受视频试看60秒,少妇又紧又深又湿又爽视频,久久精品www人人爽人人,欲色影视天天一区二区色香欲,国内揄拍国内精品少妇

當(dāng)前關(guān)注：AI見(jiàn)聞日?qǐng)?bào)：將上下文學(xué)習(xí)能力從語(yǔ)言遷移到視覺(jué)，MetaVL開(kāi)啟下一個(gè)多模態(tài)時(shí)代 | 見(jiàn)智研究

見(jiàn)聞視角

1、蘋果在ios17中加入transformer語(yǔ)言模型，用于提高文字和語(yǔ)音轉(zhuǎn)文字時(shí)的準(zhǔn)確性。

2、蘋果開(kāi)發(fā)人員：Vision Pro里用了“腦機(jī)”，通過(guò)檢測(cè)眼睛準(zhǔn)確預(yù)測(cè)用戶下一步要做什么

3、MetaVL: 將上下文學(xué)習(xí)能力從語(yǔ)言模型遷移到視覺(jué)，開(kāi)啟下一個(gè)多模態(tài)時(shí)代

4、Runway獲得1億美元D輪融資，谷歌領(lǐng)投

相關(guān)閱讀

最近更新

推薦閱讀

財(cái)經(jīng)熱圖

熱門標(biāo)簽

成人做受视频试看60秒,少妇又紧又深又湿又爽视频,久久精品www人人爽人人,欲色影视天天一区二区色香欲,国内揄拍国内精品少妇

當(dāng)前關(guān)注：AI見(jiàn)聞日?qǐng)?bào)：將上下文學(xué)習(xí)能力從語(yǔ)言遷移到視覺(jué)，MetaVL開(kāi)啟下一個(gè)多模態(tài)時(shí)代 | 見(jiàn)智研究

見(jiàn)聞視角

1、蘋果在ios17中加入transformer語(yǔ)言模型，用于提高文字和語(yǔ)音轉(zhuǎn)文字時(shí)的準(zhǔn)確性。

2、蘋果開(kāi)發(fā)人員：Vision Pro里用了“腦機(jī)”，通過(guò)檢測(cè)眼睛準(zhǔn)確預(yù)測(cè)用戶下一步要做什么

3、MetaVL: 將上下文學(xué)習(xí)能力從語(yǔ)言模型遷移到視覺(jué)，開(kāi)啟下一個(gè)多模態(tài)時(shí)代

4、Runway獲得1億美元D輪融資，谷歌領(lǐng)投

相關(guān)閱讀

最近更新

推薦閱讀

財(cái)經(jīng)熱圖

熱門標(biāo)簽

1、蘋果在ios17中加入transformer語(yǔ)言模型，用于提高文字和語(yǔ)音轉(zhuǎn)文字時(shí)的準(zhǔn)確性。

3、MetaVL: 將上下文學(xué)習(xí)能力從語(yǔ)言模型遷移到視覺(jué)，開(kāi)啟下一個(gè)多模態(tài)時(shí)代

4、Runway獲得1億美元D輪融資，谷歌領(lǐng)投