柚子快報激活碼778899分享:論文閱讀——ONE-PEACE
柚子快報激活碼778899分享:論文閱讀——ONE-PEACE
ONE-PEACE: EXPLORING ONE GENERAL REPRESENTATION MODEL TOWARD UNLIMITED MODALITIES
適應(yīng)不同模態(tài)并且支持多模態(tài)交互。
預(yù)訓(xùn)練任務(wù)不僅能提取單模態(tài)信息,還能模態(tài)間對齊。
預(yù)訓(xùn)練任務(wù)通用且直接,使得他們可以應(yīng)用到不同模態(tài)。
各個模態(tài)獨立編碼,然后模態(tài)融合。
Vision Adapter:使用hierarchical MLP (hMLP) stem對圖像分塊,直到patch size?16 × 16,不同塊之間沒有交互。然后打成patch 特征序列,再加一個類別前綴向量,并加上絕對位置編碼。得到:
Audio Adapter (A-Adapter):16kHz采樣,歸一化數(shù)據(jù),使用卷積提取相對特征。得到:
Language Adapter (L-Adapter):先變成subword sequence-->加上[CLS] and [EOS]-->embeddings-->absolute positional embeddings-->
預(yù)訓(xùn)練任務(wù)包括:cross-modal contrastive learning and intra-modal denoising contrastive learning
Cross-Modal Contrastive Learning:不同模態(tài)之間語義空間對齊。
Intra-Modal Denoising Contrastive Learning:單模態(tài)內(nèi)部更精細(xì)的細(xì)節(jié)。
柚子快報激活碼778899分享:論文閱讀——ONE-PEACE
好文鏈接
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。