欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報(bào)邀請碼778899分享:GroupViT論文閱讀

柚子快報(bào)邀請碼778899分享:GroupViT論文閱讀

http://yzkb.51969.com/

GroupViT

主要工作:

加入 grouping mechanism轉(zhuǎn)化為zero-shot manner使用multi-label text contrastive loss,轉(zhuǎn)化成text supervision,進(jìn)而擺脫pixel-level labeled 依賴

創(chuàng)新點(diǎn)

引入多級grouping利用contrastive losses去使用image-level text實(shí)現(xiàn)zero-shot manner

網(wǎng)絡(luò)結(jié)構(gòu)

方法

1.怎么轉(zhuǎn)化的zero-shot manner? 利用不斷合并成更大的segment 2.怎么引入的grouping machanism? grouping可以不斷地將小的image segment”合并“成更大的segment: group token(gi) &segment token(si)=>新的segment token(si+1) 最后的 sl 經(jīng)過AvgPooling、MLP進(jìn)入計(jì)算對比損失階段 3.如何設(shè)計(jì)的對比損失(contrastive loss)? 利用hard assignment(或者soft assignment)計(jì)算group token(gl) 和segment token(si)的相似性 4.怎么利用的image-level text? text encoder?text transformer?

相關(guān)問題

怎么描述它的創(chuàng)新點(diǎn)的 DL針對語義分割有兩點(diǎn)限制——依賴piexl-wise labels;不能泛化到?jīng)]見過的類型上 創(chuàng)新點(diǎn)來源——受到zero-shot的啟示,考慮是否能使用純文本監(jiān)督進(jìn)行語義分割,并且支持泛化? 提出方法——使用ViT+引入多級grouping 最后強(qiáng)調(diào)列舉創(chuàng)新點(diǎn)(現(xiàn)寫明效果,再簡單概括創(chuàng)新方法) 怎么對自己的邏輯進(jìn)行闡述建模的。

利用grouping合并生成larger segment的優(yōu)勢把語義分割轉(zhuǎn)化成zero-shot manner =》引入多級grouping使用text信息=》引入對比損失

怎么設(shè)計(jì)的實(shí)驗(yàn),怎么對方法的有效性進(jìn)行驗(yàn)證的。 首先利用消融實(shí)驗(yàn)驗(yàn)證組件的貢獻(xiàn)

- hard assignment更有效(同時(shí)可以驗(yàn)證multi label loss更有效):以此找到更好用的對比損失計(jì)算方法

- 尋找最佳的group token size和output size

- 驗(yàn)證2-stage確實(shí)能再dataset 擴(kuò)充的情況下發(fā)揮grouping得優(yōu)勢,獲得更好的實(shí)驗(yàn)效果、

其次由于本實(shí)驗(yàn)是基于ViT提出的zero-shot式的語義分割,所以和基礎(chǔ)的全監(jiān)督語義分割和zero-shot baseline的語義分割做對比實(shí)驗(yàn),比較實(shí)驗(yàn)效果。

查漏補(bǔ)缺:

什么是模態(tài) :https://zhuanlan.zhihu.com/p/389287751什么是visual grouping :https://zhuanlan.zhihu.com/p/388504127什么是Top-down and Bottom-up :https://zhuanlan.zhihu.com/p/342480164什么是superpixels(超像素) :https://blog.csdn.net/h1239757443/article/details/107248419什么是E2E training /E2E model https://blog.csdn.net/program_developer/article/details/77887478什么是Global Attention / Local Attention : https://blog.csdn.net/weixin_40871455/article/details/85007560/耦合(Coupling) 表示兩個(gè)子系統(tǒng)(或類)之間的關(guān)聯(lián)程度,當(dāng)一個(gè)子系統(tǒng)(或類)發(fā)生變化時(shí)對另一個(gè)子系統(tǒng)(或類)的影響很小,則稱它們是松散耦合的;反之,如果變化的影響很大時(shí),則稱它們是緊密耦合的。什么是logit :https://www.zhihu.com/question/60751553gumbel softmaxVitNetTransformerLinear Projection

未見知識整理(Sec 3)

問題一:未見知識僅限于不認(rèn)識的名詞嗎?

zero-shot Transformer在這里到底是干啥的 global self-attention ViT(split an input image into N non-overlapping?and linearly project?)為什么有用? [learnable]grouping tokens哪里來的?group stage的輸出? what is ”concatenation operator“ M(l)是什么 , 為什么會(huì)有更少的grouping token? 他是怎么縮小的?為什么能以此造成更大更少的image segment MLP是什么 局限于regular-grid structure有哪些缺陷?有哪些優(yōu)勢?什么是受限于此? 注意一下transformer里的embedding是什么 Gumbel-Softmax、Gumbel(0.1) 線性投影的權(quán)重是從哪里學(xué)的?

柚子快報(bào)邀請碼778899分享:GroupViT論文閱讀

http://yzkb.51969.com/

參考文章

評論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。

轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://m.gantiao.com.cn/post/19488876.html

發(fā)布評論

您暫未設(shè)置收款碼

請?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問

文章目錄