柚子快報(bào)邀請碼778899分享:GroupViT論文閱讀
柚子快報(bào)邀請碼778899分享:GroupViT論文閱讀
GroupViT
主要工作:
加入 grouping mechanism轉(zhuǎn)化為zero-shot manner使用multi-label text contrastive loss,轉(zhuǎn)化成text supervision,進(jìn)而擺脫pixel-level labeled 依賴
創(chuàng)新點(diǎn)
引入多級grouping利用contrastive losses去使用image-level text實(shí)現(xiàn)zero-shot manner
網(wǎng)絡(luò)結(jié)構(gòu)
方法
1.怎么轉(zhuǎn)化的zero-shot manner? 利用不斷合并成更大的segment 2.怎么引入的grouping machanism? grouping可以不斷地將小的image segment”合并“成更大的segment: group token(gi) &segment token(si)=>新的segment token(si+1) 最后的 sl 經(jīng)過AvgPooling、MLP進(jìn)入計(jì)算對比損失階段 3.如何設(shè)計(jì)的對比損失(contrastive loss)? 利用hard assignment(或者soft assignment)計(jì)算group token(gl) 和segment token(si)的相似性 4.怎么利用的image-level text? text encoder?text transformer?
相關(guān)問題
怎么描述它的創(chuàng)新點(diǎn)的 DL針對語義分割有兩點(diǎn)限制——依賴piexl-wise labels;不能泛化到?jīng)]見過的類型上 創(chuàng)新點(diǎn)來源——受到zero-shot的啟示,考慮是否能使用純文本監(jiān)督進(jìn)行語義分割,并且支持泛化? 提出方法——使用ViT+引入多級grouping 最后強(qiáng)調(diào)列舉創(chuàng)新點(diǎn)(現(xiàn)寫明效果,再簡單概括創(chuàng)新方法) 怎么對自己的邏輯進(jìn)行闡述建模的。
利用grouping合并生成larger segment的優(yōu)勢把語義分割轉(zhuǎn)化成zero-shot manner =》引入多級grouping使用text信息=》引入對比損失
怎么設(shè)計(jì)的實(shí)驗(yàn),怎么對方法的有效性進(jìn)行驗(yàn)證的。 首先利用消融實(shí)驗(yàn)驗(yàn)證組件的貢獻(xiàn)
- hard assignment更有效(同時(shí)可以驗(yàn)證multi label loss更有效):以此找到更好用的對比損失計(jì)算方法
- 尋找最佳的group token size和output size
- 驗(yàn)證2-stage確實(shí)能再dataset 擴(kuò)充的情況下發(fā)揮grouping得優(yōu)勢,獲得更好的實(shí)驗(yàn)效果、
其次由于本實(shí)驗(yàn)是基于ViT提出的zero-shot式的語義分割,所以和基礎(chǔ)的全監(jiān)督語義分割和zero-shot baseline的語義分割做對比實(shí)驗(yàn),比較實(shí)驗(yàn)效果。
查漏補(bǔ)缺:
什么是模態(tài) :https://zhuanlan.zhihu.com/p/389287751什么是visual grouping :https://zhuanlan.zhihu.com/p/388504127什么是Top-down and Bottom-up :https://zhuanlan.zhihu.com/p/342480164什么是superpixels(超像素) :https://blog.csdn.net/h1239757443/article/details/107248419什么是E2E training /E2E model https://blog.csdn.net/program_developer/article/details/77887478什么是Global Attention / Local Attention : https://blog.csdn.net/weixin_40871455/article/details/85007560/耦合(Coupling) 表示兩個(gè)子系統(tǒng)(或類)之間的關(guān)聯(lián)程度,當(dāng)一個(gè)子系統(tǒng)(或類)發(fā)生變化時(shí)對另一個(gè)子系統(tǒng)(或類)的影響很小,則稱它們是松散耦合的;反之,如果變化的影響很大時(shí),則稱它們是緊密耦合的。什么是logit :https://www.zhihu.com/question/60751553gumbel softmaxVitNetTransformerLinear Projection
未見知識整理(Sec 3)
問題一:未見知識僅限于不認(rèn)識的名詞嗎?
zero-shot Transformer在這里到底是干啥的 global self-attention ViT(split an input image into N non-overlapping?and linearly project?)為什么有用? [learnable]grouping tokens哪里來的?group stage的輸出? what is ”concatenation operator“ M(l)是什么 , 為什么會(huì)有更少的grouping token? 他是怎么縮小的?為什么能以此造成更大更少的image segment MLP是什么 局限于regular-grid structure有哪些缺陷?有哪些優(yōu)勢?什么是受限于此? 注意一下transformer里的embedding是什么 Gumbel-Softmax、Gumbel(0.1) 線性投影的權(quán)重是從哪里學(xué)的?
柚子快報(bào)邀請碼778899分享:GroupViT論文閱讀
參考文章
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。