欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

<nav id="j0pg4"><strong id="j0pg4"></strong></nav>

首頁綜合正文

目錄

柚子快報(bào)邀請(qǐng)碼778899分享：GroupViT論文閱讀

Tokopedia印尼優(yōu)選綜合2025-06-08510

柚子快報(bào)邀請(qǐng)碼778899分享：GroupViT論文閱讀

http://yzkb.51969.com/

GroupViT

主要工作：

加入 grouping mechanism轉(zhuǎn)化為zero-shot manner使用multi-label text contrastive loss，轉(zhuǎn)化成text supervision，進(jìn)而擺脫pixel-level labeled 依賴

創(chuàng)新點(diǎn)

引入多級(jí)grouping利用contrastive losses去使用image-level text實(shí)現(xiàn)zero-shot manner

網(wǎng)絡(luò)結(jié)構(gòu)

方法

1.怎么轉(zhuǎn)化的zero-shot manner？利用不斷合并成更大的segment 2.怎么引入的grouping machanism？ grouping可以不斷地將小的image segment”合并“成更大的segment： group token（gi） &segment token（si）=>新的segment token（si+1）最后的 sl 經(jīng)過AvgPooling、MLP進(jìn)入計(jì)算對(duì)比損失階段 3.如何設(shè)計(jì)的對(duì)比損失(contrastive loss)？利用hard assignment（或者soft assignment）計(jì)算group token（gl）和segment token（si）的相似性 4.怎么利用的image-level text？ text encoder？text transformer？

相關(guān)問題

怎么描述它的創(chuàng)新點(diǎn)的 DL針對(duì)語義分割有兩點(diǎn)限制——依賴piexl-wise labels；不能泛化到?jīng)]見過的類型上創(chuàng)新點(diǎn)來源——受到zero-shot的啟示，考慮是否能使用純文本監(jiān)督進(jìn)行語義分割，并且支持泛化？提出方法——使用ViT+引入多級(jí)grouping 最后強(qiáng)調(diào)列舉創(chuàng)新點(diǎn)（現(xiàn)寫明效果，再簡(jiǎn)單概括創(chuàng)新方法）怎么對(duì)自己的邏輯進(jìn)行闡述建模的。

利用grouping合并生成larger segment的優(yōu)勢(shì)把語義分割轉(zhuǎn)化成zero-shot manner =》引入多級(jí)grouping使用text信息=》引入對(duì)比損失

怎么設(shè)計(jì)的實(shí)驗(yàn)，怎么對(duì)方法的有效性進(jìn)行驗(yàn)證的。首先利用消融實(shí)驗(yàn)驗(yàn)證組件的貢獻(xiàn)

- hard assignment更有效（同時(shí)可以驗(yàn)證multi label loss更有效）：以此找到更好用的對(duì)比損失計(jì)算方法

- 尋找最佳的group token size和output size

- 驗(yàn)證2-stage確實(shí)能再dataset 擴(kuò)充的情況下發(fā)揮grouping得優(yōu)勢(shì)，獲得更好的實(shí)驗(yàn)效果、

其次由于本實(shí)驗(yàn)是基于ViT提出的zero-shot式的語義分割，所以和基礎(chǔ)的全監(jiān)督語義分割和zero-shot baseline的語義分割做對(duì)比實(shí)驗(yàn)，比較實(shí)驗(yàn)效果。

查漏補(bǔ)缺：

什么是模態(tài) ：https://zhuanlan.zhihu.com/p/389287751什么是visual grouping ：https://zhuanlan.zhihu.com/p/388504127什么是Top-down and Bottom-up ：https://zhuanlan.zhihu.com/p/342480164什么是superpixels(超像素）：https://blog.csdn.net/h1239757443/article/details/107248419什么是E2E training /E2E model https://blog.csdn.net/program_developer/article/details/77887478什么是Global Attention / Local Attention : https://blog.csdn.net/weixin_40871455/article/details/85007560/耦合（Coupling）表示兩個(gè)子系統(tǒng)（或類）之間的關(guān)聯(lián)程度，當(dāng)一個(gè)子系統(tǒng)（或類）發(fā)生變化時(shí)對(duì)另一個(gè)子系統(tǒng)（或類）的影響很小，則稱它們是松散耦合的；反之，如果變化的影響很大時(shí)，則稱它們是緊密耦合的。什么是logit ：https://www.zhihu.com/question/60751553gumbel softmaxVitNetTransformerLinear Projection

未見知識(shí)整理(Sec 3)

問題一：未見知識(shí)僅限于不認(rèn)識(shí)的名詞嗎？

zero-shot Transformer在這里到底是干啥的 global self-attention ViT(split an input image into N non-overlapping?and linearly project?)為什么有用？ [learnable]grouping tokens哪里來的？group stage的輸出？ what is ”concatenation operator“ M(l)是什么，為什么會(huì)有更少的grouping token？他是怎么縮小的？為什么能以此造成更大更少的image segment MLP是什么局限于regular-grid structure有哪些缺陷？有哪些優(yōu)勢(shì)？什么是受限于此？注意一下transformer里的embedding是什么 Gumbel-Softmax、Gumbel（0.1）線性投影的權(quán)重是從哪里學(xué)的？

柚子快報(bào)邀請(qǐng)碼778899分享：GroupViT論文閱讀

http://yzkb.51969.com/

參考文章

評(píng)論可見，查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理，出于傳遞更多信息之目的，不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。

轉(zhuǎn)載請(qǐng)注明，如有侵權(quán)，聯(lián)系刪除。

本文鏈接：http://m.gantiao.com.cn/post/19488876.html

發(fā)布評(píng)論

取消回復(fù)

您暫未設(shè)置收款碼

請(qǐng)?jiān)谥黝}配置——文章設(shè)置里上傳

金鑰匙跨境

掃描二維碼手機(jī)訪問

文章目錄