欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

目錄

柚子快報(bào)激活碼778899分享:弱監(jiān)督目標(biāo)檢測(cè)相關(guān)論文閱讀筆記

柚子快報(bào)激活碼778899分享:弱監(jiān)督目標(biāo)檢測(cè)相關(guān)論文閱讀筆記

http://yzkb.51969.com/

弱監(jiān)督目標(biāo)檢測(cè)論文相關(guān)

1.傳統(tǒng)目標(biāo)檢測(cè)

2014年之前->傳統(tǒng)的目標(biāo)檢測(cè)器:VJ檢測(cè)器->HOG檢測(cè)器->DPM

2014年之后->基于深度學(xué)習(xí)的目標(biāo)檢測(cè)器:

雙階段:RCNN->SPPNet->Fast RCNN->Faster RCNN->Feature Pyramid Networks

單階段:YOLO->SSD->RetinaNet

現(xiàn)有的圖像目標(biāo)檢測(cè)其通??梢员环譃閮深悾阂活愂莟wo-stage檢測(cè)器,最具代表性的是Faster R-CNN[8]。另一種是one-stage檢測(cè)器,如YOLO[9]、SSD[10]。two-stage檢測(cè)器具有較高的定位和目標(biāo)識(shí)別精度,而one-stage檢測(cè)器具有較高的推理速度。two-stage檢測(cè)器可以按照ROI池化層來(lái)劃分為two-stage。例如,在Faster RCNN中,第1階段叫做RPN,一種區(qū)域建議網(wǎng)絡(luò),提出候選目標(biāo)邊界框。第2階段,通過(guò)ROI操作從每個(gè)候選框中提取特征,用于接下來(lái)的分類和邊界框回歸任務(wù)。圖1 (a)為two-stage探測(cè)器的基本結(jié)構(gòu)。此外,one-stage檢測(cè)器直接從輸入圖像中提出預(yù)測(cè)框,不需要區(qū)域建議步長(zhǎng),因此具有時(shí)間效率,可用于實(shí)時(shí)設(shè)備。圖1 (b)為one-stage探測(cè)器的基本結(jié)構(gòu)

雙階段

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-iJxMY5KG-1682324796818)(C:\Users\Louis\AppData\Roaming\Typora\typora-user-images\image-20220710140738564.png)]

1.0 RCNN

思路:

給定一張輸入圖片,從圖片中提取 2000 個(gè)類別獨(dú)立的候選區(qū)域。對(duì)于每個(gè)區(qū)域利用 CNN 抽取一個(gè)固定長(zhǎng)度的特征向量。再對(duì)每個(gè)區(qū)域利用 SVM 進(jìn)行目標(biāo)分類。

提取框,對(duì)每個(gè)框提取特征、圖像分類、 非極大值抑制四個(gè)步驟進(jìn)行目標(biāo)檢測(cè)。

邊界框回歸詳解:

這個(gè)回歸模型主要是用來(lái)修正由第二步Region proposals得到的圖像區(qū)域。同第四步的分類一樣,每個(gè)類別對(duì)應(yīng)一個(gè)Regression模型。這個(gè)Bounding Box Regression主要是為了精準(zhǔn)定位。它所做的就是把舊的區(qū)域(SS算法生成的區(qū)域) [外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-9xsKkVNp-1682324798163)(null)] 重新映射到新的區(qū)域 [外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-rDfAXCqa-1682324797476)(null)] ,其中 - 中心位置 [外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-024Ph99G-1682324797603)(null)] -寬高尺寸 [外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-SPMgkolT-1682324797573)(null)]

不足:

1.由于上一步Region proposals所提取出來(lái)的圖像的尺寸大小是不一樣的,我們需要卷積后輸出的特征尺度是一樣的,所以要將Region proposals選取的區(qū)域進(jìn)行一定的縮放處理(warped region)成統(tǒng)一的227x227的大小,再送到CNN中特征提取。

1.2 SPP-net

R-CNN雖然不再像傳統(tǒng)方法那樣窮舉,但R-CNN流程的第一步中對(duì)原始圖片通過(guò)Selective Search提取的候選框region proposal多達(dá)2000個(gè)左右,而這2000個(gè)候選框每個(gè)框都需要進(jìn)行CNN提特征+SVM分類,計(jì)算量很大,導(dǎo)致R-CNN檢測(cè)速度很慢,一張圖都需要47s。

那么有沒有方法提速呢?答案是有的,這2000個(gè)region proposal不都是圖像的一部分嗎,那么我們完全可以對(duì)圖像提一次卷積層特征,然后只需要將region proposal在原圖的位置映射到卷積層特征圖上,這樣對(duì)于一張圖像我們只需要提一次卷積層特征,然后將每個(gè)region proposal的卷積層特征輸入到全連接層做后續(xù)操作。

但現(xiàn)在的問(wèn)題是每個(gè)region proposal的尺度不一樣,而全連接層輸入必須是固定的長(zhǎng)度,所以直接這樣輸入全連接層肯定是不行的。SPP Net恰好可以解決這個(gè)問(wèn)題。

貢獻(xiàn):

直接輸入整圖,所有區(qū)域共享卷積計(jì)算(一遍),在CNN輸出上提取所有區(qū)域的特征引入空間金字塔池化(Spatial Pyramid Pooling),為不同的尺寸區(qū)域在CNN輸出上提取特征,映射到固定尺寸的全連接層上

存在的問(wèn)題:

① 需要存儲(chǔ)大量特征② 復(fù)雜的多階段訓(xùn)練③ 訓(xùn)練時(shí)間長(zhǎng)

1.3 Fast RCNN

實(shí)現(xiàn)步驟:

在圖像中確定約1000-2000個(gè)候選框 (使用選擇性搜索Selective Search)對(duì)整張圖片輸進(jìn)CNN,得到feature map找到每個(gè)候選框在feature map上的映射patch,將此patch作為每個(gè)候選框的卷積特征輸入到SPP layer和之后的層對(duì)候選框中提取出的特征,使用分類器判別是否屬于一個(gè)特定類對(duì)于屬于某一類別的候選框,用回歸器進(jìn)一步調(diào)整其位置

貢獻(xiàn):

1.損失函數(shù),使得分類和回歸同時(shí)進(jìn)行

一個(gè)是分類的負(fù)對(duì)數(shù)損失 [外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-cRBK1RKf-1682324797508)(null)] ,順帶一說(shuō),負(fù)對(duì)數(shù)損失就是softmax分類器的標(biāo)配,具體原因詳見softmax的知識(shí)點(diǎn)。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-uJtiNqOZ-1682324797914)(null)] 就是定位損失啦,它的損失函數(shù)采用的是smooth L1損失,具體地說(shuō),對(duì)四個(gè)坐標(biāo)分別進(jìn)行smooth L1,然后加起來(lái),就像下面這樣:

2.ROI pooling,使得不同尺寸的ROI都可以得到固定尺寸的特征圖。

缺點(diǎn):

1.4 Faster RCNN

實(shí)現(xiàn)步驟:

對(duì)整張圖片輸進(jìn)CNN,得到feature map 卷積特征輸入到RPN,得到候選框的特征信息 對(duì)候選框中提取出的特征,使用分類器判別是否屬于一個(gè)特定類 對(duì)于屬于某一類別的候選框,用回歸器進(jìn)一步調(diào)整其位置

1.RPN網(wǎng)絡(luò):

可以清晰的看到該網(wǎng)絡(luò)對(duì)于一副任意大小PxQ的圖像:

首先縮放至固定大小MxN,然后將MxN圖像送入網(wǎng)絡(luò);而Conv layers中包含了13個(gè)conv層+13個(gè)relu層+4個(gè)pooling層;RPN網(wǎng)絡(luò)首先經(jīng)過(guò)3x3卷積,再分別生成positive anchors和對(duì)應(yīng)bounding box regression偏移量,然后計(jì)算出proposals;而Roi Pooling層則利用proposals從feature maps中提取proposal feature送入后續(xù)全連接和softmax網(wǎng)絡(luò)作classification(即分類proposal到底是什么object)。

在原文中使用的是ZF model中,其Conv Layers中最后的conv5層num_output=256,對(duì)應(yīng)生成256張?zhí)卣鲌D,所以相當(dāng)于feature map每個(gè)點(diǎn)都是256-dimensions在conv5之后,做了rpn_conv/3x3卷積且num_output=256,相當(dāng)于每個(gè)點(diǎn)又融合了周圍3x3的空間信息(猜測(cè)這樣做也許更魯棒?反正我沒測(cè)試),同時(shí)256-d不變(如圖中的紅框)假設(shè)在conv5 feature map中每個(gè)點(diǎn)上有k個(gè)anchor(默認(rèn)k=9),而每個(gè)anhcor要分positive和negative,所以每個(gè)點(diǎn)由256d feature轉(zhuǎn)化為cls=2k scores;而每個(gè)anchor都有(x, y, w, h)對(duì)應(yīng)4個(gè)偏移量,所以reg=4k coordinates補(bǔ)充一點(diǎn),全部anchors拿去訓(xùn)練太多了,訓(xùn)練程序會(huì)在合適的anchors中隨機(jī)選取128個(gè)postive anchors+128個(gè)negative anchors進(jìn)行訓(xùn)練(什么是合適的anchors下文5.1有解釋)

注意,在本文講解中使用的VGG conv5 num_output=512,所以是512d,其他類似。

卷積特征圖每個(gè)像素點(diǎn)都配備這k種anchors作為初始的檢測(cè)框,進(jìn)而去判斷anchor到底是物體還是背景(就是判斷這個(gè)anchor到底有沒有覆蓋目標(biāo)),以及為屬于物體的anchor進(jìn)行第一次坐標(biāo)修正。

物體背景是二分類,所以cls layer得到2k 個(gè)scores;坐標(biāo)修正是四個(gè)值(x,y,w,h),所以reg layer得到4k 個(gè)coordinates。RPN依靠在共享特征圖上一個(gè)滑動(dòng)的窗口,為每個(gè)位置生成9種目標(biāo)框(anchor)。這9種anchor面積是128×128、256×256、512×512,長(zhǎng)寬比是1:1、1:2、2:1,面積和長(zhǎng)寬比兩兩組合形成9種anchor。

那么Anchor一共有多少個(gè)?原圖800x600,VGG下采樣16倍,feature map每個(gè)點(diǎn)設(shè)置9個(gè)Anchor,所以:

其中ceil()表示向上取整,是因?yàn)閂GG輸出的feature map size= 50*38。

對(duì)于訓(xùn)練bouding box regression網(wǎng)絡(luò)回歸分支,輸入是cnn feature Φ,監(jiān)督信號(hào)是Anchor與GT的差距[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-0Y6C5S06-1682324797714)(null)],即訓(xùn)練目標(biāo)是:輸入 Φ的情況下使網(wǎng)絡(luò)輸出與監(jiān)督信號(hào)盡可能接近。那么當(dāng)bouding box regression工作時(shí),再輸入Φ時(shí),回歸網(wǎng)絡(luò)分支的輸出就是每個(gè)Anchor的平移量和變換尺度[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-S7FvOKaM-1682324797663)(null)],顯然即可用來(lái)修正Anchor位置了。

在得到每一個(gè)候選區(qū)域anchor的修正參數(shù)之后,我們就可以計(jì)算出精確的anchor,然后按照物體的區(qū)域得分從大到小對(duì)得到的anchor排序,然后提出一些寬或者高很小的anchor(獲取其它過(guò)濾條件),再經(jīng)過(guò)非極大值抑制抑制,取前Top-N的anchors,然后作為proposals(候選框)輸出,送入到RoI Pooling層。

VGG輸出 [外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-T6VbsLjN-1682324798192)(null)] 的特征,對(duì)應(yīng)設(shè)置 [外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-ASONjpoM-1682324797972)(null)] 個(gè)anchors,而RPN輸出:

大小為[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-7PC20nug-1682324797632)(null)] 的positive/negative softmax分類特征矩陣大小為 [外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-0OUB1m2R-1682324798298)(null)] 的regression坐標(biāo)回歸特征矩陣

恰好滿足RPN完成positive/negative分類+bounding box regression坐標(biāo)回歸.

2.proposal layer

Proposal Layer負(fù)責(zé)綜合所有 [外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-r6wuanCN-1682324797749)(null)] 變換量和positive anchors,計(jì)算出精準(zhǔn)的proposal,送入后續(xù)RoI Pooling Layer。還是先來(lái)看看Proposal Layer的caffe prototxt定義:

layer {

name: 'proposal'

type: 'Python'

bottom: 'rpn_cls_prob_reshape'

bottom: 'rpn_bbox_pred'

bottom: 'im_info'

top: 'rois'

python_param {

module: 'rpn.proposal_layer'

layer: 'ProposalLayer'

param_str: "'feat_stride': 16"

}

}

Proposal Layer有3個(gè)輸入:positive vs negative anchors分類器結(jié)果rpn_cls_prob_reshape,

對(duì)應(yīng)的bbox reg的[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-oN71kO6y-1682324798000)(null)]變換量rpn_bbox_pred,

以及im_info;另外還有參數(shù)feat_stride=16。

首先解釋im_info。

對(duì)于一副任意大小PxQ圖像,傳入Faster RCNN前首先reshape到固定MxN,im_info=[M, N, scale_factor]則保存了此次縮放的所有信息。

然后經(jīng)過(guò)Conv Layers,經(jīng)過(guò)4次pooling變?yōu)閃xH=(M/16)x(N/16)大小,其中feature_stride=16則保存了該信息,用于計(jì)算anchor偏移量。

Proposal Layer forward(caffe layer的前傳函數(shù))按照以下順序依次處理:

**生成anchors,**利用[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-4eHdOXTQ-1682324797429)(null)]對(duì)所有的anchors做bbox regression回歸(這里的anchors生成和訓(xùn)練時(shí)完全一致)按照輸入的positive softmax scores由大到小排序anchors,提取前pre_nms_topN(e.g. 6000)個(gè)anchors,即提取修正位置后的positive anchors**限定超出圖像邊界的positive anchors為圖像邊界,**防止后續(xù)roi pooling時(shí)proposal超出圖像邊界(見文章底部QA部分圖21)剔除尺寸非常小的positive anchors對(duì)剩余的positive anchors進(jìn)行NMS(nonmaximum suppression)Proposal Layer有3個(gè)輸入:positive和negative anchors分類器結(jié)果rpn_cls_prob_reshape,對(duì)應(yīng)的bbox reg的(e.g. 300)結(jié)果作為proposal輸出

之后輸出proposal=[x1, y1, x2, y2],注意,由于在第三步中將anchors映射回原圖判斷是否超出邊界,所以這里輸出的proposal是對(duì)應(yīng)MxN輸入圖像尺度的,這點(diǎn)在后續(xù)網(wǎng)絡(luò)中有用。另外我認(rèn)為,嚴(yán)格意義上的檢測(cè)應(yīng)該到此就結(jié)束了,后續(xù)部分應(yīng)該屬于識(shí)別了。

RPN網(wǎng)絡(luò)結(jié)構(gòu)就介紹到這里,總結(jié)起來(lái)就是:

生成anchors -> softmax分類器提取positvie anchors -> bbox reg回歸positive anchors -> Proposal Layer生成proposals

3.ROI pooling

? RoI Pooling層則負(fù)責(zé)收集proposal,并計(jì)算出proposal feature maps,送入后續(xù)網(wǎng)絡(luò)。Rol pooling層有2個(gè)輸入:

原始的feature mapsRPN輸出的proposal boxes(大小各不相同)

步驟

由于proposal是對(duì)應(yīng)MxN尺度的,所以首先使用spatial_scale參數(shù)將其映射回(M/16)x(N/16)大小的feature map尺度;再將每個(gè)proposal對(duì)應(yīng)的feature map區(qū)域水平分為 [外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-Fmu5AC11-1682324798055)(null)] 的網(wǎng)格;對(duì)網(wǎng)格的每一份都進(jìn)行max pooling處理。

這樣處理后,即使大小不同的proposal輸出結(jié)果都是 [外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-dUXn1XNx-1682324798135)(null)] 固定大小,實(shí)現(xiàn)了固定長(zhǎng)度輸出。

4.分類回歸層

Classification部分利用已經(jīng)獲得的proposal feature maps,通過(guò)full connect層與softmax計(jì)算每個(gè)proposal具體屬于那個(gè)類別(如人,車,電視等),輸出cls_prob概率向量;

同時(shí)再次利用bounding box regression獲得每個(gè)proposal的位置偏移量bbox_pred,用于回歸更加精確的目標(biāo)檢測(cè)框。

5.訓(xùn)練步驟

Faster R-CNN的訓(xùn)練,是在已經(jīng)訓(xùn)練好的model(如VGG_CNN_M_1024,VGG,ZF)的基礎(chǔ)上繼續(xù)進(jìn)行訓(xùn)練。

實(shí)際中訓(xùn)練過(guò)程分為6個(gè)步驟:

在已經(jīng)訓(xùn)練好的model上,訓(xùn)練RPN網(wǎng)絡(luò),對(duì)應(yīng)stage1_rpn_train.pt利用步驟1中訓(xùn)練好的RPN網(wǎng)絡(luò),收集proposals,對(duì)應(yīng)rpn_test.pt第一次訓(xùn)練Fast RCNN網(wǎng)絡(luò),對(duì)應(yīng)stage1_fast_rcnn_train.pt第二訓(xùn)練RPN網(wǎng)絡(luò),對(duì)應(yīng)stage2_rpn_train.pt再次利用步驟4中訓(xùn)練好的RPN網(wǎng)絡(luò),收集proposals,對(duì)應(yīng)rpn_test.pt第二次訓(xùn)練Fast RCNN網(wǎng)絡(luò),對(duì)應(yīng)stage2_fast_rcnn_train.pt

1.5 Mask RCNN

1.6 FPN網(wǎng)絡(luò)

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-OisNpAWk-1682324796826)(C:\Users\Louis\AppData\Roaming\Typora\typora-user-images\image-20220713165043029.png)]

單階段

1.1 SSD

原理:

在不同的特征層上設(shè)置默認(rèn)框,檢測(cè)不同尺度的目標(biāo)。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-lP8QFKqu-1682324796826)(C:\Users\Louis\AppData\Roaming\Typora\typora-user-images\image-20220713235938768.png)]

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-enqiHeAR-1682324796827)(C:\Users\Louis\AppData\Roaming\Typora\typora-user-images\image-20220714000235230.png)]

1.2 RetinaNet

1.原理和貢獻(xiàn):

提出了一個(gè)focal loss函數(shù),使網(wǎng)絡(luò)更容易學(xué)習(xí)到難分樣本,難分樣本loss變大,易分樣本概率變小。

one-stage精度首次超越two-stage

正負(fù)樣本分配、損失函數(shù)設(shè)計(jì)。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-s3kcj9E9-1682324796827)(C:\Users\Louis\AppData\Roaming\Typora\typora-user-images\image-20220715223516820.png)]

網(wǎng)絡(luò)結(jié)構(gòu):

這里回歸參數(shù)是4A而不是4KA,類別未知,只預(yù)測(cè)與它最近的那個(gè)box,F(xiàn)aster Rcnn是4KA個(gè)參數(shù)。減少了運(yùn)算量,重點(diǎn)?。。。。?/p>

1.3 YOLO V1

總結(jié):

把目標(biāo)檢測(cè)視為一個(gè)回歸問(wèn)題,只用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)分類和定位,不需要進(jìn)行候選區(qū)域選擇,而是把圖像分成了7 × 7 的網(wǎng)格,每個(gè)網(wǎng)格負(fù)責(zé)預(yù)測(cè)兩個(gè) bbox,一個(gè)對(duì)象概率。每個(gè)bbox包含5個(gè)參數(shù),(x,y,w,h,置信度概率),也就是一個(gè)網(wǎng)格對(duì)應(yīng)一個(gè)30維的向量,最后輸出向量是 7 * 7* 30。

背景:

YOLO的全稱是you only look once,指只需要瀏覽一次就可以識(shí)別出圖中的物體的類別和位置。

因?yàn)橹恍枰匆淮?,YOLO被稱為Region-free方法,相比于Region-based方法,YOLO不需要提前找到可能存在目標(biāo)的Region。

對(duì)于YOLO v1而言,它在PascalVOC 2007測(cè)試數(shù)據(jù)集上達(dá)到的mAP是63.4%,在輸入圖像大小為448×448像素的圖像上處理速度能夠達(dá)到每秒45幀,該網(wǎng)絡(luò)的一個(gè)小版本FastYOLO每秒處理速度也達(dá)到了驚人的155幀。

貢獻(xiàn)和方法:

整體流程:

YOLO將目標(biāo)檢測(cè)問(wèn)題作為回歸問(wèn)題。會(huì)將輸入圖像分成S × S 的網(wǎng)格(cell),如果一個(gè)物體的中心點(diǎn)落入到一個(gè)cell中,那么該cell就要負(fù)責(zé)預(yù)測(cè)該物體,一個(gè)格子只能預(yù)測(cè)一個(gè)物體,會(huì)生成兩個(gè)預(yù)測(cè)框。

1.縮放圖像 2.將圖像通過(guò)卷積神經(jīng)網(wǎng)絡(luò) 3.利用非極大值抑制(NMS)進(jìn)行篩選

1號(hào)圖中顯示圖片被分為 7 × 7 = 49個(gè)grid cell 2號(hào)圖中顯示每個(gè)grid cell生成2個(gè)bounding box(預(yù)測(cè)框),一共98個(gè)bounding box,框的粗細(xì)代表置信度大小,框越粗代表框住的是一個(gè)完整物體的概率越大 3號(hào)圖中用不同顏色表示每個(gè)grid cell所預(yù)測(cè)的物體最可能屬于分類,如藍(lán)色的grid cell生成的最可能bounding box最可能框住的是狗、黃色的grid cell最可能預(yù)測(cè)自行車… 4號(hào)圖為最終輸出的顯示效果

結(jié)果張量剖面圖

也就是說(shuō),每個(gè)gird cell只能有一個(gè)類別,它會(huì)從這20個(gè)類別概率中選取概率最高的那一個(gè),進(jìn)而也說(shuō)明了每個(gè)gird cell只能預(yù)測(cè)一個(gè)物體,那么7×7=49個(gè)gird cell最多只能預(yù)測(cè)49個(gè)物體,這也是YOLO v1對(duì)小密集物體識(shí)別差的原因,后面會(huì)談到這一點(diǎn)。

損失函數(shù):

綜合來(lái)說(shuō),一個(gè)bounding box的置信度Confidence意味著它 是否包含對(duì)象且位置準(zhǔn)確的程度。置信度高表示這里存在一個(gè)對(duì)象且位置比較準(zhǔn)確,置信度低表示可能沒有對(duì)象 或者 即便有對(duì)象也存在較大的位置偏差。

更具體一點(diǎn)說(shuō),就是在設(shè)置訓(xùn)練樣本的時(shí)候,樣本中的每個(gè)Object歸屬到且僅歸屬到一個(gè)grid,即便有時(shí)Object跨越了幾個(gè)grid,也僅指定其中一個(gè)。具體就是計(jì)算出該Object的bounding box的中心位置,這個(gè)中心位置落在哪個(gè)grid,該grid對(duì)應(yīng)的輸出向量中該對(duì)象的類別概率是1(該gird負(fù)責(zé)預(yù)測(cè)該對(duì)象),所有其它grid對(duì)該Object的預(yù)測(cè)概率設(shè)為0(不負(fù)責(zé)預(yù)測(cè)該對(duì)象)。

對(duì)于輸入圖像中的每個(gè)對(duì)象,先找到其中心點(diǎn)。比如圖8中的自行車,其中心點(diǎn)在黃色圓點(diǎn)位置,中心點(diǎn)落在黃色網(wǎng)格內(nèi),所以這個(gè)黃色網(wǎng)格對(duì)應(yīng)的30維向量中,自行車的概率是1,其它對(duì)象的概率是0。所有其它48個(gè)網(wǎng)格的30維向量中,該自行車的概率都是0。這就是所謂的"中心點(diǎn)所在的網(wǎng)格對(duì)預(yù)測(cè)該對(duì)象負(fù)責(zé)"。狗和汽車的分類概率也是同樣的方法填寫。

NMS原理:

NMS(非極大值抑制)   NMS方法并不復(fù)雜,其核心思想是:選擇得分最高的作為輸出,與該輸出重疊的去掉,不斷重復(fù)這一過(guò)程直到所有備選處理完。

YOLO的NMS計(jì)算方法如下。   網(wǎng)絡(luò)輸出的7730的張量,在每一個(gè)網(wǎng)格中,對(duì)象[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-XFq2sLth-1682324796827)(https://math.jianshu.com/math?formula=C_i)]位于第j個(gè)bounding box的得分: [外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-lurUIFkC-1682324796827)(https://math.jianshu.com/math?formula=Score_%7Bij%7D%20%3D%20P(C_i%7CObject)]%20*%20Confidence_j)   它代表著某個(gè)對(duì)象[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-TU1p0okc-1682324796828)(https://math.jianshu.com/math?formula=C_i)]存在于第j個(gè)bounding box的可能性。

每個(gè)網(wǎng)格有:20個(gè)對(duì)象的概率*2個(gè)bounding box的置信度,共40個(gè)得分(候選對(duì)象)。49個(gè)網(wǎng)格共1960個(gè)得分。Andrew Ng建議每種對(duì)象分別進(jìn)行NMS,那么每種對(duì)象有 1960/20=98 個(gè)得分。

? 也就是說(shuō)給每個(gè)框都編個(gè)號(hào),并且每個(gè)編號(hào)的框都有一個(gè)score屬性

NMS步驟如下:     1)設(shè)置一個(gè)Score的閾值,低于該閾值的候選對(duì)象排除掉(將該Score設(shè)為0)     2)遍歷每一個(gè)對(duì)象類別 ?     2.1)遍歷該對(duì)象的98個(gè)得分 ??      2.1.1)找到Score最大的那個(gè)對(duì)象及其bounding box,添加到輸出列表 ??      2.1.2)對(duì)每個(gè)Score不為0的候選對(duì)象,計(jì)算其與上面2.1.1輸出對(duì)象的bounding box的IOU ??      2.1.3)根據(jù)預(yù)先設(shè)置的IOU閾值,所有高于該閾值(重疊度較高)的候選對(duì)象排除掉(將Score 設(shè)為0)(避免同一對(duì)象的重復(fù)檢測(cè),一個(gè)對(duì)象只允許存在一個(gè)bounding box中) ??      2.1.4)如果所有bounding box要么在輸出列表中,要么Score=0,則該對(duì)象類別的NMS完成, 返回步驟2處理下一種對(duì)象     3)輸出列表即為預(yù)測(cè)的對(duì)象

? 代碼

概括的講就是:

訓(xùn)練過(guò)程:首先將圖像分成 S × S 網(wǎng)格(gird cell)、然后將圖像送入網(wǎng)絡(luò),生成S × S × (B ? 5 + C)個(gè)結(jié)果,根據(jù)結(jié)果求Loss并反向傳播梯度下降。

預(yù)測(cè)過(guò)程:首先將圖像分成 S × S網(wǎng)格(gird cell)、然后將圖像送入網(wǎng)絡(luò),生成S × S × (B ? 5 + C)個(gè)結(jié)果,用NMS選出合適的預(yù)選框。

缺點(diǎn):

每個(gè)網(wǎng)格只對(duì)應(yīng)兩個(gè)bounding box,當(dāng)物體的長(zhǎng)寬比不常見(也就是訓(xùn)練數(shù)據(jù)集覆蓋不到時(shí)),效果較差。 原始圖片只劃分為7x7的網(wǎng)格,當(dāng)兩個(gè)物體靠的很近時(shí),效果比較差。 最終每個(gè)網(wǎng)格只對(duì)應(yīng)一個(gè)類別,容易出現(xiàn)漏檢(物體沒有被識(shí)別到)。 對(duì)于圖片中比較小的物體,效果比較差。這其實(shí)是所有目標(biāo)檢測(cè)算法的通病。

1.4 YOLO v2

原理與貢獻(xiàn):

1.BN層

2.聚類產(chǎn)生框的尺度,可以實(shí)現(xiàn)對(duì)不同數(shù)據(jù)集的更好地適應(yīng)

3.anchor機(jī)制,sogmoid限制框中心在grid cell里面

4.多尺度融合,F(xiàn)PN

5.多尺度訓(xùn)練,采用不同的輸入圖像分辨率

網(wǎng)絡(luò)結(jié)構(gòu)

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-JHAucAzb-1682324796828)(C:\Users\Louis\AppData\Roaming\Typora\typora-user-images\image-20220715230619149.png)]

1.5 YOLO v3

原理與貢獻(xiàn)

整合多個(gè)技術(shù)

1.修改backbone,為Darknet-53,沒有最大池化下采樣層,而是用卷積層進(jìn)行下采樣,殘差網(wǎng)絡(luò)。

2.繼續(xù)特征融合,利用三個(gè)特征層,三個(gè)尺度的anchor,不同的寬高比。

3.正樣本分配新方案,多產(chǎn)生正樣本

網(wǎng)絡(luò)結(jié)構(gòu)

目標(biāo)邊界框的預(yù)測(cè),針對(duì)左上角的偏移量。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-uVt34gSa-1682324796828)(C:\Users\Louis\AppData\Roaming\Typora\typora-user-images\image-20220715225329432.png)]

損失函數(shù):

1.6 YOLO v4

原理與貢獻(xiàn):

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-33iNrv0A-1682324796829)(C:\Users\Louis\AppData\Roaming\Typora\typora-user-images\image-20220715230934794.png)]

1.7 YOLO v5

原理與貢獻(xiàn):

不同點(diǎn)有:激活函數(shù)上,YOLO V5變成了SiLu和Sigmoid函數(shù),不再使用V4的Mish激活函數(shù);損失函數(shù)上,YOLO 系列的損失計(jì)算是基于置信度分?jǐn)?shù),類別概率,和 bbox分?jǐn)?shù)得到的。YOLO V5使用 GIOU Loss作為bounding box的損失,使用二分類交叉熵和 Logits 損失函數(shù)計(jì)算類概率和目標(biāo)得分的損失。同時(shí)也可以通過(guò)fl _ gamma參數(shù)來(lái)激活Focal loss計(jì)算損失函數(shù)。而YOLO V4使用 CIOU Loss作為bounding box的損失。

1.8 YOLO vx

2.基于transformer的目標(biāo)檢測(cè)

3.弱監(jiān)督目標(biāo)檢測(cè)

目前弱監(jiān)督目標(biāo)檢測(cè)存在的問(wèn)題:1.只關(guān)注最具區(qū)分的區(qū)域 2.同一類別多實(shí)例挨得近被一個(gè)框包裹問(wèn)題

同一類別多目標(biāo)漏檢測(cè)問(wèn)題 4.候選框生成速度慢,冗余問(wèn)題,比如SS算法。

基于偽標(biāo)簽生成機(jī)制的弱監(jiān)督多實(shí)例檢測(cè)模型

偽標(biāo)簽生成機(jī)制不同方法:OICR(有代碼)、PCL(有代碼)、W2F(無(wú)代碼)、WSOD2(無(wú)代碼)、TPE(無(wú)代碼)、SLV(無(wú)代碼)、CASD(有代碼)、OIM(有代碼)、MIST(ICMWSD)(有代碼)、DKR-MIDN(有代碼)、ODCL(有代碼)

基于自知識(shí)蒸餾機(jī)制的弱監(jiān)督多實(shí)例檢測(cè)模型

3.1 WSDDN

方法和貢獻(xiàn):

WSDDN最大的貢獻(xiàn)是提出了一個(gè)分別進(jìn)行分類和定位的雙分支的端到端的弱監(jiān)督深度檢測(cè)網(wǎng)絡(luò)。WSDDN首先利用預(yù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)提取候選區(qū)域特征,之后連接SPP層使候選框特征圖重塑為相同大小的特征向量。接下來(lái),將特征向量輸入分類分支和定位分支。具體來(lái)說(shuō),分類分支負(fù)責(zé)計(jì)算每個(gè)區(qū)域的類得分,定位分支被設(shè)計(jì)用來(lái)計(jì)算每個(gè)類存在在每個(gè)區(qū)域的現(xiàn)有概率。然后,將每個(gè)區(qū)域的類得分與每個(gè)類的現(xiàn)有概率的矩陣乘積作為最終的預(yù)測(cè)得分。然而,由于在訓(xùn)練階段只訪問(wèn)圖像級(jí)標(biāo)簽,因此在訓(xùn)練中,對(duì)象中最具區(qū)別性的部分將比整個(gè)對(duì)象實(shí)例得到更多的關(guān)注。由于上述限制,WSDDN存在鑒別區(qū)域問(wèn)題。

整體示意圖:

特征提取階段:

分類分支階段:

定位分支階段:

訓(xùn)練階段:

存在的問(wèn)題:

1.用一個(gè)檢測(cè)框包裹了多個(gè)目標(biāo)。

2.只關(guān)注最具區(qū)分的區(qū)域,無(wú)法定位目標(biāo)整體。

3.2 OICR

為了緩解鑒別區(qū)域問(wèn)題,OICR [31]使用WSDDN為基線,并在基線后添加了三個(gè)實(shí)例分類器細(xì)化過(guò)程。每個(gè)實(shí)例分類器細(xì)化過(guò)程,由兩個(gè)完全連接的層組成,被設(shè)計(jì)用來(lái)進(jìn)一步預(yù)測(cè)每個(gè)建議的類分?jǐn)?shù)。由于每個(gè)實(shí)例分類器細(xì)化過(guò)程的輸出是對(duì)其后一個(gè)細(xì)化過(guò)程的監(jiān)督,OICR可以繼續(xù)學(xué)習(xí),以便更大的區(qū)域可以比WSDDN有更高的分?jǐn)?shù)。雖然WSDDN的預(yù)測(cè)可能只關(guān)注對(duì)象的判別部分,但它將經(jīng)過(guò)多個(gè)實(shí)例分類器細(xì)化過(guò)程后進(jìn)行細(xì)化。

方法:

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-0enlgdIY-1682324796829)(C:\Users\Louis\AppData\Roaming\Typora\typora-user-images\image-20221119105402524.png)]

類別c得分最高框的選擇:

損失函數(shù):

3.3 PCL

僅使用圖像級(jí)注釋來(lái)訓(xùn)練對(duì)象檢測(cè)器的弱監(jiān)督對(duì)象檢測(cè)(WSOD)在對(duì)象識(shí)別中越來(lái)越重要。在本文中,我們?yōu)閃SOD提出了一個(gè)新穎的深網(wǎng)。與以前的網(wǎng)絡(luò)使用多個(gè)實(shí)例學(xué)習(xí)(MIL)將對(duì)象檢測(cè)問(wèn)題轉(zhuǎn)移到圖像分類問(wèn)題的網(wǎng)絡(luò)不同,利用聚類算法對(duì)區(qū)域框聚類,進(jìn)而得到細(xì)粒度監(jiān)督信息并通過(guò)迭代過(guò)程學(xué)習(xí)更精致的實(shí)例分類器。

同一集群中的區(qū)域框在空間相鄰,并與同一對(duì)象相關(guān)聯(lián)。這樣可以防止網(wǎng)絡(luò)過(guò)多地集中在對(duì)象的一部分上,進(jìn)而能夠檢測(cè)對(duì)象的全部區(qū)域。我們證明對(duì)于區(qū)域框集群的生成,可以直接分配實(shí)例對(duì)象或背景標(biāo)簽,例如分類器的細(xì)化,然后證明將每個(gè)集群視為小型的新包效果比直接分配標(biāo)簽方法更好。迭代實(shí)例分類器的細(xì)化是使用卷積神經(jīng)網(wǎng)絡(luò)中的多個(gè)流在線實(shí)施的,其中第一個(gè)是MIL網(wǎng)絡(luò),而其他流則是由前面的分類器進(jìn)行的,例如分類器細(xì)化。實(shí)驗(yàn)是對(duì)WSOD的Pascal VOC,ImageNet檢測(cè)和MS-Coco基準(zhǔn)進(jìn)行的。結(jié)果表明,我們的方法的表現(xiàn)大大優(yōu)于先前的藝術(shù)狀態(tài)。

方法:

這個(gè)PCL是上一個(gè)OICR論文的延伸,主要區(qū)別是該方法在細(xì)化過(guò)程的監(jiān)督信息生成過(guò)程中利用到了聚類算法,生成了偽標(biāo)簽,使效果更好。注意最終測(cè)試時(shí)是取所有細(xì)化過(guò)程區(qū)域框分?jǐn)?shù)的均值,并利用NMS進(jìn)行框的生成。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-SPMLFU5H-1682324796829)(C:\Users\Louis\AppData\Roaming\Typora\typora-user-images\image-20221119110306623.png)]

主要有三個(gè)步驟:

1.尋找聚類中心

兩個(gè)方法

最高分方法和,基于圖的方法

聚類中心包含框位置信息,類別信息,置信度也就是分?jǐn)?shù)信息。

2.生成聚類

對(duì)每個(gè)框,求它和每個(gè)聚類中心的IOU,取最大的IOU,大于閾值就把它分配給這個(gè)聚類。不然就分配給背景類別。

3.為細(xì)化過(guò)程生成監(jiān)督信息并生成損失函數(shù)訓(xùn)練

兩種方法:直接分配標(biāo)簽和把聚類看成新的包

(1)直接分配標(biāo)簽法

監(jiān)督信息H是一個(gè)(C+1)R的向量,表示每個(gè)框的類別概率。保存了框的索引信息和類別信息。

加入權(quán)重系數(shù)進(jìn)行優(yōu)化:

(2)把每個(gè)聚類看成一個(gè)新的包進(jìn)行優(yōu)化:

3.4 W2F

論文題目:W2F: A Weakly-Supervised to Fully-Supervised Framework for Object Detection

概述:

在本文中,我們提出了一種新的弱監(jiān)督到全監(jiān)督框架(W2F)用于目標(biāo)檢測(cè)。與以前的工作不同,我們的框架結(jié)合了完全監(jiān)督學(xué)習(xí)和弱監(jiān)督學(xué)習(xí)的優(yōu)勢(shì)。我們首先使用WSDNN和OICR來(lái)訓(xùn)練一個(gè)端到端的弱監(jiān)督檢測(cè)器(WSD)。然后利用偽標(biāo)簽挖掘模塊(PGE)和偽標(biāo)簽自適應(yīng)模塊(PGA)來(lái)從WSD中提煉出高質(zhì)量的偽標(biāo)簽。最后,將這些偽標(biāo)簽信息輸入一個(gè)完全監(jiān)督的檢測(cè)器,以產(chǎn)生最終的檢測(cè)結(jié)果。對(duì)PASCAL VOC 2007和2012年的大量實(shí)驗(yàn)表明,與之前的弱監(jiān)督檢測(cè)器相比,我們的方法有了顯著的改進(jìn)(mAP分別提升了5.4%和5.3%)。

方法:

就是在OICR基礎(chǔ)上提出了PGE模塊和PGA模塊,PGE生成粗粒度的偽標(biāo)簽,PGA細(xì)化偽標(biāo)簽,最后得到最終可以用于完全監(jiān)督目標(biāo)檢測(cè)的偽標(biāo)簽。

總體架構(gòu):

PGE算法:

1.先選出分?jǐn)?shù)大于閾值的框 2.用IOU刪除被最大框包裹的 3.合并IOU大于閾值的得到粗粒度的偽標(biāo)簽。

PGA算法:

用一個(gè)PRN網(wǎng)絡(luò)來(lái)對(duì)粗粒度標(biāo)簽改進(jìn),主要利用生成的候選框和IOU閾值迭代選擇。

3.5 TS2C

3.6 C-MIL

3.7 SDCN

論文題目:Weakly Supervised Object Detection With Segmentation Collaboration

概述:

SDCN 引入了一種分割-檢測(cè)協(xié)作機(jī)制。它由一個(gè)檢測(cè)分支和分割分支組成,分別負(fù)責(zé)檢測(cè)邊界框和生成分割掩模。在SDCN中,通過(guò)對(duì)每個(gè)建議框中的所有像素設(shè)置一個(gè)分類分?jǐn)?shù),作為分割分支的監(jiān)督掩碼,將檢測(cè)結(jié)果轉(zhuǎn)換為一個(gè)熱圖。同時(shí),選擇分割掩模中與連接區(qū)域重疊最大的區(qū)域框作為檢測(cè)分支的偽標(biāo)簽。對(duì)檢測(cè)分支和分割分支交替進(jìn)行優(yōu)化和提升,使SDCN比OICR具有更好的檢測(cè)性能。

方法:

就是用分割和檢測(cè)相互作用,用分割得到檢測(cè)的偽標(biāo)簽,用檢測(cè)得到分割的熱圖,因?yàn)榉指钅懿蹲降侥繕?biāo)的整體區(qū)域但不能很好地表示物體類別,而檢測(cè)可以很好地得到物體類別但聚焦于物體最易區(qū)分的部分(也就是一個(gè)召回率高,一個(gè)精確度高)。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-4R1uVbui-1682324796830)(C:\Users\Louis\AppData\Roaming\Typora\typora-user-images\image-20221122220309096.png)]

損失函數(shù):

用一個(gè)總的損失函數(shù)實(shí)現(xiàn)端到端訓(xùn)練

數(shù)據(jù)集是PASCAL VOC 2007和2012,評(píng)估指標(biāo)是AP、mAP和CorLoc。

3.8 C-MIDN

論文題目:

概述:

在本文中,我們提出了一種耦合多實(shí)例檢測(cè)網(wǎng)絡(luò)。C-MIDN使用兩個(gè)midn,通過(guò)提案刪除以互補(bǔ)的方式工作。進(jìn)一步提出了一種新的分割引導(dǎo)建議去除算法來(lái)保證建議去除后的MIL約束。最后,我們將MIDN的輸出進(jìn)行了耦合以獲得更緊密的對(duì)象邊界框,并召回更多的對(duì)象。

方法:

就是兩個(gè)多實(shí)例檢測(cè)網(wǎng)絡(luò)互補(bǔ)擦除,以實(shí)現(xiàn)對(duì)目標(biāo)整體的檢測(cè)。主要就是C-MIDN和OICR的細(xì)化過(guò)程。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-utJpeG3A-1682324796830)(C:\Users\Louis\AppData\Roaming\Typora\typora-user-images\image-20221122221323660.png)]

3.9 ICMWSD(重點(diǎn))

論文題目:Instance-aware, context-focused, and memory-effificient weakly supervised object detection

概述:

ICMWSD提出了弱監(jiān)督目標(biāo)檢測(cè)的三大挑戰(zhàn),分別是==(1)目標(biāo)實(shí)例檢測(cè)不完整==,即檢測(cè)數(shù)目不夠或者一個(gè)框包裹了多個(gè)同類目標(biāo)==(2)局部聚焦問(wèn)題==,只關(guān)注目標(biāo)最易區(qū)分的部位而沒有檢測(cè)出目標(biāo)整體區(qū)域==(3)內(nèi)存消耗過(guò)大問(wèn)題。==因?yàn)闆]有框級(jí)真實(shí)標(biāo)簽,需要生成很多候選框,造成內(nèi)存開銷過(guò)大。

針對(duì)上述問(wèn)題,ICMWSD分別提出了多實(shí)例自訓(xùn)練方法選擇偽標(biāo)簽提高實(shí)例選擇精度,利用掩模去除最具區(qū)分的區(qū)域解決局部聚焦問(wèn)題,利用分批反向傳播解決內(nèi)存消耗大問(wèn)題。

方法:

方法總體概述

多實(shí)例自訓(xùn)練算法,生成高質(zhì)量偽標(biāo)簽進(jìn)行接下來(lái)訓(xùn)練

得到后續(xù)學(xué)生網(wǎng)絡(luò)的訓(xùn)練函數(shù),分為回歸損失和分類損失。

丟棄策略,移除最具區(qū)分的區(qū)域,迫使模型關(guān)注其他上下文信息,達(dá)到全局檢測(cè)目的。

批反向傳播,保存部分梯度,減小內(nèi)存開銷。

3.10 SLV(重點(diǎn))

論文題目:SLV: Spatial Likelihood Voting for Weakly Supervised Object Detection

概述:

在本文中,我們提出了一個(gè)空間似然投票(SLV)方法用于弱監(jiān)督目標(biāo)檢測(cè)。我們利用空間似然來(lái)生成精度更高的偽標(biāo)簽,同時(shí)提出了一種多任務(wù)損失函數(shù),縮短弱監(jiān)督和完全監(jiān)督目標(biāo)檢測(cè)之間的差距。所提出的SLV模塊在沒有任何邊界框注釋的情況下收斂了建議的定位過(guò)程,并提出了一個(gè)端到端訓(xùn)練框架。該框架通過(guò)端到端多任務(wù)學(xué)習(xí)獲得了更好的分類和定位性能。在VOC 2007年和2012年的數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,與之前的WSOD方法相比,我們的方法有了實(shí)質(zhì)性的改進(jìn)。

方法:

主要就是利用空間似然來(lái)對(duì)PCL生成的偽標(biāo)簽改進(jìn)得到精度更高的偽標(biāo)簽,然后利用分類和回歸多任務(wù)損失對(duì)得到的偽標(biāo)簽監(jiān)督信息做訓(xùn)練,類似全監(jiān)督學(xué)習(xí),最后得到精確的框。

貢獻(xiàn):

主要就是提出了一個(gè)偽標(biāo)簽生成機(jī)制,改進(jìn)了WSDDN和PCL生成偽標(biāo)簽不足的問(wèn)題。

總體框架:

細(xì)化過(guò)程的分?jǐn)?shù)矩陣被送入SLV模塊并形成偽監(jiān)督信息,就是說(shuō)它多了一步,沒有直接利用細(xì)化過(guò)程的偽監(jiān)督信息,而是在后面加了個(gè)SLV模塊得到最終的偽監(jiān)督信息

生成偽標(biāo)簽過(guò)程:

整體訓(xùn)練過(guò)程:

SLV模塊示意圖

多任務(wù)損失:

3.11 OIM(重點(diǎn)看看)

論文題目:Object Instance Mining for Weakly Supervised Object Detection

概述:

本文提出了一種端到端對(duì)象實(shí)例挖掘框架,以解決現(xiàn)有WSOD方法的局限性。提出了利用空間圖和外觀圖進(jìn)行對(duì)象實(shí)例挖掘,使網(wǎng)絡(luò)能夠更好地學(xué)習(xí)非顯著區(qū)域特征,在此基礎(chǔ)上可以檢測(cè)到屬于同一個(gè)類的更多可能的對(duì)象。同時(shí)提出了對(duì)象實(shí)例重加權(quán)損失,通過(guò)學(xué)習(xí)每個(gè)圖像中更大部分的目標(biāo)對(duì)象實(shí)例來(lái)進(jìn)一步幫助OIM。在兩個(gè)公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法比最先進(jìn)的WSOD方法具有競(jìng)爭(zhēng)力或優(yōu)越的性能。

方法:

解決問(wèn)題:屬于同一個(gè)類別的不同實(shí)例不能分別檢測(cè)出來(lái)。

解決方法:利用空間圖來(lái)更好的定位每個(gè)實(shí)例,利用外觀圖更好地挖掘同一類別下其他的對(duì)象實(shí)例。

針對(duì)空間圖和外觀圖提出了一個(gè)實(shí)例重加權(quán)的損失函數(shù):

3.12 IM-CFB

論文題目:Instance Mining with Class Feature Banks for Weakly Supervised Object Detection

概述:

在本文中,我們提出了一個(gè)具有類特征庫(kù)(IM-CFB)的實(shí)例挖掘框架,該框架能夠存儲(chǔ)和利用類級(jí)信息進(jìn)行弱監(jiān)督目標(biāo)檢測(cè)??紤]到類內(nèi)的多樣性,類特征銀行(CFB)模塊被設(shè)計(jì)用于在線記錄和更新邊框級(jí)信息,為每個(gè)類別帶來(lái)更廣泛的視角。利用CFB中記錄的特征,引入了特征引導(dǎo)實(shí)例挖掘(FGIM)算法來(lái)改善MIL分支的區(qū)域建議選擇。在兩個(gè)基準(zhǔn)數(shù)據(jù)集,即PASCAL VOC 2007和2012上進(jìn)行了大量的實(shí)驗(yàn),證明了該方法的有效性。

主要就是利用CFB模塊和FGIM算法來(lái)對(duì)MIL基本框架得到的區(qū)域分?jǐn)?shù)作改進(jìn),得到更好的偽標(biāo)簽信息、

方法:

最終損失:

把MIL和FGIM和OIR以及最后RCNN的回歸損失都加上。

3.13 SLV-SD

論文題目:Spatial likelihood voting with self-knowledge distillation for weakly supervised object detection

概述:

本文提出了一種有效的WSOD框架,稱為SLV-SD網(wǎng)絡(luò)。我們提出將大多數(shù)基于mil的模型中的實(shí)例分類問(wèn)題重新定義為多任務(wù)問(wèn)題,以縮小弱監(jiān)督和完全監(jiān)督目標(biāo)檢測(cè)之間的差距。SLV模塊使用區(qū)域建議分?jǐn)?shù)來(lái)生成準(zhǔn)確的實(shí)例提升注釋,從而收斂模型中的區(qū)域建議本地化。利用SLV模塊,SD模塊細(xì)化了圖像的特征表示,從而提高了檢測(cè)性能。在PASCAL VOC 2007/2012和MS-COCO數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)結(jié)果表明,SLV-SD Net顯著提高了性能,優(yōu)于其他最先進(jìn)的模型。

方法:

主要是在SLV基礎(chǔ)上提出了自適應(yīng)選擇算法以應(yīng)對(duì)單個(gè)類別多個(gè)實(shí)例的情況,同時(shí)利用自知識(shí)蒸餾的方法來(lái)細(xì)化圖像特征分布,達(dá)到全局激活地目的。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-pc7rkGmV-1682324796830)(C:\Users\Louis\AppData\Roaming\Typora\typora-user-images\image-20221126222754945.png)]

自適應(yīng)搜索算法:

效果:

自知識(shí)蒸餾算法:

效果:

貢獻(xiàn):

1.解決了單類別多實(shí)例問(wèn)題

2.解決局部聚焦的問(wèn)題

3.14 DKR-MIDN(重點(diǎn))

論文題目:Distilling Knowledge from Refifinement in Multiple Instance Detection Networks

概述:

在本文中,我們提出了兩個(gè)改進(jìn)來(lái)提高OICR方法。首先,我們提出了一種知識(shí)蒸餾方法,對(duì)細(xì)化過(guò)程進(jìn)行加強(qiáng),來(lái)提取額外的知識(shí)。其次,我們提出了一個(gè)自適應(yīng)監(jiān)督聚合函數(shù),它改進(jìn)了每個(gè)細(xì)化過(guò)程,可以更好的識(shí)別同類別下不同的實(shí)例。這兩種貢獻(xiàn)都是使用OICR作為基線方法構(gòu)建的,并且所提出的貢獻(xiàn)能夠提供比OICR基線方法高出7.4 mAP的提升。

方法:

主要就是用知識(shí)蒸餾對(duì)OICR的k個(gè)細(xì)化過(guò)程作加權(quán),同時(shí)提出了一個(gè)新的損失函數(shù)來(lái)解決同類別不同實(shí)例檢測(cè)不完整的問(wèn)題。

知識(shí)蒸餾:

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-2sfnv6RO-1682324796831)(C:\Users\Louis\AppData\Roaming\Typora\typora-user-images\image-20221126233058428.png)]

自適應(yīng)聚合函數(shù)

貢獻(xiàn):

1.同類別不同實(shí)例檢測(cè)不完整。

3.15 WSOD2

論文題目:WSOD2 : Learning Bottom-up and Top-down Objectness Distillation for Weakly-supervised Object Detection

概述:

在本文中,我們提出了一種新的弱監(jiān)督目標(biāo)檢測(cè)與自下而上和自頂向下的目標(biāo)蒸餾來(lái)提高CNN的深度目標(biāo)性表示。利用自底而上的對(duì)象證據(jù)來(lái)測(cè)量邊界框包含一個(gè)完整目標(biāo)的概率,并以自適應(yīng)訓(xùn)練的方式在CNN中提取邊界特征。我們還提出了一種以端到端方式集成了邊界框回歸和漸進(jìn)式實(shí)例分類器的訓(xùn)練策略。我們用我們的方法對(duì)WSOD任務(wù)的一些標(biāo)準(zhǔn)數(shù)據(jù)集和設(shè)置進(jìn)行了實(shí)驗(yàn)。

方法:

主要就是對(duì)偽標(biāo)簽生成進(jìn)行了改進(jìn),同時(shí)在OICR上加入了回歸分支。

3.16 HQP

論文題目:High-Quality Proposals for Weakly Supervised Object Detection

概述:

本文提出了一種有效的弱監(jiān)督目標(biāo)檢測(cè)方法,該方法是通過(guò)在最先進(jìn)的OICR系統(tǒng)[2]中添加兩個(gè)重要的模塊來(lái)實(shí)現(xiàn)的。一種是提案生成,它側(cè)重于用更高的欠條生成更多的對(duì)象提案。另一個(gè)是提案選擇,目的是選擇盡可能多的積極提案,挖掘歧視性的硬否定,使培訓(xùn)更有效。在PASCAL VOC 2007和2012數(shù)據(jù)集和MS COCO數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的WSOD方法相比,我們的方法顯著提高了基線方法OICR [2],并取得了最先進(jìn)的結(jié)果。

方法:

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-XjD4hn8P-1682324796831)(C:\Users\Louis\AppData\Roaming\Typora\typora-user-images\image-20221129233201605.png)]

就是提出了候選框生成和候選框選擇兩個(gè)模塊。

具體來(lái)說(shuō),提案生成模塊的目的是獲得更多高質(zhì)量的提案框,與真實(shí)標(biāo)簽有更高的IOU,從而可以更好地適合整個(gè)對(duì)象。提案選擇是一種迭代操作,目的是自適應(yīng)地選擇正實(shí)例的提案框,同時(shí)挖掘負(fù)實(shí)例以細(xì)化目標(biāo)檢測(cè)器。

3.17 TPE

論文題目:Towards Precise End-to-end Weakly Supervised Object Detection Network

概述:

大多數(shù)現(xiàn)有的WSOD方法傾向于使用多階段的學(xué)習(xí)方法,即首先使用多實(shí)例學(xué)習(xí)檢測(cè)器生成偽標(biāo)簽,然后使用帶有邊界盒回歸的完全監(jiān)督學(xué)習(xí)檢測(cè)器。根據(jù)我們的觀察,這個(gè)過(guò)程可能會(huì)導(dǎo)致某些對(duì)象類別的局部極小值。在本文中,我們建議以端到端的方式聯(lián)合訓(xùn)練這兩個(gè)階段來(lái)解決這個(gè)問(wèn)題。具體來(lái)說(shuō),我們?cè)O(shè)計(jì)了一個(gè)單一的網(wǎng)絡(luò),其中的多個(gè)實(shí)例學(xué)習(xí)和邊界盒回歸分支共享相同的主干。同時(shí),在主干中添加一個(gè)基于分類損失的引導(dǎo)注意模塊,以有效地提取特征中的隱式位置信息。在公共數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法取得了最先進(jìn)的性能

方法:

就是多加了個(gè)回歸分支,代替了兩階段的全監(jiān)督模型,融合成一個(gè)端到端的模型。

并且提出了一個(gè)注意力模塊來(lái)加強(qiáng)特征的提取。

3.18 ODCL

論文題目:Object Discovery via Contrastive Learning for Weakly Supervised Object Detection

概述:

我們提出了一種新的多實(shí)例標(biāo)記方法來(lái)取代傳統(tǒng)的基于目標(biāo)的偽標(biāo)簽標(biāo)記方法。為此,我們?yōu)閃SOD設(shè)置引入了一個(gè)對(duì)比損失,該設(shè)置為同一類中的區(qū)域框?qū)W習(xí)一致的嵌入特征,而對(duì)不同類中的區(qū)域框?qū)W習(xí)區(qū)別特征。有了這些特性,就可以挖掘大量可靠的偽標(biāo)簽,從而為WSOD任務(wù)提供更豐富的監(jiān)督。

方法:

就是利用了對(duì)比學(xué)習(xí)獲得類別的嵌入特征,進(jìn)而得到更精確的偽標(biāo)簽。

提出了一個(gè)采樣策略來(lái)生成類別的嵌入特征,進(jìn)而對(duì)其實(shí)例進(jìn)行挖掘。

第一步是IOU采樣,獲得與最高分IOU大于閾值的區(qū)域框。第二步是隨機(jī)掩模。第三步是加入高斯噪聲。最終可以獲得對(duì)應(yīng)地嵌入特征。

然后根據(jù)對(duì)比學(xué)習(xí)方法,獲取到其他的同一類別的實(shí)例,得到其偽標(biāo)簽。

并提出了一個(gè)損失函數(shù):

偽標(biāo)簽生成機(jī)制不同方法:OICR、PCL、W2F、OAIL、WSOD2、SLV、CASD、OIM、MIST(ICMWSD)、TPE。

e Learning for Weakly Supervised Object Detection**

概述:

我們提出了一種新的多實(shí)例標(biāo)記方法來(lái)取代傳統(tǒng)的基于目標(biāo)的偽標(biāo)簽標(biāo)記方法。為此,我們?yōu)閃SOD設(shè)置引入了一個(gè)對(duì)比損失,該設(shè)置為同一類中的區(qū)域框?qū)W習(xí)一致的嵌入特征,而對(duì)不同類中的區(qū)域框?qū)W習(xí)區(qū)別特征。有了這些特性,就可以挖掘大量可靠的偽標(biāo)簽,從而為WSOD任務(wù)提供更豐富的監(jiān)督。

方法:

就是利用了對(duì)比學(xué)習(xí)獲得類別的嵌入特征,進(jìn)而得到更精確的偽標(biāo)簽。

提出了一個(gè)采樣策略來(lái)生成類別的嵌入特征,進(jìn)而對(duì)其實(shí)例進(jìn)行挖掘。

第一步是IOU采樣,獲得與最高分IOU大于閾值的區(qū)域框。第二步是隨機(jī)掩模。第三步是加入高斯噪聲。最終可以獲得對(duì)應(yīng)地嵌入特征。

然后根據(jù)對(duì)比學(xué)習(xí)方法,獲取到其他的同一類別的實(shí)例,得到其偽標(biāo)簽。

并提出了一個(gè)損失函數(shù):

偽標(biāo)簽生成機(jī)制不同方法:OICR、PCL、W2F、OAIL、WSOD2、SLV、CASD、OIM、MIST(ICMWSD)、TPE。

柚子快報(bào)激活碼778899分享:弱監(jiān)督目標(biāo)檢測(cè)相關(guān)論文閱讀筆記

http://yzkb.51969.com/

好文閱讀

評(píng)論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。

轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://m.gantiao.com.cn/post/18874059.html

發(fā)布評(píng)論

您暫未設(shè)置收款碼

請(qǐng)?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問(wèn)

文章目錄