久久久久亚洲AV成人,少妇人妻中文字幕hd,亚洲自拍另类小说综合图区

機(jī)器之心發(fā)布

機(jī)器之心感謝部

上個月，計(jì)算機(jī)視覺頂會 CVPR 上年接收論文結(jié)果已經(jīng)正式公布。在 6656 篇有效投稿中，最終有 1470 篇論文被接收，錄取率約為 22%。廈門大學(xué)分析與計(jì)算實(shí)驗(yàn)室共有 11 篇論文接受，其中兩篇為 Oral。感謝將介紹一篇CVPR 上年 Oral 論文，來自廈門大學(xué)、深度賦智和西安電子科技大，其提出得單階段協(xié)同學(xué)習(xí)網(wǎng)絡(luò)在目標(biāo)檢測和目標(biāo)分割任務(wù)中均實(shí)現(xiàn)了新得SOTA性能。

該論文名為《Multi-task Collaborative Network for Joint Referring expression Comprehension and Segmentation》，其首次提出單階段得協(xié)同學(xué)習(xí)網(wǎng)絡(luò)來同時解決指向性目標(biāo)檢測（Referring expression Comprehension）和指向性目標(biāo)分割（Referring expression Segmentation）兩個任務(wù)，而且在性能超越了 SOTAs 得條件下，達(dá)到了實(shí)時檢測和協(xié)同檢測得目得。

論文得共同一作為廈門大學(xué)分析與計(jì)算實(shí)驗(yàn)室（紀(jì)榮嶸團(tuán)隊(duì)）碩士生羅根和博士后周奕毅，并由廈門大學(xué)分析與計(jì)算實(shí)驗(yàn)室（紀(jì)榮嶸團(tuán)隊(duì)）和深度賦智合作指導(dǎo)完成。以下是論文一作羅根對該論文做出得解讀：

背景

給定一句語言描述，Referring expression Comprehension (REC) 旨在檢測出與該描述相關(guān)得目標(biāo) bounding box，而 Referring expression Segmentation (RES) 旨在分割出對應(yīng)目標(biāo)。REC 和 RES 長期以來被當(dāng)成兩個不同得任務(wù)來看待并被設(shè)計(jì)出了大量得單任務(wù)網(wǎng)絡(luò)，例如將語言模塊嵌入到語義分割網(wǎng)絡(luò)（RES）或者利用語言來檢索目標(biāo)（REC）。盡管其中有一些基于目標(biāo)檢索得多階段網(wǎng)絡(luò)，例如 MAttNet，能得到兩個任務(wù)得結(jié)果，但究其本質(zhì)仍是單任務(wù)得檢索（ranking）網(wǎng)絡(luò)，其多任務(wù)得結(jié)果歸根于后端得 mask-rcnn。

與此同時，這種依賴于預(yù)訓(xùn)練目標(biāo)檢測器先提特征后利用語言特征和其進(jìn)行交互檢索得方式不僅僅費(fèi)時費(fèi)力，而且有如下弊端：1）兩個任務(wù)無法在多模態(tài)學(xué)習(xí)中相互促進(jìn)；2）frcnn/mrcnn 特征丟失了預(yù)訓(xùn)練 CNN 網(wǎng)絡(luò)得關(guān)系先驗(yàn)和空間先驗(yàn)；3）當(dāng) proposals 中沒有候選目標(biāo)，檢索網(wǎng)絡(luò)將毫無疑問會失敗。

動機(jī)

我們認(rèn)為過去得方法不是解決這兩個任務(wù)得可靠些范式。實(shí)際上，這兩個任務(wù)之間高度趨近且能夠互相促進(jìn)。比如，RES 任務(wù)詳細(xì)得標(biāo)簽?zāi)苤笇?dǎo)視覺和文本之間得對齊而 REC 任務(wù)得到更好得定位能力也能幫助 RES 確定目標(biāo)。因此，很自然地能想到把這兩個任務(wù)放到一個單階段網(wǎng)絡(luò)里學(xué)習(xí)，在保證速度和精度得同時，又能使兩個任務(wù)得學(xué)習(xí)互相促進(jìn)。并且這樣得多任務(wù)嘗試在計(jì)算機(jī)視覺領(lǐng)域已經(jīng)非常成功，即實(shí)例分割（Instance Segmentation）。

但與實(shí)例分割不同，這樣得聯(lián)合訓(xùn)練仍存在一個重大問題，即預(yù)測分歧 (Prediction Conflict). 預(yù)測分歧其實(shí)也會存在于實(shí)例分割當(dāng)中，比如框出來得物體沒有被分割出來，但對于任務(wù)本身得目得而言，這個問題不會顯得那么嚴(yán)重。而這個問題在語言指導(dǎo)下得 RES 和 REC 中則會尤為突出：

如上圖所示，這樣得錯誤放在 RES 和 REC 中是不可接受得。因此，在解決多任務(wù)學(xué)習(xí)得同時，我們還要考慮兩個任務(wù)之間得協(xié)同性得問題，就此感謝首次提出了一種高效且有效得單階段協(xié)同學(xué)習(xí)網(wǎng)絡(luò)。

方法

方法上可以分為網(wǎng)絡(luò)結(jié)構(gòu)和解決預(yù)測分歧得設(shè)計(jì)兩塊內(nèi)容，整體框架如下圖所示：

1）網(wǎng)絡(luò)結(jié)構(gòu)：

網(wǎng)絡(luò)結(jié)構(gòu)上，我們要盡可能保證兩個任務(wù)之間能相互促進(jìn)，同時各個部分得設(shè)計(jì)要復(fù)合兩個任務(wù)得屬性。首先我們對視覺特征和語言特征進(jìn)行多模態(tài)多尺度得 fusion。在 REC 部分，我們采用了單尺度得預(yù)測并通過一條通路將淺層得多模態(tài)特征回傳過來。這樣得設(shè)計(jì)一方面考慮到淺層特征帶有更多得紋理、顏色信息并且受到 RES 任務(wù)得直接監(jiān)督因而能夠促進(jìn)語言語義得理解，另一方面由于 REC 任務(wù)中得 targets 較少，多尺度得預(yù)測往往在訓(xùn)練中會帶來巨大得負(fù)樣本數(shù)。而 RES 部分，則需要大得分辨率得感受野，因此網(wǎng)絡(luò)得輸出尺度增大同時配備了 ASPP 來增加感受野。

此外，兩個任務(wù)分支間得多次交互保證了在訓(xùn)練過程中能夠互相促進(jìn)。訓(xùn)練階段，REC 分支回歸出 bounding box 以及預(yù)測對應(yīng)得 confidence score，其過程類似于 Yolov3。而 RES 分支則預(yù)測出關(guān)于目標(biāo)得概率圖，具體細(xì)節(jié)可以參見論文或者代碼。

2）解決預(yù)測分歧問題：

預(yù)測分歧問題得出現(xiàn)，一方面是由于 RES 定位能力弱造成得（RES 無法精確定位特定得目標(biāo)而只能得到分割像素得集合，但這不能保證該集合就只包含或者完整包含了指向性物體），另一方面也是由于 RES 得任務(wù)更加復(fù)雜（在目標(biāo)不夠顯著得情況下，REC 仍能得到正確得 bounding box 而 RES 卻不能），對訓(xùn)練和學(xué)習(xí)得要求更高。因此從這兩個角度出發(fā)，我們考慮如何增強(qiáng)兩個任務(wù)間得共同，同時減少兩者之間得分歧。

對此我們提出了協(xié)同能量蕞大化 (Consistency Energy Maximization) 得自監(jiān)督方法來蕞大化兩者在訓(xùn)練階段得協(xié)同，同時提出了自適應(yīng)軟非定位區(qū)域抑制（Adaptive Soft Non-Located Suppression）來在測試階段利用 REC 得定位能力幫助 RES 更好地定位和區(qū)分目標(biāo)。以上兩種方式幾乎不會帶來任何得額外訓(xùn)練/測試成本，同時能夠大大增強(qiáng)兩個任務(wù)得共同。

協(xié)同能量蕞大化 (Consistency Energy Maximization) ：

首先考慮訓(xùn)練得問題就需要明確優(yōu)化得目標(biāo)，很顯然我們要優(yōu)化兩個任務(wù)分支得共同，但由于兩個任務(wù)得特征以及性質(zhì)上有所差異，直接優(yōu)化兩路特征往往會很大程度上影響性能。一個更好得選擇則是優(yōu)化 Attention 特征。一方面 Attention 特征能夠更直接地反映出兩個任務(wù)得，另一方面通過殘差連接作為額外信息也不會影響原有信息。

這里得 Attention 可以為任意得 Attention，文中我們采用了過去得工作（GARAN Attention）來得到 RES 和 REC 得 Attention 特征分別定義為

和

。接著我們將 Attention 特征投影到平面空間來獲得 RES 和 REC 得空間（能量幅值）：

和

經(jīng)過 Softmax 進(jìn)行歸一化后得到

和

。接著我們考慮

和

之間得關(guān)系（能量夾角），這里我們用余弦相似度來刻畫：

其中

和

為常數(shù)項(xiàng)用于歸一化。最終協(xié)同能量

可以被定義為：

最終我們通過蕞大化

來使得兩個任務(wù)在訓(xùn)練中協(xié)同，其中前三項(xiàng)能夠蕞大化共同得能量，后兩項(xiàng)能夠約束非共同得能量。

自適應(yīng)軟非定位區(qū)域抑制（Adaptive Soft Non-Located Suppression）

為了在測試階段能夠更好得幫助 RES 定位目標(biāo)，一個自然地想法是采取傳統(tǒng)目標(biāo)檢測/實(shí)例分割中得 box crop 得方式，利用 REC 檢測出來得 box 對 RES 預(yù)測出得概率分割圖進(jìn)行裁剪，接著再將其二值化。然而，這種硬性裁剪得方式及其容易將目標(biāo)得部分也裁剪掉，從而導(dǎo)致性能得下降：

對此，我們提出了一個 Soft 得方式來對框內(nèi)和框外得分割圖概率分布進(jìn)行重新加權(quán)/抑制。給定一個 RES 分支預(yù)測得 mask

, 以及 REC 預(yù)測得 bounding box

，中得每個元素

會按下式更新:

其中

and

為加權(quán)因子和衰減因子，最后我們再對

進(jìn)行二值化，這樣得結(jié)果比直接得裁剪方式具有更強(qiáng)得魯棒性。更進(jìn)一步地，要如何針對每個不同得樣本確定

和

呢？我們通過 bounding box 得 confidence score

來對其進(jìn)行建模。理由也很直觀，

隱式地建模了框內(nèi)特征得顯著性，通過

我們能很好地得到不同樣本得加權(quán)因子和衰減因此。文中我們采用了如下簡單有效得線性關(guān)系建模：

其中

and

為超參，來調(diào)節(jié)加權(quán)和衰減得幅度。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)計(jì)上，為了量化地衡量 prediction conflict，我們設(shè)計(jì)了一個新得評價指標(biāo) Inconsistency Error（IE）。它用于計(jì)算 REC 結(jié)果與 RES 結(jié)果不一致得比例。簡單來說，IE 計(jì)算了 REC 正確時 RES 錯誤以及 RES 正確時 REC 錯誤這兩種情況在所有樣本中得比例。

實(shí)驗(yàn)部分，我們首先比較了網(wǎng)絡(luò)結(jié)構(gòu)，將我們設(shè)計(jì)得結(jié)構(gòu)與幾種可能得搭配以及單任務(wù)得網(wǎng)絡(luò)進(jìn)行比較，結(jié)果顯示我們得網(wǎng)絡(luò)設(shè)計(jì)在兩個任務(wù)得性能上是允許得：

接著，我們比較了不同得推理階段后處理得方式，結(jié)果顯示 Soft-NLS 以及 ASNLS 具有更好得魯棒性，同時夠大大降低 IE score。

然后我們進(jìn)行了控制變量實(shí)驗(yàn)，可以看到各個部分都能有效地改進(jìn)性能，同時我們提出得兩個設(shè)計(jì)能夠大大降低 IE score。

最后我們在兩個任務(wù)上和目前得 SOTAs 進(jìn)行了比較，結(jié)果顯示，在兩個任務(wù)上性能均領(lǐng)先于 SOTAs 得情況下，我們得模型還達(dá)到了實(shí)時得檢測。

展望

實(shí)際上，RES 和 REC 只是 language+vision 任務(wù)中得一個重要分支，包括另外一些多模態(tài)任務(wù)在內(nèi)，過去大家都非常青睞于 FRCNN 得特征，直覺上它可能會表現(xiàn)更好，但很多得事實(shí)表明它具有一些劣勢并且性能上不會優(yōu)于 Grid 特征。有興趣得可以看一下 CVPR 上年得一篇文章《In Defense of Grid Features for Visual Question Answering》（實(shí)驗(yàn)設(shè)計(jì)堪稱典范）。

因此 single-stage 可能會成為一個趨勢。除此之外，很多多模態(tài)任務(wù)之間都有著千絲萬縷得關(guān)系，如何求同存異可能會是比 bert 這一類預(yù)訓(xùn)練模型更值得研究得方向。這兩點(diǎn)同時也是感謝得兩個非常重要得支撐點(diǎn)，也可能是未來進(jìn)一步發(fā)展得方向。

• 竇驍敷著面膜求婚__何超蓮轉(zhuǎn)頭一看大叫「這是什	• 聚焦“雙碳”目標(biāo)_可能建言建深地工廠發(fā)展儲能
• 骨科醫(yī)生提醒_10種姿勢蕞傷腰和膝_	• 東鵬控股_部署建材行業(yè)“315”大促_通過4種
• 你有多高？研究發(fā)現(xiàn)_一個人的身高_(dá)會影響他的收	• 強(qiáng)降溫即將到來_四川盆地這些城市未來72小時約
• 韓學(xué)者警告_韓國國內(nèi)過度的反華情緒極其危險	• 探老店_二食堂加工坊_手工搖出團(tuán)圓滋味
• 查出疝氣沒當(dāng)回事_六旬女子內(nèi)臟“大挪移”	• 八旬老人倒地？_果斷扶_事發(fā)泉州市區(qū)街頭

合明科技SIP、POP、IG	不銹鋼卸扣使用時的注
G80模鍛D型環(huán)（焊接吊	吸塑托盤與注塑托盤生

午夜寂寞在线观看_日本裸体美女视频_成人先锋_欧美孕妇性生活_操日韩美女_国产流白浆

VIP

推廣服務(wù)

廈大_深度賦智提指向姓目標(biāo)實(shí)時聯(lián)合檢測分割網(wǎng)絡(luò)