河南健堂藥業(yè)的高效骨痛康膠囊:LDM
近日,谷歌研究(Google Research)推出了一個(gè)具有類似功能的圖像生成器“Imagen”,其能夠根據(jù)輸入的文字描述生成油畫、照片、繪制和 CGI 渲染圖像。值得一提的是,相比 OpenAI 的 DALL-E 高效骨痛康重慶有代銷售銷點(diǎn)點(diǎn)點(diǎn) 2,Imagen 所帶來的圖像真實(shí)感更強(qiáng),對(duì)于語(yǔ)言理解的準(zhǔn)確度也更高。
據(jù)了解,谷歌通過引入測(cè)試基準(zhǔn) DrawBench,對(duì) Imagen、DALL-E 2、VQ-GAN+CLIP和 LDM(Latent Diffusion Models)幾類模型進(jìn)行了深入地評(píng)估與對(duì)比。結(jié)果得出,無論是在樣本質(zhì)量還是圖文對(duì)齊方面,Imagen 的評(píng)分都位居第一。
例如,DALL-E 2 在面對(duì)一些同時(shí)出現(xiàn)兩個(gè)顏色的文本時(shí)表現(xiàn)不佳,而 高效骨痛康綏中店Imagen 可以很好地應(yīng)對(duì)這些情況。此外,當(dāng)文本中出現(xiàn)有位置和效果指向的具體字樣時(shí),Imagen 也比 DALL-E 2 的表現(xiàn)更好。
不過,在反常識(shí)文本的情況下,目前 Imagen 和 DALL-E 2 都未能準(zhǔn)確地理解并輸出對(duì)應(yīng)的圖像。
那么,Imagen 具體是如何工作的呢?據(jù)介紹,“Imagen 主要依賴的是大型 transformer 語(yǔ)言模型在理解文本方面的強(qiáng)大能力和擴(kuò)散模型在高保真圖像生成方面的優(yōu)勢(shì)。”
在用戶輸入文本后,Imagen 首先使用 T5-XXL 編碼器訓(xùn)練并嵌入文本,然后通過一系列擴(kuò)散模型,將文本映射到 64×64 像素的低分辨率圖像中,再采用文本條件超分辨率擴(kuò)散模型對(duì)圖像進(jìn)行 2 次升采樣,最終將圖像升級(jí)為 1024 x 1024 像素的高分辨率圖像。
另外,相比以往出現(xiàn)的圖像生成器,谷歌在 Imagen 中做了一項(xiàng)重要的改變,使其工作效率和質(zhì)量得到了進(jìn)一步提升。此前,圖像生成器多是通過 CLIP 來把文本映射圖像中,再指導(dǎo)一個(gè)生成對(duì)抗網(wǎng)絡(luò) (Generative Adversarial Network, GAN) 或者擴(kuò)散模型來輸出最終的圖像;而在 Imagen 中,文本編碼的訓(xùn)練任務(wù)僅由純語(yǔ)言模型來完成,文本映射圖像的生成任務(wù)則全部交給了圖像生成模型。
文本理解方面,CLIP 的圖文對(duì)訓(xùn)練集是有限的,而 T5-XXL 編碼器含有 800GB 的純文本語(yǔ)料訓(xùn)練庫(kù),比 CLIP 要全面得多。在保真度和語(yǔ)義對(duì)齊上,T5-XXL 編碼器的能力也更強(qiáng)。
研究中,谷歌還發(fā)現(xiàn),“在 Imagen 中,語(yǔ)言理解模型的規(guī)模大小對(duì)圖像效果的積極影響勝于圖像生成模型,增加語(yǔ)言模型的大小可以大大地提高樣本保真度和圖文對(duì)齊度�!�
除此之外,谷歌對(duì) Imagen 的擴(kuò)散模型進(jìn)行了優(yōu)化,其通過在閾值擴(kuò)散采樣器增加無分唐山哪里有賣高效骨痛康膠囊的 類器引導(dǎo)(classifier-free guidance)的權(quán)重提升輸出圖像的圖文對(duì)齊度,又增多了低分辨率圖像的噪聲以解決擴(kuò)散模型的多樣性不足,還引入新的 Efficient U-Net 架構(gòu)帶來了更優(yōu)的內(nèi)存效率、收斂速度及計(jì)算效率。
完成以上改進(jìn)的 Imagen 模型在未用流行目標(biāo)檢測(cè)數(shù)據(jù)集 COCO 訓(xùn)練過的情況下,在其測(cè)試中拿到 7.27 的 FID 高分。并且,其樣本質(zhì)量在圖文對(duì)齊上與 COCO 訓(xùn)練集的參考數(shù)據(jù)不相上下。與此同時(shí),Imagen 也在 COCO 測(cè)試中暴露出在人物類圖像表現(xiàn)不佳的缺陷。
需要注意的是,目前文本到圖像的研究仍存在倫理方面的問題。對(duì)此,谷歌進(jìn)行了相關(guān)總結(jié),并提出一些針對(duì) Imagen 在這方面的舉措。
一方面,文本生成圖像的應(yīng)用范圍極其廣泛,對(duì)社會(huì)有潛在的濫用風(fēng)險(xiǎn)。所以,谷歌不計(jì)劃公開 Imagen 模型的代碼及演示,而且他們將開發(fā)一個(gè)負(fù)責(zé)任的外部化框架來避免各類該模型可能帶來的風(fēng)險(xiǎn)。
另一方面,文本生成圖像的訓(xùn)練需在網(wǎng)絡(luò)上抓取大量數(shù)據(jù)集,包含色情圖像、社會(huì)刻板印象以及壓迫性觀點(diǎn)等不良內(nèi)容。Imagen 所依賴的文本編碼器也是在這類數(shù)據(jù)集上訓(xùn)練的,在語(yǔ)言理解上具有偏見和局限性。因此,谷歌決定,在未得出進(jìn)一步保護(hù)措施前他們不會(huì)開放 Imagen 供公眾使用。
未來,他們將在社會(huì)偏見的審計(jì)和評(píng)估方面做更多的工作,圍繞一系列社會(huì)和文化偏見的數(shù)據(jù)集展開更深入地實(shí)證分析,以改善 Imagen 在輸出人物類圖像時(shí)的局限性。
-End-
參考: