0
| 本文作者: 我在思考中 | 2022-04-08 11:52 |

作者 | Ailleurs、錢磊
編輯 | 陳彩嫻
大家還記得去年 1 月 OpenAI 發布的 120 億參數魔法模型 DALL·E 嗎?
當時,DALL·E 的畫風是這樣的:

只要「閱讀」文本,DALL·E 就能根據文本的內容「自動」生成栩栩如生的大師級畫像。因此,當時一經發布,DALL·E 就火遍了 AI 圈,吸粉無數,也讓 Language-Vision(文本-視覺)方向又火了一把。
就在今天!時隔一年后,OpenAI 結合 CLIP,又發布了 DALL·E 的第二個版本——DALL·E 2.0!
相比 DALL·E 1.0,DALL·E 2.0 可以生成更真實和更準確的畫像:綜合文本描述中給出的概念、屬性與風格等三個元素,生成「現實主義」圖像與藝術作品!分辨率更是提高了4倍!
比如,當提示文本中分別包含「概念」“An astronaut ”(一個宇航員)、「屬性」“riding a horse”(在騎一匹馬)和「 風格」“in a phtprealistic style”(超現實風格)時:
DALL·E 2可以生成如下這些同時包含三種元素的圖像:



在滿足三種給定元素的基礎上,它可是充分發揮了自己的「想象力」,不僅馬的姿態各不相同,而且給宇航員穿上了樣式各異的服裝,場景也是十分豐富,草地上、山頂上、星空中......
神不神奇!牛不牛!
如果你想要變換文本中概念、屬性和風格三個元素中的一個或多個,比如保留「概念」“一個宇航員”和「屬性」“在騎一匹馬”,而將超現實主義風格替換為波普藝術家安迪·沃霍爾的風格,DALL·E 2也可以「輕松」轉換它的繪畫風格:
DALL·E 2生成的圖像:

DALL·E 2生成的圖像:

DALL·E 2生成的圖像:

DALL·E 2生成的圖像:

DALL·E 2生成的圖像:

DALL·E 2生成的圖像:

DALL·E 2生成的圖像:

DALL·E 2生成的圖像:

DALL·E 2生成的圖像:

1、圖像編輯
DALL·E 2 可以根據自然語言描述的標題對現有圖像進行逼真的編輯,比如,在考慮陰影、反射和紋理的同時增加或刪除圖中的某個元素。示例如下:
文本描述的編輯需求:選擇一個位置在圖中添加火烈鳥。
原圖 vs. DALL·E 2編輯后的圖像:

原圖 vs. DALL·E 2編輯后的圖像:

2、風格變體
DALL·E 2 可以拍攝一張圖片,然后根據原圖制作出同一個風格的不同畫像。示例如下:
原圖 1:

DALL·E 2 創造的同一風格圖像:

原圖 2:

DALL·E 2 創造的同一風格圖像:

原圖 3:

DALL·E 2 創造的同一風格圖像:

原圖 4:

DALL·E 2 創造的同一風格圖像:

對于AI從文本生成的圖像,我們非常看重的一點當然是圖像的分辨率了,圖像的分辨率越高,像素數量就越多,圖像也就越清晰和逼真。與DALL·E 1相比,DALL·E 2的分辨率提高了4倍!
比如,對于同樣的文本提示:
下面兩張圖分別是DALL·E 1 和DALL·E 2所生成圖像的對比:

對比之下,DALL·E 1 生成的圖像可以說是很模糊了,甚至根本看不出「日出」在哪里,「狐貍」只顯露出它的頭部,「田野」也不太有田野的樣子,而且在整體風格上與畫家莫奈的印象派風格相去甚遠。
而在DALL·E 2的魔法手筆下,圖像質量顯著提高,「日出」和「田野」都很生動,小狐貍端坐在草地上,姿態可愛。這幅畫作色彩更加豐富,使用了更多的復色,對光影的描繪更加接近莫奈的風格。
總體來說,相比 DALL·E 1.0,DALL·2 顯然能 hold 住元素更豐富、色彩更飽滿的圖像。不再是簡單的單一物品描述,而是對一個場景的整體表達,故事更完整,想象力也更豐富!
更詳細的內容,可以查看 DALL·E 2 的相關研究論文:

論文地址:https://cdn.openai.com/papers/dall-e-2.pdf
收下我的膝蓋……
參考鏈接:https://openai.com/dall-e-2/

雷峰網(公眾號:雷峰網)
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。