^{<sub id="jgr5k"></sub>}

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

本文作者：我在思考中

2022-04-08 11:52

導語：DALL·E 2.0生成的「現實主義」圖像與藝術作品，分辨率提高了4倍。

作者 | Ailleurs、錢磊

編輯 | 陳彩嫻

大家還記得去年 1 月 OpenAI 發布的 120 億參數魔法模型 DALL·E 嗎？

當時，DALL·E 的畫風是這樣的：

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

只要「閱讀」文本，DALL·E 就能根據文本的內容「自動」生成栩栩如生的大師級畫像。因此，當時一經發布，DALL·E 就火遍了 AI 圈，吸粉無數，也讓 Language-Vision（文本-視覺）方向又火了一把。

就在今天！時隔一年后，OpenAI 結合 CLIP，又發布了 DALL·E 的第二個版本——DALL·E 2.0！

相比 DALL·E 1.0，DALL·E 2.0 可以生成更真實和更準確的畫像：綜合文本描述中給出的概念、屬性與風格等三個元素，生成「現實主義」圖像與藝術作品！分辨率更是提高了4倍！

比如，當提示文本中分別包含「概念」“An astronaut ”（一個宇航員）、「屬性」“riding a horse”（在騎一匹馬）和「風格」“in a phtprealistic style”（超現實風格）時：

文本提示：An astronaut + riding a horse + in a phtprealistic style（一個宇航員+騎馬+超現實風格）

DALL·E 2可以生成如下這些同時包含三種元素的圖像：

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

在滿足三種給定元素的基礎上，它可是充分發揮了自己的「想象力」，不僅馬的姿態各不相同，而且給宇航員穿上了樣式各異的服裝，場景也是十分豐富，草地上、山頂上、星空中......

神不神奇！牛不牛！

讓我們來欣賞 DALL·2.0 的大師作品！

如果你想要變換文本中概念、屬性和風格三個元素中的一個或多個，比如保留「概念」“一個宇航員”和「屬性」“在騎一匹馬”，而將超現實主義風格替換為波普藝術家安迪·沃霍爾的風格，DALL·E 2也可以「輕松」轉換它的繪畫風格：

文本提示：An astronaut + riding a horse + in the style of Andy Warhol （一個宇航員+在騎一匹馬+安迪·沃霍爾的風格）

DALL·E 2生成的圖像：

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

文本提示：An astronaut + riding a horse + as a pencil drawing（一個宇航員+在騎一匹馬+鉛繪風格）

DALL·E 2生成的圖像：

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

文本提示：An astronaut + lounging in a tropical resort in space + in a vaporwave style（一個宇航員+在太空熱帶度假勝悠哉地躺著+蒸汽波風格）

DALL·E 2生成的圖像：

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

文本提示：Teddy bears + mixing sparkling chemicals as mad scientists + as a 1990s Saturday morning cartoon（泰迪熊們+正在像瘋狂的科學家一樣混合著冒泡的化學物質+20世紀90年代的周六早間卡通片風格）

DALL·E 2生成的圖像：

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

文本提示：Teddy bears+shopping for groceries+in the style of ukiyo-e（泰迪熊+購買雜貨+浮世繪風格）

DALL·E 2生成的圖像：

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

文本提示：Teddy bears+shopping for groceries+in ancient Egypt（泰迪熊+購買雜貨+古埃及風格）

DALL·E 2生成的圖像：

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

文本提示：A bowl of soup+that is a portal to another dimension+as digital art（一碗湯+通往另一個維度的門戶+數字藝術風格）

DALL·E 2生成的圖像：

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

文本提示：A bowl of soup+as a planet in the universe+as a 1960s poster（一碗湯+宇宙中的一個星球+1960年代海報風格）

DALL·E 2生成的圖像：

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

文本提示：A bowl of soup+as a planet in the universe+as digital art（一碗湯+宇宙中的一個星球+數字藝術風格）

DALL·E 2生成的圖像：

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

DALL·E 2.0 的其他功能

1、圖像編輯

DALL·E 2 可以根據自然語言描述的標題對現有圖像進行逼真的編輯，比如，在考慮陰影、反射和紋理的同時增加或刪除圖中的某個元素。示例如下：

文本描述的編輯需求：選擇一個位置在圖中添加火烈鳥。

原圖 vs. DALL·E 2編輯后的圖像：

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

文本描述的編輯需求：選擇一個位置在圖中添加柯基。

原圖 vs. DALL·E 2編輯后的圖像：

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

2、風格變體

DALL·E 2 可以拍攝一張圖片，然后根據原圖制作出同一個風格的不同畫像。示例如下：

原圖 1：

DALL·E 2 創造的同一風格圖像：

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

原圖 2：

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

DALL·E 2 創造的同一風格圖像：

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

原圖 3：

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

DALL·E 2 創造的同一風格圖像：

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

原圖 4：

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

DALL·E 2 創造的同一風格圖像：

對于AI從文本生成的圖像，我們非常看重的一點當然是圖像的分辨率了，圖像的分辨率越高，像素數量就越多，圖像也就越清晰和逼真。與DALL·E 1相比，DALL·E 2的分辨率提高了4倍！

比如，對于同樣的文本提示：

文本提示：a painting of a fox sitting in a field at sunrise in the style of Claude Monet（一只狐貍坐在日出時的田野里+克勞德·莫奈風格）

下面兩張圖分別是DALL·E 1 和DALL·E 2所生成圖像的對比：

對比之下，DALL·E 1 生成的圖像可以說是很模糊了，甚至根本看不出「日出」在哪里，「狐貍」只顯露出它的頭部，「田野」也不太有田野的樣子，而且在整體風格上與畫家莫奈的印象派風格相去甚遠。

而在DALL·E 2的魔法手筆下，圖像質量顯著提高，「日出」和「田野」都很生動，小狐貍端坐在草地上，姿態可愛。這幅畫作色彩更加豐富，使用了更多的復色，對光影的描繪更加接近莫奈的風格。

總體來說，相比 DALL·E 1.0，DALL·2 顯然能 hold 住元素更豐富、色彩更飽滿的圖像。不再是簡單的單一物品描述，而是對一個場景的整體表達，故事更完整，想象力也更豐富！

更詳細的內容，可以查看 DALL·E 2 的相關研究論文：

我跪了！OpenAI 發布 DALL·E 2，AI 化身「現實主義畫師」，有詳細論文

論文地址：https://cdn.openai.com/papers/dall-e-2.pdf

收下我的膝蓋……

參考鏈接：https://openai.com/dall-e-2/

雷峰網(公眾號：雷峰網)

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

我在思考中

運營

發私信

當月熱門文章