站長之家(ChinaZ.com)12月21日 消息:DALL-E2可以說是2022年最熱門AI繪畫模型之一,最近 OpenAI 剛剛發布一個功能似乎更為強大AI模型,可用于3D建模。
在12月16日提交的一篇論文中,OpenAI 團隊描述Point-E稱,這是一種從復雜的文本提示生成3D 點云的方法。
利用Point-E,AI 愛好者可以跳過文本生成2D 圖像的階段,用文本生成3D模型。該項目也已在Github上開源,以及模型的各種參數數量的權重。
該模型只是使解決方案起作用的部分之一。論文的關鍵在于提出的通過適用于點云的擴散方法創建3D 對象的方法。該算法的創建重點是虛擬現實、游戲和工業設計,因為它生成3D 對象的速度比當前方法快600倍。
文本生成3D 模型目前有兩種工作方式。第一種是在具有3D 對象到文本配對的數據上訓練生成模型。這導致無法理解更復雜的提示以及3D數據集的問題。第二種方法是利用文本圖像模型來優化提示的3D 表示的創建。
Point-E 結合了傳統的文本到3D 合成訓練算法的方法。將兩個單獨的模型結合在一起,Point-E 可以減少創建3D 對象的數量。第一組算法是文本到圖像模型,類似 DALL-E2,它可以創建用戶給出的提示的圖像。然后將此圖像用作第二個模型的基礎,該模型將圖像轉換為3D對象。
OpenAI 團隊創建了一個包含數百萬個3D 模型的數據集,再通過 Blender 將其導出。然后對這些渲染進行處理,將圖像數據提取為點云,這是表示3D物體合成密度的一種方式。經過進一步的處理,比如刪除平面對象和通過CLIP特征進行聚類,數據集就可以被輸入View Synthesis GLIDE模型了。
接著,研究人員通過將點云表示為形狀的張量,創建了一種新的點云擴散方法。然后,通過逐步去噪,將這些張量從隨機形狀削減到所需3D對象的形狀。該擴散模型的輸出通過點云上采樣器運行,以提高最終輸出的質量。為了與常見的3D 應用程序兼容,使用 Blender 將點云轉換為網格。
最后,這些網格可用于游戲、元宇宙應用程序或其他3D 密集型任務,如電影后期處理。雖然 DALL-E 已經徹底改變了文本到圖像的生成過程,但 Point-E 的目標是為3D 領域做同樣的事情。
Point-E的Github開源網址:https://github.com/openai/point-e
(舉報)