英特爾實驗室推出 AI 擴散模型從文字提示產生 360 度影像、可應用於遊戲產業

PC 單機

（GNN 記者紙箱報導） 2023-06-27 19:30:16

　　英特爾實驗室與 Blockade Labs 合作推出 Latent Diffusion Model for 3D（LDM3D），這是一款新的擴散模型，可使用生成式 AI 創造擬真的 3D 視覺內容。官方表示，LDM3D 是業界首款使用擴散過程產生深度圖的模型，建立可 360 度觀看的生動、沉浸式 3D 影像，能應用在遊戲、娛樂、建築及設計等方面。

【以下內容為廠商提供資料原文】

　　英特爾實驗室 AI∕ML 研究科學家 Vasudev Lal 表示：「生成式 AI 技術可以進一步擴大和提升人類的創造力並節省寶貴的時間。然而，今日絕大多數的生成式 AI 模型均侷限在產生 2D 影像，僅有極少數能夠從文字提示中產生 3D 影像。與目前潛在擴散模型（latent diffusion model）不同的是，LDM3D 使用參數數量幾乎相同的模型，從給定的文字提示中產生影像和深度圖。相較於標準深度估測後處理法，可為影像中每個像素提供更準確的相對深度，為開發者節省建構場景所耗費的大量時間。」

　　封閉的生態系僅具備有限的規模，而英特爾真正落實 AI 民主化的承諾，未來將透過開放式生態系讓人們更廣泛地運用 AI 優勢。近年來在電腦視覺領域，特別是生成式 AI 取得顯著進展。然而，今日許多先進的生成式 AI 模型僅限於產生 2D 影像。與通常僅能從文字提示中產生 2D RGB 影像的現有擴散模型不同，LDM3D 讓使用者能夠從給定的文字提示中同時產生影像和深度圖。LDM3D 在使用與潛在擴散模型幾乎相同的參數數量情況下，相較標準的深度估測後處理法，為每個像素提供更為精確的相對深度。

　　這項研究可能徹底改變人們與數位內容的互動方式，使用者能夠以過往想像不到的方式去體驗他們的文字提示。LDM3D 所產生的影像和深度圖，讓使用者能夠把靜謐的熱帶海灘、科幻宇宙中的未來世界，透過文字敘述轉換成精細的 360 度全景圖。這種捕捉深度資訊的能力可以立即強化整體的真實感和沉浸感，為娛樂、遊戲、室內設計、房地產銷售，以及虛擬博物館和沉浸式虛擬實境（VR）體驗等各式各樣的行業開啟創新應用。

　　6 月 20 日，LDM3D 在電腦視覺與圖型辨識會議（CVPR）的 3DMV 工作坊上獲得最佳海報獎（Best Poster Award）。

　　LDM3D 是由 LAION-400M 資料庫中的 10,000 個樣本進行訓練，該資料庫內含超過 4 億個影像與文字標註。該團隊使用 Dense Prediction Transformer（DPT）大型深度估測模型（先前由英特爾實驗室所開發）對訓練語料庫進行標註。DPT 大型模型為影像中的每個像素提供高度精確的相對深度。LAION-400M 資料集專為研究目的而打造，讓廣大的研究人員和其它有興趣的社群，以更大的規模進行模型訓練測試。LDM3D 模型在搭載 Intel Xeon 處理器和 Intel Habana Gaudi AI 加速器的英特爾 AI 超級電腦上進行訓練。生成的模型和流程結合產生的 RGB 影像和深度圖，可以產生 360 度視角，帶來沉浸式體驗。

　　為證明 LDM3D 的潛力，英特爾和 Blockade 的研究人員開發出一款利用標準 2D RGB 照片和深度圖來創造沉浸式、可互動 360 度視角體驗的應用程式－DepthFusion。DepthFusion 使用以節點為基礎的可視化程式設計語言 TouchDesigner，該語言應用於即時互動多媒體內容，能將文字提示轉換為可互動和沉浸式的數位體驗。LDM3D 模型為可同時建立 RGB 影像及其深度圖的單一模型，可節省記憶體耗用量並改善延遲。

　　LDM3D 和 DepthFusion 的推出，為多視角生成式 AI 和電腦視覺的進一步發展鋪路。英特爾將繼續探索運用生成式 AI 來擴大人類的能力，並建立強大的開放原始碼 AI 研發生態系，讓這項技術的使用更加民主化。英特爾持續大力支持 AI 開放式生態系，目前正透過 HuggingFace 進行 LDM3D 開源工作，將讓 AI 研究人員和從業人員能夠進一步改善系統，並為客製化應用進行微調。

　　更多內容：英特爾的研究已於 6 月 18 日至 22 日的 IEEE/CVF CVPR 上發表。更多資訊請參閱「LDM3D: Latent Diffusion Model for 3D」或觀看下方 LDM3D 展示。