12月7日大模型日報合輯
【12月7日大模型日報合輯】Google大殺器終於來了,最大規模Gemini震撼發布:真超GPT4,三大版本,手機直接可用;開源,可商業化! 效能比Stable Difusion強2.5倍;Meta 推出獨立的 AI 影像產生器,目前免費但只支援英文提示詞
小模型也可以「分割一切」,Meta改進SAM,參數僅原版5%
連結:https://news.miracleplus.com/share_link/12601
對於2023年的電腦視覺領域來說,「分割一切」(Segment Anything Model)是備受關注的研究進展。 Segment Anything 的關鍵特徵是基於提示的視覺Transformer (VIT)模型,該模型是在一個包含來自1100 萬圏像的超過10億個掩碼的視覺資料集SA-1B 上訓練的,可以分割給定 影像上的任何目標。 這種能力使得 SAM 成為視覺領域的基礎模型,並在超越視覺之外的領域也能產生應用價值。 在最近的一項研究中,Meta研究者提出了另外一種改進思路一一利用 SAM 的遮罩影像預訓練(SAM)。 這是透過利用MAE預訓練方法和SAM模型來實現的,以獲得高品質的預訓練VT編碼器。
彌合2D和3D生成領域之問的次元壁,x-Dreamer實現高品質的文本到3D生成
連結:https://news.miracleplus.com/share_link/12602
本文介紹了一個名為x-Dreamer 的框架,它主要由CG-LORA和AMA 損失兩種關鍵創新組成,實現了彌合text-to-2D和text-to-3D 問的領域差距,實現了高質量 的3D生成。
一張照片絲滑替換影片主角,動作幅度再大也OK1 Meta&新加坡國立大學
連結:https://news.miracleplus.com/share_link/12603
後期狂喜,現在,只需一張圖片就能替換影片主角,效果還是如此的絲滑! 且看這個叫做”Videoswap”的新影片編輯模型。 不管是風格轉換還是主題/背景轉換,這種影片編輯任務的主要挑戰是如何從來源影片中提取運動軌跡傳輸到新影片、覆蓋到新元素上,同時確保時間一致性。 先前的模型(原理包括編碼源運動、使用注意力圖、光流等)大多數顧此失彼,要么在時間一致性上做的不好,要么會嚴格限制形狀變化。 在此, videoSwap提出使用少量語意點來描述物體的運動軌跡。