12月21日大模型日報

資訊1年前 (2024)发布 AIWindVane

550 0 0

【12月21日大模型日報】開創全新通用3D大模型，VAST將3D生成帶入「秒級」時代；GoogleGemini技術報告出爐，作者多達900餘人；GPT-4搞科研，4分鐘成功復現諾獎登Nature；「Transformer挑戰者」Mamba，用Macbook也能跑了！ GitHub半天拿下500+星

開創全新通用3D大模型，VAST將3D生成帶入「秒級」時代

https://news.miracleplus.com/share_link/13969
生成式 AI 在 3D 領域在很長一段時間內都在等待自己的「ChatGPT」時刻。傳統 3D 建模涉及遊戲、影視、建築等多個行業，普遍依賴專業人員手動操作，生產週期短則幾天，多則以月為單位，單一 3D 模型的創建成本至少需要幾千元。生成式 AI 技術在 2D 影像生成領域的成功經驗，讓人們看到了 AI 在變革 3D 建模這件事上的潛力。一個萬億美元等級的賽道似乎從此開啟，但目前市面上的 3D 生成類的 AI 技術仍然存在各種不足，大家都在期待出現一個讓自己眼前一亮的產品。 VAST 自我開發的 3D 大模型 Tripo，當經典的「酪梨手扶椅」以精緻的形態快速絲滑地在眼前生成，生成式 AI 迎來了另一個里程碑時刻。

4090成A100平替？ token生成速度只比A100低18%，交大推理引擎火了

https://news.miracleplus.com/share_link/13970
上海交大團隊最新推出了超強 CPU/GPU LLM 高速推理引擎 PowerInfer。這推理引擎速度有多快？在單一 NVIDIA RTX 4090 GPU 上執行 LLM ，PowerInfer 的平均 token 產生速率為 13.20 tokens/s，峰值為 29.08 tokens/s，僅比頂級伺服器 A100 GPU 低 18%，可適用於各種 LLM。不僅如此，PowerInfer 與最先進的本地LLM推理框架llama.cpp 相比，在單一RTX 4090 (24G) 上運行Falcon (ReLU)-40B-FP16，實現了11 倍多的加速，還能保持模型的準確性。具體來說，PowerInfer 是一個用於本地部署 LLM 的高速推理引擎。與那些採用多專家系統（MoE）不同的是，PowerInfer 透過利用 LLM 推理中的高度局部性，巧妙的設計了一款 GPU-CPU 混合推理引擎。

谷歌Gemini技術報告出爐，作者多達900餘人

https://news.miracleplus.com/share_link/13971
兩週前，人們興奮於谷歌提出的「原生多模態大模型」Gemini，其宣稱超越 GPT-4 的強大性能，以及對於圖像、視頻等領域的理解能力讓人們似乎看到了未來。不過由於Google演示的 demo 涉嫌誇大效果，Gemini 又很快陷入了爭議。但作為生成式 AI 領域最近的重要進展，人們對於 Gemini 的期待越來越高，有團隊很快進行研究發了測試論文。今天發布的 64 頁技術報告，或許可以為我們許多的疑惑進行更直觀的解釋。這篇技術報告《Gemini: A Family of Highly Capable Multimodal Models》作者包括Jeff Dean、Oriol Vinyals、Koray Kavukcuoglu、Demis Hassabis 等一眾谷歌研究大佬，另外還有謝爾蓋・布林這樣的公司聯合創始人。

只需一張圖片、一句動作指令，Animate124輕鬆生成3D視頻

https://news.miracleplus.com/share_link/13972
近一年來，DreamFusion 引領了一個新潮流，即 3D 靜態物件與場景的生成，這在生成技術領域引發了廣泛關注。回顧過去一年，我們見證了 3D 靜態生成技術在品質和控制性方面的顯著進步。技術發展從以文字為基礎的生成起步，逐漸融入單視角影像，進而發展到整合多種控制訊號。與此相較，3D 動態場景產生仍處於起步階段。 2023 年初，Meta 推出了 MAV3D，標誌著首次嘗試基於文字生成 3D 影片。然而，受限於開源視訊生成模型的缺乏，這一領域的進展相對緩慢。然而，現在，基於圖文結合的 3D 視訊生成技術已經問世！儘管基於文字的 3D 視訊生成能夠產生多樣化的內容，但在控制物體的細節和姿態方面仍有限制。在 3D 靜態生成領域，使用單張圖片作為輸入已經能夠有效重建 3D 物件。由此受到啟發，來自新加坡國立大學（NUS）和華為的研究團隊提出了 Animate124 模型。該模型結合單張圖片和相應的動作描述，實現了對 3D 視訊生成的精準控制。

再也不怕合照缺人，Anydoor為圖片編輯開了一道「任意門」

https://news.miracleplus.com/share_link/13973
來自香港大學、阿里巴巴和螞蟻集團的新成果 Anydoor 為圖片編輯打開了一扇「任意門」。任何物品，只需要一張照片，就能傳送到另一張圖片的世界。

ChatGPT新增聊天存檔功能，可建立自己的聊天資料庫啦！

https://news.miracleplus.com/share_link/13974
12月21日，OpenAI在社群平台宣布，ChatGPT新增存檔功能，用戶可以儲存聊天記錄而不必刪除它們。雖然這只是一個很小的功能，但對於科研、醫療、寫作、金融、律師等，對文本使用頻率較高的行業幫助巨大，可建立自己的文本資料資料庫，並進行精細化管理。例如，法律人員在ChatGPT中有10萬筆聊天記錄，可以透過該功能進行管理保存，再透過附件將其上傳至ChatGPT，可讓ChatGPT回答基於自己聊天文件的特定內容，確保了數據的準確性。或是過了1年時間後，重新檢視自己與ChatGPT聊天的精準聊天記錄。