12月21日大模型日報

資訊1年前 (2024)发布 AIWindVane
550 0
12月21日大模型日報

【12月21日大模型日報】 開創全新通用3D大模型,VAST將3D生成帶入「秒級」時代;GoogleGemini技術報告出爐,作者多達900餘人;GPT-4搞科研,4分鐘成功復 現諾獎登Nature;「Transformer挑戰者」Mamba,用Macbook也能跑了! GitHub半天拿下500+星


開創全新通用3D大模型,VAST將3D生成帶入「秒級」時代

https://news.miracleplus.com/share_link/13969
生成式 AI 在 3D 領域在很長一段時間內都在等待自己的「ChatGPT」時刻。 傳統 3D 建模涉及遊戲、影視、建築等多個行業,普遍依賴專業人員手動操作,生產週期短則幾天,多則以月為單位,單一 3D 模型的創建成本至少需要幾千元。 生成式 AI 技術在 2D 影像生成領域的成功經驗,讓人們看到了 AI 在變革 3D 建模這件事上的潛力。 一個萬億美元等級的賽道似乎從此開啟,但目前市面上的 3D 生成類的 AI 技術仍然存在各種不足,大家都在期待出現一個讓自己眼前一亮的產品。 VAST 自我開發的 3D 大模型 Tripo,當經典的「酪梨手扶椅」以精緻的形態快速絲滑地在眼前生成,生成式 AI 迎來了另一個里程碑時刻。


4090成A100平替? token生成速度只比A100低18%,交大推理引擎火了

https://news.miracleplus.com/share_link/13970
上海交大團隊最新推出了超強 CPU/GPU LLM 高速推理引擎 PowerInfer。 這推理引擎速度有多快? 在單一 NVIDIA RTX 4090 GPU 上執行 LLM ,PowerInfer 的平均 token 產生速率為 13.20 tokens/s,峰值為 29.08 tokens/s,僅比頂級伺服器 A100 GPU 低 18%,可適用於各種 LLM。 不僅如此,PowerInfer 與最先進的本地LLM推理框架llama.cpp 相比,在單一RTX 4090 (24G) 上運行Falcon (ReLU)-40B-FP16,實現了11 倍多的加速,還能保持模型的準確 性。 具體來說,PowerInfer 是一個用於本地部署 LLM 的高速推理引擎。 與那些採用多專家系統(MoE)不同的是,PowerInfer 透過利用 LLM 推理中的高度局部性,巧妙的設計了一款 GPU-CPU 混合推理引擎。


谷歌Gemini技術報告出爐,作者多達900餘人

https://news.miracleplus.com/share_link/13971
兩週前,人們興奮於谷歌提出的「原生多模態大模型」Gemini,其宣稱超越 GPT-4 的強大性能,以及對於圖像、視頻等領域的理解能力讓人們似乎看到了未來。 不過由於Google演示的 demo 涉嫌誇大效果,Gemini 又很快陷入了爭議。 但作為生成式 AI 領域最近的重要進展,人們對於 Gemini 的期待越來越高,有團隊很快進行研究發了測試論文。 今天發布的 64 頁技術報告,或許可以為我們許多的疑惑進行更直觀的解釋。 這篇技術報告《Gemini: A Family of Highly Capable Multimodal Models》作者包括Jeff Dean、Oriol Vinyals、Koray Kavukcuoglu、Demis Hassabis 等一眾谷歌研究大佬,另外還有謝爾蓋・布林這樣的公司聯合創始 人。


只需一張圖片、一句動作指令,Animate124輕鬆生成3D視頻

https://news.miracleplus.com/share_link/13972
近一年來,DreamFusion 引領了一個新潮流,即 3D 靜態物件與場景的生成,這在生成技術領域引發了廣泛關注。 回顧過去一年,我們見證了 3D 靜態生成技術在品質和控制性方面的顯著進步。 技術發展從以文字為基礎的生成起步,逐漸融入單視角影像,進而發展到整合多種控制訊號。 與此相較,3D 動態場景產生仍處於起步階段。 2023 年初,Meta 推出了 MAV3D,標誌著首次嘗試基於文字生成 3D 影片。 然而,受限於開源視訊生成模型的缺乏,這一領域的進展相對緩慢。 然而,現在,基於圖文結合的 3D 視訊生成技術已經問世! 儘管基於文字的 3D 視訊生成能夠產生多樣化的內容,但在控制物體的細節和姿態方面仍有限制。 在 3D 靜態生成領域,使用單張圖片作為輸入已經能夠有效重建 3D 物件。 由此受到啟發,來自新加坡國立大學(NUS)和華為的研究團隊提出了 Animate124 模型。 該模型結合單張圖片和相應的動作描述,實現了對 3D 視訊生成的精準控制。


再也不怕合照缺人,Anydoor為圖片編輯開了一道「任意門」

https://news.miracleplus.com/share_link/13973
來自香港大學、阿里巴巴和螞蟻集團的新成果 Anydoor 為圖片編輯打開了一扇「任意門」。 任何物品,只需要一張照片,就能傳送到另一張圖片的世界。


ChatGPT新增聊天存檔功能,可建立自己的聊天資料庫啦!

https://news.miracleplus.com/share_link/13974
12月21日,OpenAI在社群平台宣布,ChatGPT新增存檔功能,用戶可以儲存聊天記錄而不必刪除它們。 雖然這只是一個很小的功能,但對於科研、醫療、寫作、金融、律師等,對文本使用頻率較高的行業幫助巨大,可建立自己的文本資料資料庫,並進行精細化管理。 例如,法律人員在ChatGPT中有10萬筆聊天記錄,可以透過該功能進行管理保存,再透過附件將其上傳至ChatGPT,可讓ChatGPT回答基於自己聊天文件的特定內容,確保了數據的準確性。 或是過了1年時間後,重新檢視自己與ChatGPT聊天的精準聊天記錄。

© 版权声明

相關文章

暫無評論

暫無評論...