12月13日大模型日報合輯

【12月13日大模型日報合輯】全方位、無死角的開源,邢波團隊LLM360讓大模型實現真正的透明;邁向100倍加速:全棧Transformer推理優化;用RLHF 2%的算力讓 LLM停止有害輸出,位元組提出LLM遺忘學習;練習時間兩年半,特斯拉人形機器人Optimus二代上線;Transformer一作再創業! 新獲4億融資,Google英偉達AMD參與,先前長期隱身發展
全方位、無死角的開源,邢波團隊LLM360讓大模型實現真正的透明
連結:https://news.miracleplus.com/share_link/13100
開源模型正展現它們蓬勃的生命力,不僅數量激增,性能更是愈發優秀。 專有模型在技術性能和創新能力上展現了非凡的力量,但是它們不開源的性質成為 LLM 發展的阻礙。 Cerebras、Petuum 和 MBZUAI 等的研究者們共同提出了 LLM360。 這是一項全面開源 LLM 的倡議,主張向社區提供與 LLM 訓練相關的一切,包含訓練程式碼和資料、模型檢查點以及中間結果等。 LLM360 的目標是讓 LLM 訓練過程透明化,使每個人都能復現,從而推動開放和協作式的人工智慧研究的發展。
用RLHF 2%的算力讓LLM停止有害輸出,位元組提出LLM遺忘學習
連結:https://news.miracleplus.com/share_link/13101
隨著大型語言模式(LLM)的發展,從業者面臨更多挑戰。 如何避免 LLM 產生有害回覆? 如何快速刪除訓練資料中的版權保護內容? 如何減少 LLM 幻覺(hallucinations,即錯誤事實)? 如何在資料政策變更後快速迭代 LLM? 這些問題在人工智慧法律和道德的合規要求日益成熟的大趨勢下,對於 LLM 的安全可信部署至關重要。 位元組跳動提出讓 LLM 進行遺忘學習的方法來進行對齊。 本文研究如何在LLM 上進行「遺忘」操作,即忘記有害行為或遺忘學習(Machine Unlearning),作者展示了遺忘學習在三種LLM 對齊場景上取得的明顯效果:(1) 刪除有害輸出;(2 ) 移除侵權保護內容;(3) 消除大語言LLM 幻覺。
邁向100倍加速:全端Transformer推理優化
連結:https://news.miracleplus.com/share_link/13102
本文討論了全端Transformer推理優化,從A100記憶體層次結構等硬體規格,到FlashAttention和vLLM等MLSys方法,再到專家混合等模型架構,以及推測性解碼(Speculative Decoding)及其變體等解碼演算法。 我們確定了一個最基本的事實:Transformer推理受限於內存,且大部分優化(無論來自MLSys還是建模)都基於/利用了這一事實。 就像在角色扮演遊戲中加入buff一樣,可以看到Transformer推理是如何逐步擴展和加速的。
首個GPT-4驅動的人形機器人! 無需程式設計+零樣本學習,還可根據口頭回饋調整行為
連結:https://news.miracleplus.com/share_link/13103
讓GPT-4操縱人形機器人,事先不做任何程式設計or訓練,會是什麼樣子? 來自東京大學和日本Alternative Machine公司。 探討了首個由GPT-4驅動人形機器人的研究。 依靠這項研究,使用者無需事先為機器人編程,只需語言輸入、也就是動動嘴皮和GPT-4聊上一會兒,就能讓機器人根據指令完成行動。
練習時間兩年半,特斯拉人形機器人Optimus二代上線
連結:https://news.miracleplus.com/share_link/13104
沒有經過任何預告,特斯拉人形機器人「Optimus」第二代來了。 12 月 13 日上午,馬斯克突然在 X 上放出了一段影片:馬斯克不多解釋,直接用影片內容展示了 Optimus 的許多新能力。 從設想到蹣跚學步,再到引發恐怖谷效應,練習時長兩年半,Optimus 這回的亮相驚艷了世人。
微軟小模型擊敗大模型:27億參數,手機就能跑
連結:https://news.miracleplus.com/share_link/13105
上個月,微軟 CEO 納德拉在 Ignite 大會上宣布自研小尺寸模型 Phi-2 將完全開源,在常識推理、語言理解和邏輯推理方面的表現顯著改進。 今天,微軟公佈了 Phi-2 模型的更多細節以及全新的提示技術 promptbase。 這個僅 27 億參數的模型在大多數常識推理、語言理解、數學和編碼任務上超越了 Llama2 7B、Llama2 13B、Mistral 7B,與 Llama2 70B 的差距也在縮小(甚至更好)。 同時,小尺寸的 Phi-2 可以在筆記型電腦、手機等行動裝置上運作。 納德拉表示,微軟非常高興將一流的小語言模型(SLM)和 SOTA 提示技術與研發人員分享。
Transformer一作再創業! 新獲4億融資,Google英偉達AMD參與,先前長期隱身發展
連結:https://news.miracleplus.com/share_link/13106
Transformer作者創立的大模型公司,再獲5,650萬美元投資,換算成人民幣有四億多。 英偉達、AMD,還有兩位創辦人的老東家谷歌,都是這輪融資的參投者。 加上種子輪中獲得的融資款,這家成立不到一年的公司已經獲得了近6500萬美元。
紅杉美國和 Index 5400 萬美元投資了這家德國 AI 供應鏈公司!
連結:https://news.miracleplus.com/share_link/13107
德國新創公司 Tacto Technology GmbH 最近完成了一輪融資,由 Sequoia Capital 和 Index Ventures 領投,總計 5,400 萬美元的資金。 Tacto 透過 AI 技術,幫助公司識別成本節省的機會,分析諸如原材料和能源等關鍵成本的定價,他們表示這種方法可以將採購支出降低約 10%。