2月8-18日大模型日報特輯

【2月8-18日大模型日報特輯】春節大禮包! OpenAI首個視訊生成模型發布,60秒高清大作,網友已嘆服;GoogleGemini1.5火速上線:MoE架構,100萬上下文;突發! AI大牛Andrej Karpathy離開OpenAI;7兆美元:OpenAI超大晶片計畫曝光,要重塑全球半導體產業
陳丹琦團隊新作:資料量砍95%,大模型效能更強了! Less is More
https://news.miracleplus.com/share_link/18484
造大模型的成本,又被打下來了! 這次是數據量狂砍95%。 陳丹琦團隊最新提出大模型降本大法-資料選擇演算法LESS, 只篩選出與任務最相關5%資料來進行指令微調,效果比用整個資料集還要好。 指令微調正是讓基礎模型成為類別ChatGPT助手模型的關鍵一步。
史丹佛最強家務機器人ALOHA 2來了,成本不到20萬,聯手谷歌DeepMind,完全開源
https://news.miracleplus.com/share_link/18485
2023 年,史丹佛大學等機構推出了一個用於雙機械手遠端操作的低成本開源硬體系統 ALOHA,它可以遠端操作並完成組裝鏈條、托舉乒乓球等複雜、豐富的任務。 今年 1 月,Google DeepMind 與史丹佛又聯合推出了 Mobile ALOHA,同樣可以進行遠端操作並模仿雙手操作,透過移動底座在大的空間範圍內實現遠端操作。 這樣一來,備菜、翻炒、出鍋,洗衣、逗貓、澆花它是樣樣精通,名副其實的家務機器人火出了圈。 今天,Google DeepMind 聯合史丹佛推出了 ALOHA 的增強版本 ——ALOHA 2。 與一代相比,ALOHA 2 具有更強的性能、人體工學設計和穩健性,且成本不到 20 萬元。
MIT、IBM 團隊巧妙的 AI 方法來解決「蠻力」數學問題
https://news.miracleplus.com/share_link/18486
自牛頓時代以來,自然的基本定律——光學、聲學、工程學、電子學,最終都歸結為一組重要的、廣泛的方程式。 現在,研究人員找到了一種新方法,可以使用受大腦啟發的神經網路來比以前更有效地求解這些方程,在科學和工程領域有許多潛在的應用。 相關研究以《Physics-enhanced deep surrogates for partial differential equations為題,發佈在《Nature Machine Intelligence》上。
語音生成的「智慧湧現」:10萬小時資料訓練,亞馬遜祭出10億參數BASE TTS
https://news.miracleplus.com/share_link/18487
伴隨著生成式深度學習模型的快速發展,自然語言處理(NLP)和電腦視覺(CV)已經經歷了根本性的轉變,從有監督訓練的專門模型,轉變為只需有限的明確指令就能完成 各種任務的通用模型。 在語音處理和文字轉語音(TTS)領域,這樣的轉變也正在發生,模型能夠利用數千小時的數據,使合成結果越來越接近類人語音。 在最近的一項研究中,亞馬遜正式推出了 BASE TTS,將 TTS 模型的參數規模提升到了前所未有的 10 億級。
復旦TravelPlanner讓大語言模型挑戰旅程規劃
https://news.miracleplus.com/share_link/18488
在人工智慧的發展歷程中,規劃一直是核心追求之一。 然而,由於缺乏人類層級規劃所需的多種認知基礎,早期的AI代理主要集中在受限的環境中。 隨著大語言模型(LLMs)的出現,新一代的語言代理展現了使用工具和推理等有趣的能力。 這引發了一個問題:這些語言代理是否能夠在先前AI代理無法觸及的更複雜環境中進行規劃? 為了深入探索這個問題,我們提出了一個新的規劃基準-TravelPlanner,它專注於常見的現實世界規劃情境:旅行規劃。 這是一個即使對人類來說也具有挑戰性的任務,但大多數人在有適當工具和足夠時間的情況下都能成功完成。
華為盤古大模型變「小」,1.5B也很能打
https://news.miracleplus.com/share_link/18489
ChatGPT 等系列模型橫空出世,以其強大的性能引起了全球的關注,並有望改變人與電腦之間的互動方式,應用到千行百業。 然而這些大型模型的實際需要極高的記憶體和運算資源,限制了它們在各種場景中的應用。 例如,具有 175B 參數的 GPT-3 在使用 FP32 資料類型儲存時需要約 700GB 記憶體。 儘管 7B 參數模型相對更有效率,但其資源需求仍難以直接部署在手機等邊緣裝置上。 此外,儘管許多研究已經成功地打造出多個效果很好的大語言模型,但他們往往採用相似的訓練策略。 一方面,大量工作集中在收集和清理資料上,較少強調研究有效的訓練策略。 另一方面,大型模型的訓練需要極高的運算資源投入,使得探索大量的最佳化策略並不切實際。 在這篇工作中,作者以一個 1B 大小的語言模型作為載體,詳細討論了小的語言模型應該如何煉丹。 作者從模型結構、參數初始化、模型最佳化方法三個角度展開研究:總結四條提升小語言模型效果的煉金術。
Google提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練
https://news.miracleplus.com/share_link/18490
大型語言模型(LLM)的成功離不開「基於人類回饋的強化學習(RLHF)」。 RLHF 可以大致可以分為兩個階段,首先,給定一對偏好和不偏好的行為,訓練一個獎勵模型,透過分類目標為前者分配更高的分數。 然後透過某種強化學習演算法優化這個獎勵函數。 然而,獎勵模型的關鍵要素可能會產生一些不良影響。 來自卡內基美隆大學(CMU)和Google Research 的研究者聯合提出了一種簡單的、理論上嚴格的、實驗上有效的RLHF 新方法—— 自我博弈偏好優化(Self-Play Preference Optimization,SPO )。 此方法消除了獎勵模型,並且不需要對抗性訓練。
大語言模式的可信之路:TrustLLM全面揭秘
https://news.miracleplus.com/share_link/18491
大型語言模型(LLMs)在 NLP 方面的卓越能力已引起廣泛關注,影響了我們生活各個方面的應用。 LLMs 的出色能力歸因於多個因素,例如使用來自 Web 的大規模原始文字作為訓練數據,使用具有大量參數的 transformer 架構設計,以及先進的模型訓練方案等。 然而,LLMs 的興起也引入了關於它們可信度的擔憂。 與傳統語言模型不同,LLMs 具有可能導致可信賴問題的獨特特性。 TrustLLM 是一個統一的框架,用於對LLM 的可信度進行全面分析,包括現有工作的全面綜述、可信LLM 的不同維度的原則、一個新的測試基準,以及對主流LLM 的全面可信 度評估。
ICLR 2024 | 首個零階優化深度學習框架,MSU聯合LLNL提出DeepZero
https://news.miracleplus.com/share_link/18492
今天介紹一篇密西根州立大學(Michigan State University) 和勞倫斯・利弗莫爾國家實驗室(Lawrence Livermore National Laboratory)的一篇關於零階優化深度學習框架的文章“DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training”,本文被ICLR 2024 接收,程式碼已開源。
RAG還是微調? 微軟出了特定領域大模型應用建置流程指南
https://news.miracleplus.com/share_link/18493
在建立大語言模型應用程式時通常有兩種常見的方法來整合專有和特定領域的資料:檢索增強生成和微調。 檢索增強生成透過外部資料增強提示,而微調將額外的知識整合到模型本身。 不過,對這兩種方法的優缺點了解的卻不夠充分。 本文中,來自微軟的研究者引入一個新的關注點:為需要特定背景和自適應回應的產業(農業)創建 AI 助理。 本文提出了一個全面的大語言模型流程,用於產生高品質的、行業特定的問題和答案。 此方法包含一個系統化的過程,包括鑑別和收集涵蓋廣泛農業主題的相關文件。 接著清理和結構化這些文檔,以便使用基本的 GPT 模型產生有意義的問答對。 產生的問答對隨後根據其品質進行評估和篩選。
效能提升、成本降低,這是分散式強化學習演算法最新研究進展
https://news.miracleplus.com/share_link/18494
深度強化學習(Deep Reinforcement Learning,DRL)是一種公認的解決連續決策問題的有效技術。 為了回應 DRL 的資料低效(data inefficiency)問題,受到分散式機器學習技術的啟發,分散式深度強化學習 (distributed deep reinforcement learning,DDRL) 已提出並成功應用於電腦視覺和自然語言處理領域。 有觀點認為,分散式強化學習是深度強化學習邁向大規模應用、解決複雜決策空間與長期規劃問題的必經之路。 分散式強化學習是一個綜合的研究子領域,需要深度強化學習演算法以及分散式系統設計的互相感知和協同。 考慮到 DDRL 的巨大進步,我們梳理形成了 DDRL 技術的展歷程、挑戰和機會的系列文章。 我們在 part 1 部分回顧了經典的 DDRL 框架,在本部分,我們利用三篇論文,具體分析 DDRL 的今生 — 最新研究進展。
谷歌Gemini1.5火速上線:MoE架構,100萬上下文
https://news.miracleplus.com/share_link/18496
Gemini 1.5 建立在Google基礎模型開發和基礎設施的研究與工程創新的基礎上,包括透過新的專家混合 (MoE) 架構使 Gemini 1.5 的訓練和服務更加高效。 Google現在推出的是早期測試的 Gemini 1.5 的第一個版本 ——Gemini 1.5 Pro。 它是一種中型多模態模型,針對多種任務的擴展進行了優化,其性能水平與谷歌迄今為止最大的模型 1.0 Ultra 類似,並引入了長上下文理解方面的突破性實驗特徵。 Gemini 1.5 Pro 配備了 128000 個 token 上下文視窗。 但從今天開始,少數開發人員和企業客戶可以透過 AI Studio 和 Vertex AI 的私人預覽版在最多 100 萬個 token 的上下文視窗中進行嘗試。 谷歌也進行了一些優化,