12月25日大模型日報合輯

【12月25日大模型日報合輯】為AI加速而生:英特爾的至強,現在能跑200億參數大模型了;挑戰Transformer的Mamba是什麼來頭? 作者博士論文理清SSM進化路徑;馬斯克回應Grok失控:都被網友帶壞了,測試階段會持續改進;OCR終結了? 曠視提出支持文檔層級OCR的多模態大模型,支援中英文,已開源
為AI加速而生:英特爾的至強,現在能跑200億參數大模型了
連結:https://news.miracleplus.com/share_link/14275
最近,英特爾的伺服器 CPU 完成了另一個進化。 第五代英特爾(®) 至強(® )可擴充處理器正式發表。 英特爾表示,一款為 AI 加速而生,表現更強的處理器誕生了。
挑戰Transformer的Mamba是什麼來頭? 作者博士論文理清SSM演化路徑
連結:https://news.miracleplus.com/share_link/14276
最近,一項名為「Mamba」的研究在語言建模方面可以媲美甚至擊敗 Transformer。 這都要歸功於作者提出的新架構- 選擇性狀態空間模型( selective state space model),該架構是Mamba 論文作者Albert Gu 先前主導研發的S4 架構(Structured State Spaces for Sequence Modeling )的一個 簡單泛化。
在 Mamba 論文發布後,許多研究者都對 SSM(state space model)、S4 等相關研究產生了好奇。 其中,有位研究者表示自己要在飛機上把這些論文都唸出來。 對此,Albert Gu 給了更好的建議:他的博士論文其實把這些進度都梳理了一下,讀起來可能更有條理。
馬斯克回應Grok失控:都被網友帶壞了,測試階段會持續改進
連結:https://news.miracleplus.com/share_link/14277
中立、敢於直言,是「馬斯克版ChatGPT」Grok一直在宣傳的賣點。
但最近網友發現它的回答越來越帶有傾向性,忍不住發文吐槽,還@上了馬斯克本人。
同時,Grok這樣的表現也驚動了馬斯克本人。
他吐槽用於訓練Grok的網路資訊過於繁雜,充斥著“帶有喚醒色彩的垃圾訊息”,相當於間接承認了網友們的說法。
同時,馬斯克也表示:現在的Grok只是個測試版,以後會變好的。
Softmax注意力與線性注意力的優雅融合,Agent Attention推動注意力新升級
連結:https://news.miracleplus.com/share_link/14278
結合了 Softmax 注意力和線性注意力的優勢,代理注意力模組具有以下特點:
(1) 計算複雜度低且模型表達能力強。 先前的研究通常將 Softmax 注意力和線性注意力視為兩種不同的注意力範式,試圖解決各自的問題和限制。 代理注意力優雅地融合了這兩種注意力形式,從而自然地繼承了它們的優點,同時享受低計算複雜性和高模型表達能力。
(2) 能夠採用更大的感受野。 得益於線性計算複雜度,代理注意力可以自然地採用更大的感受野,而不會增加模型計算量。 例如,可以將 Swin Transformer 的 window size 由 7^2 擴大為 56^2,即直接採用全局自註意力,而完全不引入額外計算量。
OCR終結了? 曠視提出支持文檔層級OCR的多模態大模型,支援中英文,已開源!
連結:https://news.miracleplus.com/share_link/14279
Vary表現出了很大的潛力和極高的上限,OCR可以不再需要冗長的pipline,直接端對端輸出,並且可以按用戶的prompt輸出不同的格式如latex 、word 、markdown。
透過大模型極強的語言先驗,這種架構還可以避免OCR中的易錯字,例如「槓桿」和「杜桿」等, 對於模糊文檔,也有望在語言先驗的幫助下實現更強的 OCR效果。
項目一出,引發了不少網友的關注,有網友看後直呼“kill the game!”