1月8日大模型日報合輯

資訊1年前 (2024)发布 AIWindVane
585 0
1月8日大模型日報合輯

【1月8日大模型日報合輯】AI解讀視訊張口就來? 這種「幻覺」難題Vista-LLaMA給解決了;四行程式碼讓大模型上下文暴增3倍,羊駝Mistral都適用;低耗能高速度,EPFL和微軟研究團隊的新方法:深度物理神經網絡 的無反向傳播訓練;微軟高階主管Dee Templeton,加入OpenAI董事會


AI解讀影片張口就來? 這種「幻覺」難題Vista-LLaMA給解決了

 

連結:https://news.miracleplus.com/share_link/15242

近年來,大型語言模型如 GPT、GLM 和 LLaMA 等在自然語言處理領域取得了顯著進展,基於深度學習技術能夠理解和產生複雜的文字內容。 然而,將這些能力擴展到視訊內容理解領域則是一個全新的挑戰—— 視訊不僅包含豐富多變的視覺訊息,還涉及時間序列的動態變化,這使得大語言模型從視訊中提取資訊變得更 為複雜。 面對這項挑戰,位元組跳動聯合浙江大學提出了能夠輸出可靠影片描述的多模態大語言模型 Vista-LLaMA。 Vista-LLaMA 專門針對視訊內容的複雜性設計,能夠有效地將視訊幀轉換為準確的語言描述,從而大大提高了視訊內容分析和產生的品質。


告別逐一標註,一個提示實現批量圖片分割,高效又準確

 

連結:https://news.miracleplus.com/share_link/15243

Segment Anything Model (SAM) 的提出在影像分割領域引起了巨大的關注,其卓越的泛化性能引發了廣泛的興趣。 然而,儘管如此,SAM 仍然面臨一個無法迴避的問題:為了讓 SAM 能夠準確地分割出目標物體的位置,每張圖片都需要手動提供一個獨特的視覺提示。 目前的一些方法,如 SEEM 和 AV-SAM,透過提供更多模態的輸入資訊來引導模型更好地理解要分割的物體是什麼。 來自倫敦大學瑪麗女王學院的研究者們提出了一種無需訓練的分割方法 GenSAM ,能夠在只提供一個任務通用的文本提示的條件下,將任務下的所有無標註樣本進行有效地分割。


四行程式碼讓大模型上下文暴增3倍,羊駝Mistral都適用

 

連結:https://news.miracleplus.com/share_link/15267

無需微調,只要四行程式碼就能讓大模型視窗長度暴增,最高可增加3倍! 而且是“即插即用”,理論上可以適配任意大模型,目前已在Mistral和Llama2上試驗成功。 有了這項技術,大模型(LargeLM)就能搖身一變,成為LongLM。 近日,來自德州農工大學等機構的華人學者們發布了全新的大模型窗口擴展方法SelfExtended(簡稱SE)。 在Mistral上,研究者在24k長度的文本中隨機插入5位數字讓模型搜索,結果經SE處理後,呈現出了全綠(通過)的測試結果。


靈敏度超40%、精度達90%的從頭勝肽定序,一種深度學習驅動的串聯質譜分析方法

 

連結:https://news.miracleplus.com/share_link/15268

與 DNA 和 RNA 不同,蛋白質缺乏準確和高通量的定序方法,這阻礙了蛋白質組學在序列未知的應用中的實用性,包括變異體調用、新表位鑑定和宏蛋白質組學。 德國慕尼黑工業大學(Technische Universität München,TUM)的研究人員推出了 Spectralis,一種用於串聯質譜分析的從頭勝肽定序方法。 Spectralis 利用了多項創新,包括連接按氨基酸質量間隔的光譜峰的捲積神經網絡層、提出碎片離子系列分類作為從頭肽測序的關鍵任務,以及肽譜置信度評分。 對於資料庫搜尋提供的真實光譜,Spectralis 的靈敏度超過 40%,精度高達 90%,幾乎是目前 SOTA 靈敏度的兩倍。 對未識別光譜的應用證實了其優越性,並展示了其對變異調用的適用性。


低耗能高速度,EPFL和微軟研究團隊的新方法:深度物理神經網路的無反向傳播訓練

 

連結:https://news.miracleplus.com/share_link/15269

隨著大規模深度神經網路(NN)和其他人工智慧(AI)應用的最新發展,人們越來越擔心訓練和操作它們所需的能源消耗。 物理神經網路可以成為這個問題的解決方案,但傳統演算法的直接硬體實作面臨多重困難。 使用傳統反向傳播演算法訓練神經網路會面臨一些挑戰,例如缺乏可擴展性、訓練過程中操作的複雜性以及對數位訓練模型的依賴。 洛桑聯邦理工學院(École Polytechnique Fédérale de Lausanne,EPFL)和微軟研究團隊(Microsoft Research)等機構組成的合作團隊提出了一種透過物理局部學習(PhyLL)演算法增強的簡單深度神經網路架構,該架構可以 對深度物理神經網路進行監督和無監督訓練,而無需詳細了解非線性物理層的屬性。 利用這種方法,研究人員在元音和圖像分類實驗中訓練了多種基於波的物理神經網絡,並展示了該方法的普遍性。


多輪對話推理速度提升46%,開源方案打破LLM多輪對話的長度限制

 

連結:https://news.miracleplus.com/share_link/15244

在大型語言模型(LLM)的世界中,處理多輪對話一直是個挑戰。 前不久麻省理工 Guangxuan Xiao 等人推出的 StreamingLLM,能夠在不犧牲推理速度和生成效果的前提下,可實現多輪對話總共 400 萬個 token 的流式輸入,22.2 倍的推理速度提升。 但 StreamingLLM 使用原生 PyTorch 實現,對於多輪對話推理場景落地應用的低成本、低延遲、高吞吐等需求仍有優化空間。 Colossal-AI 團隊開源了 SwiftInfer,基於 TensorRT 實作了 StreamingLLM,可以進一步提升大模型推理效能 46%,為多輪對話推理提供了高效可靠的落地方案。


微軟高階主管Dee Templeton,加入OpenAI董事會

 

連結:https://news.miracleplus.com/share_link/15270

1月6日,彭博消息,微軟高層Dee Templeton作為無投票權觀察員的身份,加入OpenAI董事會。 目前,OpenAI一共有4位董事,前Salesforce聯合執行長Bret Taylor(擔任主席),前美國財政部長Larry Summers,全球最大知識問答社群Quora聯合創辦人Adam D’Angelo以及新加入的Dee。 這也是自2019年7月22日,微軟向OpenAI投資10億美元後,首次指派人員加入OpenAI董事會。

© 版权声明

相關文章

暫無評論

暫無評論...