1月5日-1月7日大模型日報合輯

資訊1年前 (2024)更新 AIWindVane
505 0
1月5日-1月7日大模型日報合輯

【1月5日-1月7日大模型日報合輯】在大模型(LLM)爆發的當下,我們能不能把不同的模型搭建起來,起到1+1>2 的效果;語言模型是如何感知 時間的? 「時間向量」了解;新摩爾時代:2024 LLM 猜想


在大模型(LLM)爆發的當下,我們能不能把不同的模型搭建起來,起到 1+1>2 的效果?

 

連結:https://news.miracleplus.com/share_link/15171

如今的大語言模型(LLM)彷彿一個全能戰士,能進行常識和事實推理、懂得世界知識、生成連貫的文本…… 在這些基礎功能的底座上,研究者們又進行了一系列努力對這些模型 進行微調,以實現特定於領域的功能,如程式碼生成、文案編輯以及解決數學問題等。 但這些特定領域的模型開始出現一些棘手的問題,例如,有些模型在標準程式碼生成方面做得很好,但在一般邏輯推理方面並不精通,反之亦然。 為了解決上述訓練成本和資料帶來的挑戰,Google提出並研究了進行模型組合的實際設置,這些設置包括:(i)研究者可以存取一個或多個增強模型和anchor 模型,(ii)不允許 修改任一模型的權重,並且(iii)只能存取少量數據,這些數據代表了給定模型的組合技能。


順著網路線爬過來成真了,Audio2Photoreal透過對話就能產生逼真表情與動作

 

連結:https://news.miracleplus.com/share_link/15172

當你和朋友隔著冷冰冰的手機螢幕聊天時,你得猜猜對方的語氣。 當 Ta 發出語音時,你的腦海中還能浮現出 Ta 的表情甚至動作。 如果能視訊通話顯然是最好的,但在實際情況下並不能隨時撥打視訊。 如果你正在與遠端朋友聊天,不是透過冰冷的螢幕文字,也不是缺乏表情的虛擬形象,而是一個逼真、動態、充滿表情的數位虛擬人。 這個虛擬人不僅能夠完美地復現你朋友的微笑、眼神,甚至是細微的肢體動作。 你會不會感到更的親切和溫暖呢? 真是體現了那一句「我會順著網路線爬過來找你的」。 這不是科幻想像,而是在實際中可以實現的技術了。


谷歌影像生成AI掌握多模態指令

 

連結:https://news.miracleplus.com/share_link/15173

在使用大型語言模型(LLM)時,我們都已經見證過了指令微調的重要性。 如果應用得當,透過指示微調,我們能讓 LLM 幫助我們完成各種不同的任務,讓其變成詩人、程式設計師、劇作家、科研助理甚至投資經理。 現在,大模型已經進入了多模態時代,指令微調是否依然有效? 例如我們能否透過多模態指令微調控制影像生成? 不同於語言生成,圖像生成一開始就牽涉到多模態。 我們可否有效地讓模型掌握多模態的複雜性? 為了解決這個難題,Google DeepMind 和 Google Research 提出可將多模態指令方法用於影像產生。 此方法可將不同模態的訊息交織在一起來表達影像生成的條件。


專補大模型短板的RAG有哪些新進展? 這篇綜述明白了

 

連結:https://news.miracleplus.com/share_link/15174

同濟大學王昊奮研究員團隊聯合復旦大學熊賒教授團隊發布檢索增強生成(RAG)綜述,從核心範式,關鍵技術到未來發展趨勢對 RAG 進行了全面梳理。 這份工作為研究人員繪製了一幅清晰的 RAG 技術發展藍圖,並指出了未來的研究探索方向。 同時,為開發者提供了參考,幫助辨識不同技術的優缺點,並指導如何在多樣化的應用場景中最有效地利用這些技術。


無需文字標註,TF-T2V把AI量產影片的成本打下來了! 華科阿里等聯合打造

 

連結:https://news.miracleplus.com/share_link/15175

在過去短短兩年內,隨著諸如 LAION-5B 等大規模圖文資料集的開放,Stable Diffusion、DALL-E 2、ControlNet、Composer ,效果驚人的圖片生成方法層出不窮。 圖片生成領域可謂狂飆突進。 然而,與圖片生成相比,影片生成仍存在巨大挑戰。 首先,視訊生成需要處理更高維度的數據,考慮額外時間維度帶來的時序建模問題,因此需要更多的視訊 – 文字對數據來驅動時序動態的學習。 然而,對影片進行準確的時序標註非常昂貴。 這限制了影片- 文字資料集的規模,如現有WebVid10M 影片資料集包含10.7M 影片- 文字對,與LAION-5B 圖片資料集在資料規模上相差甚遠,嚴重限制了影片產生模型規模化的 擴展。 為解決上述問題,華中科技大學、阿里巴巴集團、浙江大學和螞蟻集團聯合研究團隊於近期發布了 TF-T2V 視訊方案。


語言模型是如何感知時間的? 「時間向量」了解一下

 

連結:https://news.miracleplus.com/share_link/15176

語言模型究竟是如何感知時間的? 如何利用語言模型對時間的感知來更好地控制輸出甚至了解我們的大腦? 最近,來自華盛頓大學和艾倫人工智慧研究所的一項研究提供了一些見解。 他們的實驗結果表明,時間變化在一定程度上被編碼在微調模型的權重空間中,而權重插值可以幫助自訂語言模型以適應新的時間段。


新摩爾時代:2024 LLM 猜想

 

連結:https://news.miracleplus.com/share_link/15177

未來 5-10 年最重要趨勢是什麼? ChatGPT 的誕生為這個問題帶來了答案,也為未來數位生態帶來明確訊號:AI 一定是未來技術創新和商業模式變革的核心。 關於LLM 在2024 年會如何變化,沒有人擁有標準答案,唯一可以肯定的是,「新摩爾定律」是不變的:每1-2 年模型水平就能提升一到兩代,模型訓練成本每 18個月就會降低至原來的1/4、推理成本每18個月降低至是原來的1/10。


麻省布里格姆醫院:ChatGPT在臨床決策中,準確率高達71.7%!

 

連結:https://news.miracleplus.com/share_link/15178

美國最大非營利醫療機構之一麻省布里格姆醫院發布了,關於ChatGPT在臨床醫療決策中應用的研究論文。 該醫院表示,從提出診斷、建議診斷檢查到最終診斷以及護理管理決策,ChatGPT的準確率為71.7%,在整個臨床決策中的表現令人感到驚訝。 特別是與初步診斷相比,ChatGPT 在最終診斷任務中表現出了最高的準確率76.9%。

© 版权声明

相關文章

暫無評論

暫無評論...