10月28日-10月29日大模型日報合輯

【10月28日-10月29日大模型日報合輯】Google20億美元砸向Anthropic:大模型軍備競賽升級;最好7B模型再易主! 打敗700億LLaMA2,蘋果電腦就能跑|開源免費;比Transformer更好,無Attention、MLPs的BERT、GPT反而更強了
Google20億美元砸向Anthropic:大模型軍備競賽升級
連結:https://news.miracleplus.com/share_link/11252
發言人表示,該公司已向這個 OpenAI 的重要競爭對手預先投資 5 億美元,並同意在此之後追加 15 億美元。 在此之前,Google已經是 Anthropic 的重要投資者,隨著大型科技公司競相將人工智慧融入自身業務中,這項新的投資將有助於谷歌加大力度與微軟進行持續競爭。 Anthropic 是由 OpenAI 前研究副總裁 Dario Amodei、GPT-3 論文一作 Tom Brown 等人於 2021 年共同建立的生成式 AI 創業公司,總部位於加州舊金山。 該公司創始成員大多為 OpenAI 的核心員工,他們曾經深入參與 OpenAI 的 GPT-3、引入人類偏好的強化學習(RLHF)等多項研究。

最好7B模型再易主! 打敗700億LLaMA2,蘋果電腦就能跑|開源免費
連結:https://news.miracleplus.com/share_link/11253
花500刀「調教」的70億參數模型,打敗700億參數的Llama 2! 且筆記本就能輕鬆跑,效果媲美ChatGPT。 重點:免費、不要錢。 HuggingFace H4團隊打造的開源模式Zephyr-7B,閃亮登場。 其底層模型是前段時間爆火、由有著「歐洲OpenAI」之稱的Mistral AI打造的開源大模型Mistral-7B。 要知道,Mistral-7B發布不到2週,各種微調版本相繼現世,大有Llama剛發佈時迅速出現各種“羊駝”之風。 而Zephyr能夠在各變種中脫穎而出,關鍵在於團隊在Mistral的基礎上,使用直接偏好優化(DPO)在公開資料集上微調了模型。 團隊也發現,刪除資料集的內建對齊,可以進一步提高MT Bench效能。 初代Zephyr-7B-alpha的MT-Bench平均得分7.09 ,超越Llama2-70B-Chat。

元乘象Chatimg3.0來了,趕超GPT-4V,還給產業升級新打法
連結:https://news.miracleplus.com/share_link/11254
在10 月28 日舉辦的CNCC 2023「超智融合AI 大模型應用落地發展論壇」上,智子引擎發布了「元乘象Chatimg3.0」,展示了多模態通用生成模型「元乘象Chatimg3. 0”的最新進展與落地探索。 元乘象 Chatimg3.0 是一個超精細辨識、少幻覺的多模態大模型,同時支援多圖理解、物體定位、OCR 等功能。 Chatimg3.0 為硬體設備裝上了大腦,可實現更自然更流暢的人機交流,為 AI 多模態大模型賦能產業應用打下了堅實的基礎。 與Chatimg2.0 相比,Chatimg3.0 主要進行了兩方面的升級,包括第一階段的預訓練(描述、檢測、OCR 等多任務訓練)以及第二階段的指令微調(高品質的人工精篩 指令集)。

多模態搜尋演算法如何讓影片搜尋更精準? 騰訊獨家揭秘,超詳細
連結:https://news.miracleplus.com/share_link/11255
影片搜尋作為搜尋中最大的橫向垂類,在約 50% 的搜尋字詞下都會有影片結果的展現。 然而,影片資源又不同於文字網頁資源,在影片理解、影片配對排序,以及互動行為等方面都會帶來新的技術挑戰。 多模態技術在近年來逐步走進人們的視野,特別是Transformer 結構在NLP 領域的大放異彩後,也向視覺、音頻等多模態領域延伸,為跨模態融合帶來更大的便利和可能 。 多模態預訓練(如ViLBERT/VisualBERT/VL-BERT/ERNIE-ViL 等)、多模態融合技術(例如基於矩陣、基於普通NN、基於attention 等)、多模態對齊技術、對比學習技術( 如CLIP)的發展,也為影片搜尋業務效果的快速提升帶來了可能。 作為一款每天服務千萬人的工具,騰訊 QQ 瀏覽器的搜尋功能扮演著重要角色。 伴隨著過去幾年的視頻生產 / 消費的趨勢,人們也在習慣消費視頻,搜尋視頻。

比Transformer好,無Attention、MLPs的BERT、GPT反而更強了
連結:https://news.miracleplus.com/share_link/11256
https://mp.weixin.qq.com/s/rjW-0pMCKWp-SNjgFJEfmw
從 BERT、GPT 和 Flan-T5 等語言模型到 SAM 和 Stable Diffusion 等影像模型,Transformer 正以銳不可當之勢席捲這個世界,但人們也不禁會問:Transformer 是唯一選擇嗎? 史丹佛大學和紐約州立大學布法羅分校的一個研究團隊不僅為這個問題給出了否定答案,而且還提出了一種新的替代技術:Monarch Mixer。 近日,團隊在 arXiv 公佈了相關論文和一些檢查點模型及訓練程式碼。 順帶一提,該論文已入選 NeurIPS 2023 並獲得 Oral Presentation 資格。

多模態LLM幻覺問題降低30%! 業界首個「啄木鳥」免重訓法誕生|中科大
連結:https://news.miracleplus.com/share_link/11257
還在用指令微調解決多模態大模型的「幻覺」問題嗎? 中科大的一項研究想到了一個全新辦法:一個免重訓、即插即用的通用架構,直接從模型給出的錯誤文本下手,“倒推”出可能出現“幻覺”之處,然後與圖片 確定事實,最終直接完成修正。 他們將這個方法命名為「啄木鳥」(Woodpecker)。 就像這位所謂的「森林醫生」先找出樹木的蟲洞再吃掉裡面的蟲子一樣,本文中所提出的「啄木鳥」也是多模態大模型們的「幻覺」醫生,能夠將問題先 診斷出來再一一糾正。
北大團隊:誘導大模型「幻覺」只需一串亂碼! 大小羊駝全中招
連結:https://news.miracleplus.com/share_link/11258
北大團隊最新研究發現:隨機token都能誘發大模型出現幻覺! Baichuan2-7B、InternLM-7B、ChatGLM、Ziya-LLaMA-7B、LLaMA-7B-chat、Vicuna-7B這些熱門大模型,都會出現類似情況。 這意味著,隨機字串能夠操控大模型輸出任意內容,為幻覺「代言」。 以上發現來自北大袁粒老師課題組的最新研究。 研究提出:大模型的幻覺現象極有可能是對抗樣本的另一種視角。 論文在展示兩種容易誘發大模型幻覺方法的同時,也提出了簡單有效的防禦辦法,程式碼已開源。
更高清寫實的人體生成模型HyperHuman來了,基於隱式結構擴散,刷新多項SOTA
連結:https://news.miracleplus.com/share_link/11259
為了在文生圖中引入結構控制訊息,近期的代表工作如ControlNet ([1]),T2I-Adapter ([2] )增加了非常輕量的、即插即用的可學習分支,用以調節預 訓練的文生圖擴散模型。 然而,原本擴散模型分支與新加入的可學習分支之間的特徵差距,往往會導致生成結果與控制訊號的不一致。 為了解決這個問題, HumanSD ([3] )使用了一種原生的控制引導方式,即直接將人體骨架圖與擴散模型輸入在特徵維度進行拼接。 在本文中,Snap 研究院、香港中文大學、香港大學、南洋理工大學團隊推出了最新的高寫實人體生成模型HyperHuman,透過對顯式的人體外觀與隱式的多層級人體結構進行聯合學習,在 zero-shot 的MS-COCO 資料集上取得了最佳的圖片品質(FID, FID_CLIP, KID)與生成- 人體姿態一致性(AP, AR)指標結果,且獲得了優異的文字- 影像對齊指標( CLIP score)結果,並在廣泛的用戶主觀評測中取得了最優的結果。
小模型如何比肩大模型,北理工發表明德大模型MindLLM,小模型潛力大
連結:https://news.miracleplus.com/share_link/11260
北京理工大學自然語言處理團隊發布系列雙語輕量級大語言模型明德(Ming De LLM)——MindLLM,全面介紹了大型模型開發過程中積累的經驗,涵蓋了數據構建、模型架構、評估和應用 過程的每個詳細步驟。 MindLLM 從頭開始訓練,具有 1.3B 和 3B 兩個版本, 在某些公共基準測試中始終匹配或超越其他開源大型模型的性能。 MindLLM 還引入了專為小型模型量身定制的創新指令調整框架,來有效增強其能力。 此外,在法律和金融等特定垂直領域的應用,MindLLM 也具有出色的領域適應能力。

Stable Diffusion背後的一個團隊想要開源情緒檢測AI
連結:https://news.miracleplus.com/share_link/11275
2019年,亞馬遜升級了其Alexa助手,增加了一項功能,使其能夠檢測到客戶何時可能感到沮喪,並相應地以更多的同情做出回應。 例如,如果客戶要求Alexa播放一首歌,但它排錯了歌,然後客戶用一種沮喪的語氣說“不,Alexa”,Alexa可能會道歉,並要求澄清。 現在,一個用於訓練文字到圖像模型Stable Diffusion的資料集背後的團隊希望為每個開發人員提供類似的情緒檢測功能——而且是免費的。

生成的分子幾乎 100% 有效,用於逆向分子設計的引導擴散模型
連結:https://news.miracleplus.com/share_link/11262
「從頭分子設計」是材料科學的「聖杯」。 生成深度學習的引入極大地推進了這個方向,但分子發現仍然具有挑戰性,而且往往效率低下。 以色列理工學院(Technion-Israel Institute of Technology)和義大利威尼斯大學(University Ca’ Foscari of Venice)的研究團隊,提出一種用於逆向分子設計的引導擴散模型:GaUDI,它結合了用於屬性預測的 等變圖神經網路和生成擴散模型。 研究人員透過將單目標和多目標任務應用於產生的 475,000 個多環芳香族系統資料集,證明了 GaUDI 在設計有機電子應用分子方面的有效性。 GaUDI 展示了改進的條件設計,產生具有最佳特性的分子,甚至超越原始分佈,提出了比資料集中的分子更好的分子。 除了逐點目標之外,GaUDI 還可以引導至開放式目標(例如最小值或最大值),在所有情況下,生成的分子的有效性都接近 100%。

為3萬名員工提供ChatGPT服務! 亞洲最大銀行之一與微軟合作
連結:https://news.miracleplus.com/share_link/11263
亞洲金融簡報消息,亞洲最大銀行之一華僑銀行(OCBC)將從11月開始,為全球3萬名員工提供OCBC ChatGPT服務,包括其全資子公司BoS(亞洲最大私人銀行之一)。 早在今年4月,OCBC與微軟Azure OpenAI進行了技術合作,結合其海量金融數據進行微調打造了銀行領域的ChatGPT助手,可用於文本生成、內容總結、起草郵件、翻譯內容、撰寫投資報告等用途 。 經過6個月1000多名員工,投資、管理、行銷、營運等多個核心部門的聯合測試。 現在,OCBC ChatGPT將正式作為日常工具為OCBC提供安全、可靠的生成式AI服務。
